Apresentação GT - Digital Preservation

32
GT Digital Preservation Rio de Janeiro Setembro de 2011

description

Apresentação geral do GT - Digital Preservarion, em 01 de setembro de 2011, na Escola de Redes da RNP, no Rio de Janeiro.

Transcript of Apresentação GT - Digital Preservation

GT Digital Preservation

Rio de JaneiroSetembro de 2011

● Motivação

● Serviço proposto

● Modelo de replicação

● Implementação e arquitetura do sistema

● Protótipo no PlanetLab

● Conclusão

Roteiro

Importância dos dados digitais

● Nossa herança cultural tem sido preservada em muitos materiais diferentes, incluindo rocha, couro, seda, papel e outros

● Hoje uma quantidade considerável de informação está sendo produzida em formato digital

● Curiosamente o meio digital é mais vulnerável a deterioração que os meios convencionais

Motivação

Preservação digital

● Boa parte das instituições tem grande dificuldade para preservar seus dados

● Dificuldades principais: ● Custos com hardware e infra-estrutura● Ausência de pessoal especializado● O volume de informação armazenada cresce

constantemente

Motivação

Preservação digital

● Redes de compartilhamento de arquivos Peer-to-Peer não atendem os requisitos de preservação digital pois previligiam conteúdo popular

● Nuvens computacionais não oferecem as garantias de longo prazo necessárias

● Além de considerar as falhas de hardware e software é necessário considerar falhas organizacionais e humanas

Motivação

Objetivo

Oferecer um sistema de arquivamento digital baseado em armazenamento distribuído

garantindo preservação de dados a baixo custo por períodos de tempo indefinidamente longos

Serviço proposto

Algumas considerações importantes

● O sistema é baseado no modelo de federação● Facilidade de adesão é importante

● Os dados são imutáveis

● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA

● Desempenho para recuperação dos dados não é uma preocupação

● Heterogeneidade é desejável

Serviço proposto

Algumas considerações importantes

● O sistema é baseado no modelo de federação● Facilidade de adesão é importante

● Os dados são imutáveis

● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA

● Desempenho para recuperação dos dados não é uma preocupação

● Heterogeneidade é desejável

Serviço proposto

Requisitos para implementação

● O sistema deve ser o menos intrusivo possível

● Evitar sobrecargas, especialmente em disco

● Utilização de ferramentas e protocolos com implementações seguras e amplamente disponíveis

● Instalável em uma grande variedade de plataformas

Serviço proposto

Modelo de replicação

● Conjunto de repositórios (computadores executando o sistema) distribuídos geograficamente

● Repositórios podem ser desde servidores de alta-disponibilidade instalados em centros de dados até desktops comuns

● A unidade de preservação é um item ou objeto digital

O Modelo

Definições do modelo

● Uma métrica de confiabilidade é associada a cada repositório

● Cada item é armazenado com uma confiabilidade desejada que reflete a importância do item

● Para atender a confiabilidade desejada para um item, réplicas são criadas nos repositórios

O Modelo

●1 - ((1-0.99) * (1-0.95) * (1-0.85)) = 99.993%●1 - ((1-0.95) * (1-0.95) * (1-0.85) * (1-0.75)) = 99.991%

O Modelo

O processo de auditoria

● Réplicas podem ser perdidas durante o tempo

● É necessário verificar periodicamente a existência destas réplicas

● Quanto maior o número de auditorias maior a confiabilidade obtida● Entretanto esse intervalo de tempo não pode ser pequeno

Auditoria

Implementação

● Repositórios são PC rodando alguma distribuição Linux

● Uso de ferramentas padrão do sistema

● Bash scripts, linguagem C e Java

● Software Livre GPL

Implementação do Protótipo

Arquitetura do protótipo

Camada de Armazenamento

● Responsável pelo armazenamento das réplicas dos objetos digitais

● São implementadas as operações de transferência de objetos digitais entre repositórios (replicação) e de verificação periódica da integridade do conteúdo das réplicas

● Secure Shell (SSH) e Rsync

Implementação

Camada de Gerenciamento

● Responsável por gerenciar os objetos do repositório para garantir os níveis de confiabilidade

● Inserção, auditoria, recuperação e consulta de objetos

Implementação

Estratégia para seleção de réplicas

● Escolhemos aleatoriamente um conjunto de repositórios candidatos a armazenar as réplicas de um determinado item

● Para este conjunto de repositórios, calculamos o intervalo de auditoria necessário para atingir a confiabilidade desejada

● O intervalo de auditoria mínimo é configurado pelo administrador local do sistema

Implementação

● Espaço total: 200TB● Utilização de 99% do espaço● Total de ítens: 58.000● 48.437.231MB (48TB)

N. rep. tam(MB) conf(%) var.uniform(%) min.audit(dias) var.uniform(%)

50 1000000 80 10 30 10

50 1000000 90 10 30 10

50 1000000 80 10 45 10

50 1000000 90 10 45 10

Simulação

100 anos sem auditoria

100 anos com auditoriaImplementação

500 anos com auditoria

Tudo foi perdido!

500 anos sem auditoria

Camada da Interface

● A padronização da comunicação entre as aplicações e a camada de gerenciamento é realizada por um serviço web

● Web Service (SOAP, WSDL, Java)

● Inserir, consultar e recuperar

Implementação

Camada de Aplicações

● Diversas aplicações podem necessitar ou desejar um serviço de preservação

● Usuário pode inserir, consultar e recuperar seus arquivos

● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)

ImplementaçãoImplementação

Camada de Aplicações

● Diversas aplicações podem necessitar ou desejar um serviço de preservação

● Usuário pode inserir, consultar e recuperar seus arquivos

● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)

Implementação

O Ambiente

● Rede formada por milhares de computadores espalhados pelo planeta

● Nodos do slice estão quase sempre sobrecarregados

● Em muitos casos podemos dizer que as condições oferecidas são piores que a realidade

Protótipo no Planetlab

Avaliação

● A implantação no Plab obrigou a refinar a implementação tornando o sistema mais robusto

● Devemos ampliar o número de repositórios no futuro próximo

● E utilizar essa rede para preservar o acervo dos 100 anos da UFPR

Protótipo no Planetlab

Avaliação

● Principais funcionalidades estão implementadas

● As decisões iniciais de projetos se mostraram acertadas

● Existe um bom número de interessados em utilizar o sistema

Protótipo no Planetlab

Avaliação

● Principais funcionalidades estão implementadas

● As decisões iniciais de projetos se mostraram acertadas

● Dissertações e TCC também foram produzidos

● Existe um bom número de interessados em utilizar o sistema

Protótipo no PlanetlabImplementação

Para uma nova fase

● Estimar a confiabilidade de cada repositório

● Compartilhamento das chaves SSH

● Sistema de Indexação

● Controle do consumo de recursos

● Ferramentas para operação do serviço

● O modelo de governança a ser adotado

Protótipo no Planetlab

● O problema atacado é relevante

● O modelo parece adequado e o protótipo mostra a viabilidade prática do serviço

● Integrar mais nodos do PlanetLab e também

● Fase de “acabamento” do projeto: versão final da documentação, novo site, etc.

Conclusão e Trabalhos Futuros