Apresentação GT - Digital Preservation
-
Upload
roberto-beraldo-chaiben -
Category
Business
-
view
241 -
download
1
description
Transcript of Apresentação GT - Digital Preservation
● Motivação
● Serviço proposto
● Modelo de replicação
● Implementação e arquitetura do sistema
● Protótipo no PlanetLab
● Conclusão
Roteiro
Importância dos dados digitais
● Nossa herança cultural tem sido preservada em muitos materiais diferentes, incluindo rocha, couro, seda, papel e outros
● Hoje uma quantidade considerável de informação está sendo produzida em formato digital
● Curiosamente o meio digital é mais vulnerável a deterioração que os meios convencionais
Motivação
Preservação digital
● Boa parte das instituições tem grande dificuldade para preservar seus dados
● Dificuldades principais: ● Custos com hardware e infra-estrutura● Ausência de pessoal especializado● O volume de informação armazenada cresce
constantemente
Motivação
Preservação digital
● Redes de compartilhamento de arquivos Peer-to-Peer não atendem os requisitos de preservação digital pois previligiam conteúdo popular
● Nuvens computacionais não oferecem as garantias de longo prazo necessárias
● Além de considerar as falhas de hardware e software é necessário considerar falhas organizacionais e humanas
Motivação
Objetivo
Oferecer um sistema de arquivamento digital baseado em armazenamento distribuído
garantindo preservação de dados a baixo custo por períodos de tempo indefinidamente longos
Serviço proposto
Algumas considerações importantes
● O sistema é baseado no modelo de federação● Facilidade de adesão é importante
● Os dados são imutáveis
● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA
● Desempenho para recuperação dos dados não é uma preocupação
● Heterogeneidade é desejável
Serviço proposto
Algumas considerações importantes
● O sistema é baseado no modelo de federação● Facilidade de adesão é importante
● Os dados são imutáveis
● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA
● Desempenho para recuperação dos dados não é uma preocupação
● Heterogeneidade é desejável
Serviço proposto
Requisitos para implementação
● O sistema deve ser o menos intrusivo possível
● Evitar sobrecargas, especialmente em disco
● Utilização de ferramentas e protocolos com implementações seguras e amplamente disponíveis
● Instalável em uma grande variedade de plataformas
Serviço proposto
Modelo de replicação
● Conjunto de repositórios (computadores executando o sistema) distribuídos geograficamente
● Repositórios podem ser desde servidores de alta-disponibilidade instalados em centros de dados até desktops comuns
● A unidade de preservação é um item ou objeto digital
O Modelo
Definições do modelo
● Uma métrica de confiabilidade é associada a cada repositório
● Cada item é armazenado com uma confiabilidade desejada que reflete a importância do item
● Para atender a confiabilidade desejada para um item, réplicas são criadas nos repositórios
O Modelo
●1 - ((1-0.99) * (1-0.95) * (1-0.85)) = 99.993%●1 - ((1-0.95) * (1-0.95) * (1-0.85) * (1-0.75)) = 99.991%
O Modelo
O processo de auditoria
● Réplicas podem ser perdidas durante o tempo
● É necessário verificar periodicamente a existência destas réplicas
● Quanto maior o número de auditorias maior a confiabilidade obtida● Entretanto esse intervalo de tempo não pode ser pequeno
Auditoria
Implementação
● Repositórios são PC rodando alguma distribuição Linux
● Uso de ferramentas padrão do sistema
● Bash scripts, linguagem C e Java
● Software Livre GPL
Implementação do Protótipo
Camada de Armazenamento
● Responsável pelo armazenamento das réplicas dos objetos digitais
● São implementadas as operações de transferência de objetos digitais entre repositórios (replicação) e de verificação periódica da integridade do conteúdo das réplicas
● Secure Shell (SSH) e Rsync
Implementação
Camada de Gerenciamento
● Responsável por gerenciar os objetos do repositório para garantir os níveis de confiabilidade
● Inserção, auditoria, recuperação e consulta de objetos
Implementação
Estratégia para seleção de réplicas
● Escolhemos aleatoriamente um conjunto de repositórios candidatos a armazenar as réplicas de um determinado item
● Para este conjunto de repositórios, calculamos o intervalo de auditoria necessário para atingir a confiabilidade desejada
● O intervalo de auditoria mínimo é configurado pelo administrador local do sistema
Implementação
● Espaço total: 200TB● Utilização de 99% do espaço● Total de ítens: 58.000● 48.437.231MB (48TB)
N. rep. tam(MB) conf(%) var.uniform(%) min.audit(dias) var.uniform(%)
50 1000000 80 10 30 10
50 1000000 90 10 30 10
50 1000000 80 10 45 10
50 1000000 90 10 45 10
Simulação
Camada da Interface
● A padronização da comunicação entre as aplicações e a camada de gerenciamento é realizada por um serviço web
● Web Service (SOAP, WSDL, Java)
● Inserir, consultar e recuperar
Implementação
Camada de Aplicações
● Diversas aplicações podem necessitar ou desejar um serviço de preservação
● Usuário pode inserir, consultar e recuperar seus arquivos
● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)
ImplementaçãoImplementação
Camada de Aplicações
● Diversas aplicações podem necessitar ou desejar um serviço de preservação
● Usuário pode inserir, consultar e recuperar seus arquivos
● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)
Implementação
O Ambiente
● Rede formada por milhares de computadores espalhados pelo planeta
● Nodos do slice estão quase sempre sobrecarregados
● Em muitos casos podemos dizer que as condições oferecidas são piores que a realidade
Protótipo no Planetlab
Avaliação
● A implantação no Plab obrigou a refinar a implementação tornando o sistema mais robusto
● Devemos ampliar o número de repositórios no futuro próximo
● E utilizar essa rede para preservar o acervo dos 100 anos da UFPR
Protótipo no Planetlab
Avaliação
● Principais funcionalidades estão implementadas
● As decisões iniciais de projetos se mostraram acertadas
● Existe um bom número de interessados em utilizar o sistema
Protótipo no Planetlab
Avaliação
● Principais funcionalidades estão implementadas
● As decisões iniciais de projetos se mostraram acertadas
● Dissertações e TCC também foram produzidos
● Existe um bom número de interessados em utilizar o sistema
Protótipo no PlanetlabImplementação
Para uma nova fase
● Estimar a confiabilidade de cada repositório
● Compartilhamento das chaves SSH
● Sistema de Indexação
● Controle do consumo de recursos
● Ferramentas para operação do serviço
● O modelo de governança a ser adotado
Protótipo no Planetlab