Do Acervo Memorial ao Mundo Digital
Click here to load reader
description
Transcript of Do Acervo Memorial ao Mundo Digital
2012
Do Acervo Memorial ao Mundo Digital
Quem somos
Publicação dos produtos impressos O Globo, Extra e Expresso;
Distribuição digital dos produtos O Globo, Extra, Ela Digital e
Rio Show.
Fundada em julho de 1925;
Foco de atuação no Rio de Janeiro;
Digitalização do acervo histórico da Infoglobo,
garantindo a sua preservação e o preparando
para utilização em novas oportunidades de
negócio.
O projeto
Nossos desafios
• Grande volume de material (1,8MM páginas)
• Acervo físico em microfilme com algumas lacunas
• Fragilidade das coleções impressas
• Garantia da qualidade das imagens digitalizadas
Premissas Adotadas
Digitalização a partir do acervo microfilmado: Mais rápido do que a partir do acervo impresso;
Evita a manipulação das coleções impressas;
Boa qualidade das imagens geradas a partir desse suporte.
Geração de imagens bitonais: Arquivos aproximadamente 5x mais leves: menor custo com armazenamento;
Expectativa de melhor performance no trabalho de inserção das camadas de texto.
Busca textual nas páginas digitalizadas
Solução
Páginas impressas
Microfilmes do acervo
digitalização
Imagens Digitais
(TIFF)
Imagem + Texto
(PDF c/texto)
Processo OCR
Sistema de
arquivamento
Arquivamento
Solução - Microfilmes
A digitalização dos microfilmes feita por um fornecedor externo;
Dificuldade: parte do material comprometido
Resposta: regerar microfilmes a partir das coleções impressas
Solução - Páginas impressas
Contratação de mão de obra e equipamentos para realização do trabalho internamente;
Dificuldade: qualidade de impressão das páginas;
Resposta: tratamento manual da imagem gerada.
Solução - Camada de texto
Contratação de um fornecedor para inserir a camada de texto nas imagens;
Dificuldade: poucas empresas no Brasil e alto custo dos fornecedores estrangeiros;
Resposta: prova de conceito com fornecedores nacionais e internacionais.
Solução - Camada de texto
Prospecção de fornecedores
Prova de conceito Peso e qualidade dos PDF’s entregues
Precisão do OCR entregue
Precisão da segmentação de artigos
Precisão da identificação de informações para metadados: títulos e autores das matérias
Corte automático das rebarbas da página (invasão de páginas adjacentes)
Orientação automática das páginas (o mais horizontal possível)
Solução - Camada de texto
Recebimento das imagens com camada de texto em
lotes semanalmente;
Validação qualidade sobre amostragem do lote;
Pelo menos uma imagem dos arquivos da
amostragem não atender aos padrões de
qualidade, o lote é reprocessado.
Considerações finais
Digitalização total do acervo: aproximadamente 1 ano;
Equipe de projeto: 5 profissionais de tecnologia;
4 profissionais do centro de documentação;
42 profissionais para OCR 5 controle de qualidade
37 geração camada de texto
Pergutas?