Tratamento da Informação Digital · 2007. 2. 15. · Acervo Iconográfico. Fundação Biblioteca...
Transcript of Tratamento da Informação Digital · 2007. 2. 15. · Acervo Iconográfico. Fundação Biblioteca...
Tratamento Tratamento dada
InformaInformaçção Digital:ão Digital:prprááticas na Biblioteca Nacionalticas na Biblioteca Nacional
AngelaAngela Monteiro Monteiro BettencourtBettencourtCoordenadora de InformaCoordenadora de Informaçção Bibliogrão Bibliográáficafica
FundaFundaçção Biblioteca Nacionalão Biblioteca Nacional
A questão do tratamento tA questão do tratamento téécnico da informacnico da informaçção ão digital digital éé fundamental para o sucesso de fundamental para o sucesso de qualquer projeto de digitalizaqualquer projeto de digitalizaçção dele ão dele dependerdependeráá não snão sóó a efica eficáácia do cia do acessoacesso, a , a visibilidadevisibilidade dos recursos e a dos recursos e a preservapreservaçção a ão a longolongo prazo dos documentos digitais.prazo dos documentos digitais.
A A Biblioteca Nacional DigitalBiblioteca Nacional Digital comecomeççou em 2001 ou em 2001 com projetos de digitalizacom projetos de digitalizaçção financiados ão financiados atravatravéés de recursos externos, na ocasião não s de recursos externos, na ocasião não havia ainda uma polhavia ainda uma políítica de digitalizatica de digitalizaçção nem ão nem uma cadeia de digitalizauma cadeia de digitalizaçção estabelecidas.ão estabelecidas.
A Biblioteca Nacional DigitalBiblioteca Nacional Digital jjáá disponibiliza disponibiliza diversos conjuntos documentais:diversos conjuntos documentais:
Hondius, Hericus, 1563-1612 Freti Magellanici ac novi Freti vulgo La Maire exactissima delineatio[1633]
Munster, Sebastian, 1489-1552Typus orbis universalis. [Basiléia, Suíça] :Apud Henricum,1552
A coleção possui cerca de 2.500 atlas e mais de 20.000 mapas - entre impressos e manuscritos.
Acervo de Cartografia
2.000 documentos digitalizados2.000 documentos digitalizados
Fundação Biblioteca Nacional
Com cerca de 800.000 documentos compreende o período que vai do século XI ao século XX constituindo referência indispensável a pesquisadores em história e literatura. Jáforam digitalizadas algumas coleções como:
Acervo de Manuscritos
Francisco Freire Alemão
Alexandre Rodrigues FerreiraViagem filosófica
Fundação Biblioteca Nacional
Está em curso, sob o patrocínio da Getty Foundation, o Projeto de Identificação e Digitalização de 250 álbuns de fotografias (23.000 fotos) da Coleção Thereza Christina Maria registrada como patrimônio da humanidade pelo Programa Programa MemMemóória do Mundo da UNESCOria do Mundo da UNESCO..
Acervo Iconográfico
Fundação Biblioteca Nacional
É o maior acervo de música do Brasil com aproximadamente 220 mil peças entre discos, partituras, fitas, etc.
Acervo de Música
4.000 discos 4.000 discos –– 1.000 partituras1.000 partituras
Acervo de Obras Raras
Já foram digitalizados os principais tesouros do acervo como a Viagem ao Brasil de Hans Staden (1558) e a Arte de navegar de Martin Cortes (1551)
Hans Staden Martin Cortes
Fundação Biblioteca Nacional
Acervo de PeriódicosDestacam-se as coleções históricas de jornais como algumas das mais importantes publicações extintas. Foram digitalizados 35 jornais raros dos quais 20 manuscritos além do AlmanakLaemmert – 1844 -1899 e dos Anais da Biblioteca Nacional
critérios e políticas de seleção adequados
do acesso
da preservação a longo prazo
e da interoperabilidade com outros sistemas
Estes projetos foram muito importantes para o estabelecimento e consolidação de uma cadeia de digitalização própria baseada em:
padrões e técnicas de tratamento técnico
E para o desenvolvimento de um sistema de gestão que garantisse a eficácia:
seleção capturadigital
controlede
qualidade
compactação/compressão
armazenagem on line e off line
metadados
Cadeia de digitalização na Biblioteca Nacional
acesso webe
interoperabilidade
seleseleççãoão
Cadeia de digitalização na Biblioteca Nacional
qualidade da imagemqualidade da imagem visualizavisualizaççãoão preservapreservaçção a ão a longo prazolongo prazo
captura digital
Quanto à sua origem os recursos eletrônicos classificam-se em:
- os que nasceram digitaisnasceram digitais, publicados em mídias eletrônicas e os publicados somente na web
- os que foram convertidosconvertidos de suportes primários (papel, discos) ou secundários (microfilmes, cromos, etc.)
O tratamento técnico dos documentos digitais convertidos começa na sua captura ou conversão.
Resolução
Tonalidade
Legibilidade
Três pontos devem ser considerados:
Podem ser produzidos pela Biblioteca Digital seja localmente ou externamente através de prestadores, e a padronização já deve começar nesta etapa.
ResoluçãoÉ a capacidade de distinguir os detalhes finosDPI dots-per-inch e PPI pixels-per-inchsão termos sinônimos utilizados para expressar a resolução de imagens digitais.
100 dpi 300 dpi 600 dpi
O aumento da resolução permite capturar detalhes mais precisos. No entanto, uma maior resolução não traráobrigatoriamente como resultado um ganho evidente na qualidade da imagem, mas apenas um maior tamanho de arquivo.
Resolução
AA chave chave éé determinar a resoludeterminar a resoluçção necessão necessáária ria para capturar todos os detalhes importantes para capturar todos os detalhes importantes
presentes no documento fontepresentes no documento fonte
Na Biblioteca Nacional a captura é feita em 300 dpi e obedecendo o tamanho original do documento.
O arquivo de qualidade (TIFF)(TIFF) é armazenado com fins de preservação, posteriormente são gerados os arquivos derivados para fins de distribuição na Web
seleção capturadigital
Cadeia de digitalização na Biblioteca Nacional
controlede
qualidade
Consiste em aplicar periodicamente o mesmo processo de garantia de qualidade, utilizado na avaliação inicial Somente a avaliação continuada vai assegurar a qualidade de todo o projeto de digitalização.
Ocorre anteriormente à implementação do projeto, e consiste em utilizar um subconjunto de documentos a ser convertidos para verificar se as decisões técnicas tomadas com relação aos procedimentos e padrões foram apropriadas.
Avaliação inicial
Avaliação continuada
seleção capturadigital
Cadeia de digitalização na Biblioteca Nacional
controlede
qualidade
compactação/compressão
A compressão é utilizada para reduzir o tamanho do arquivo digital viabilizando a sua transmissão na web.A escolha do programa de compressão depende do tipo de recurso e de sua estruturaçãoQuanto à estruturação basicamente existem dois tipos de recursos: simples (composto de uma única imagem) e multi-parte (composto de várias imagens).Quanto ao tipo podem ser: sonoros, imagens, textos, filmes, etc.
Compactação/Compressão
Recursos sonoros
MID
Compactação/Compressão - Som
MP3
É um dos primeiros tipos de compressão de áudio, com perdas quase imperceptíveis ao ouvido humano. A redução do tamanho do arquivo é de cerca de 90%.O método de compressão com perdas consiste em retirar do áudio tudo aquilo que o ouvido humano normalmente não conseguiria perceber.
Compactação/Compressão - Som
158Kb
.MP3 (MPEG Audio Layer-3)
A grande vantagem do arquivo MID é o peso em Kbytes. Um arquivo MIDI não contém o áudiopropriamente dito, e sim as instruções para produzi-lo, que serão utilizadas por um sintetizador para a geração dos eventos musicais. É basicamente uma partitura digitalizada.
.MID (Musical Instrument Digital Interface)
2Kb
Recursos simples
Recursos multi-partes
JPG
MrSid
DjVu
MidFlip
Html
Compactação/Compressão - Imagem
Na web fica difícil detectar os efeitos da compressão com perda, e a imagem
pode considerar-se "sem perda visual".
É o principal esquema de compressão com perda,
permite selecionar o grau de compressão.
Foi sancionado pela ISO
..JPEG (JPEG (JointJoint PhotographicPhotographic ExpertsExperts GroupGroup
Os arquivos de mapas e fotos são compactados utilizando o software MrMr.SID.SID baseado em wavelet.
Este software integra múltiplas resoluções de uma imagem em um único arquivo permitindo aos usuários fazer zoom, obtendo assim mais e mais detalhes.
Comprime imagens sem perda visual da qualidade da imagem original.
MrMr.SID (.SID (MultiMulti--ResolutionResolution SeamlessSeamless ImageImage Database)Database),,
Preserva a aparência e a integridade dos documentos originaisOs arquivos Adobe PDF têm exatamente a mesma aparência dos documentos originais e preservam as fontes, as imagens, os elementos gráficos e o layout de qualquer arquivo de origem - independentemente do aplicativo e da plataforma usados.
.PDF (Portable Document Format)
.DJvu (Déjà vu)As imagens de um documento DjVu tem o menor tamanho quando comparadas com outros formatos disponíveis no mercado. Os arquivos DjVu podem ser 1.000 vezes menores que TIFFe de 10 até 100 vezes menores que JPEG ou PDF.
.HTML – (Hypertext Markup Language
MidFlip
pluginsplugins
seleção capturadigital
Cadeia de digitalização na Biblioteca Nacional
controlede
qualidade
compactação/compressão
armazenagem on line e off line
A nomeação e arquivamento dos arquivos digitais é feita de maneira sistemática, seguindo critérios que permitem a fácil associação de um recurso digital ao seu documento original correspondente.A armazenagem dos arquivos digitais derivados obedece a mesma estrutura dos arquivos master. É feita on line [HD] e off line[DVDs ; HDs] armazenados em arquivo deslizante na sala cofre, em condições ambientais adequadas
Arquivamento e Armazenagem
acervo_digital
div_iconografia
div_manuscritos
div_musica
Objdigital.bn.br
etc....
Modelo de armazenagem em DVD
sala cofre
arquivos deslizantes
seleção capturadigital
controlede
qualidade
compactação/compressão
armazenagem on line e off line
tratamentotécnico
Cadeia de digitalização na Biblioteca Nacional
descobertadescobertaee
identificaidentificaççãoão
gestão gestão de de
direitosdireitos
preservapreservaçção ão a a
longo prazolongo prazo
A identificação dos recursos digitais estácondicionada à sua descrição (onde as tradicionais normas AACR2 e/ou ISBD são aplicadas) e também ao esquema de metadados e sua estrutura (Dublin Core, MODS, METS, MARCXML, etc.), que mais adiante também influirão na interoperabilidade com outros sistemas.
Para a eficácia da descoberta é preciso também o controle dos principais pontos de acesso que no caso dos documentos eletrônicos são: assuntos (bilíngüe) e autorias
IdentificaIdentificaçção e ão e DescriDescriççãoão
Documento tradicional :- separação física entre ele e a sua descrição éinevitávelpontos “de acesso” = acesso à descrição, não ao documento em si.
Documento eletrônico : - pontos “de acesso” = acesso é direto ao documento seja no todo ou a partes
« Os Metadados são as informações estruturadas que descrevem, explicam, localizam ou ainda facilitam a descoberta, utilização ou gestão de um recurso informacional »
O termo “Metadado” começou a ser usado em 1994. No seu sentido original consiste em dados digitais fornecendo informações sobre um pacote de dados digitais ao qual pertencem.
NISO (National Information Standards Organization), Understanding metadata, 2004, ISBN 1-880124-62-9
<http://www.niso.org/standards/resources/UnderstandingMetadata.pdf>
Esquema de metadados e Esquema de metadados e estrutura do registroestrutura do registro
Tipos de metadados
Metadados administrativosadministrativos(compreendem principalmente : metadados de gestão de direitos e de acesso, e metadados de preservação)
Metadados estruturaisestruturais(explicitação das relações entre as partes do recurso, links entre estas partes)
Metadados descritivosdescritivos(objetivo : descoberta e identificação dos recursos)
Fundação Biblioteca Nacional
Podem se referir a:
um conjunto de recursosum recurso individualuma parte de um recurso
Onde se posicionam ?
• Podem ser :
– Encapsulados (exemplo: Dublin Core)– Englobantes (exemplo: EAD)– Externos (exemplo: MARC)
Recurso
Metadadosencapsulados Metadados
englobantes Recurso
Metadadosexternos
http://… Recurso
Esquema de metadados e Esquema de metadados e estrutura do registroestrutura do registro
?
Esquema de metadados e Esquema de metadados e estrutura do registroestrutura do registro
Para estruturar os registros seguimos as etiquetas (tags) do MARC21. Para as informações específicas dos recursos digitais e não previstas no formato MARC21 bibliográfico acrescentamos etiquetas permitidas pelo formato para informações locais:X9XX9X e 9XX9XX
Tipo de recurso
DireitosData
CoberturaColaborador
RelaçãoEditor
LínguaDescrição
FonteAssuntos
IdentificadorAutorCriador
FormatoTítulo
(1995) ISO 15836 (2003)
para a escolha dos metadados nos baseamos inicialmente nos 15 elementos Dublin Core
suficientemente simples, mas suficientemente estruturados para que pudessem aumentar a performance dos motores de busca
Aos 15 elementos do Dublin Core acrescentamos mais 7 elementos do MODSEsquema XML apoiado no MARC21 para assegurar a continuidade entre os registros « tradicionais » e os novos registros utilisando XMLDesenvolvido pela Biblioteca do Congresso 2001-2003 (versão 3.1 : julho 2005)Permite :– Reutilizar parte de um registro
em formato MARC21– Criar diretamente metadados
originaisIdentificador
Nível de audiênciaInformação de origem
Informações do registro
Item relacionado
Tabela de conteúdos
Gênero
ExtensãoClassificação
ResumoTipo de recurso
Condições de acesso
Assunto
Descrição físicaNome
LocalizaçãoNota
LínguaTítulo
ISO 15836 (2003)
Esquema de metadados utilizado pela Biblioteca Nacional
+ =
Identificador
Nível de audiência
Informação de origem
Informações do registro
Item relacionado
Tabela de conteúdos
Gênero
ExtensãoClassificação
ResumoTipo de recurso
Condições de acesso
Assunto
Descrição físicaNome
LocalizaçãoNota
LínguaTítulo
Tipo de recurso
DireitosData
CoberturaColaborador
RelaçãoEditor
LínguaDescrição
FonteAssuntos
IdentificadorAutorCriador
FormatoTítulo
Controle dos pontos de acesso
Autoridades nomes
Autoridades assuntos
Para o controle de Autoridades de Nomes nos baseamos na Base de Autoridades da Biblioteca Nacional, hoje com cerca de 200.000 registros e mais de 300.000 remissivas
Para o controle de Terminologia de Assuntos, nos baseamos na base de Terminologia da Biblioteca Nacional que é uma linguagem pré-coordenada (cabeçalhos de assuntos)baseada na LCSH (Lista de Cabeçalhos de assunto da Library of Congress. Segue uma estrutura de Tesauro com termos genéricos, específicos e relacionados.É bilíngüe na busca o termo tanto em inglês como em português.
Na Biblioteca Digital o acesso por assuntos pode ser feito tanto em português como em inglês e a utilização de uma linguagem pré-coordenada não se choca com a adoção de uma pós-coordenada graças à possibilidade de também se recuperar por termos livres
seleção capturadigital
Cadeia de digitalização na Biblioteca Nacional
controlede
qualidade
compactação/compressão
armazenagem on line e off line
acesso webe
interoperabilidade
tratamentotécnico
Acesso e Interoperabilidade com Acesso e Interoperabilidade com outros sistemasoutros sistemas
Para melhor interoperar e cooperar com outros sistemas utilizamos o Formato MARC21 e exportamos os registros de metadados em diversos formatos:
ISO 2709
ANSI Z39.2
MARCXML
Dublin Core XML (comunicação com OAI)
É uma linguagem de marcação usada para transferir simultaneamente, em um ambiente informático, dados textuais em conjunto com a sua estruturaUm formato livre e aberto, mantido pelo W3C e independente de qualquer plataforma informáticaUsado em bibliotecas para divulgar registros na web (MARCXML, MODS, METS, BiblioML) e para intercambiar registros na web (OAI/Dublin Core)
O uso do o XML– ExtendedMarkup Language
A exportação dos metadados no padrão Dublin Core, utilizando a linguagem XML, permite que coletores de metadados (harversters), como o OAI-PMH coletem esses recursos tornando-os acessíveis aos motores de busca e derrubando assim as barreiras da web profunda.
páginas web dinâmicas, multimídias, serviços por assinatura,
artigos de jornais,bases de dados, grupos de discussão,
formatos especiais de documentos (como pdf e doc)
e recursos intranet privados
páginas webnormais e outros
recursosda Internet de acesso direto
webweb profundaprofundawebweb de superfde superfííciecie
Exemplo de metadados exportados em OAI/Dublin Core
Acesso e Interoperabilidade com Acesso e Interoperabilidade com outros sistemasoutros sistemas
Para acessar e ser acessado por outros sistemas abrimos o gateway Z39.50Z39.50 que é um protocolo de comunicação entre computadores desenhado para permitir pesquisa e recuperação de informação em redes de computadores na webPara acessar o sistema Z39.50 é necessário contar com um programa especial chamado cliente Z39.50.
ANSI/NISO Z39.50 (1995) [o nome se deve por ter sido desenvolvido pelo comitê 39 da ANSI e por ser a norma 50 da NISO]
Apresentamos os metadados da seguinte forma:
visualização
estruturação
identificação
gestão de direitos
cart325616fr
estruturação preservação
visualização
gestão reproduções
OBRIGADAOBRIGADA
[email protected]@bn.br
A imagem digital é uma “fotografia eletrônica”, que pode conter toda a informação (forma e conteúdo) do original, incluindo os sinais de sua idade e de seus usos prévios.
A imagem original é transformada numa malha de pontos ou ‘pixels’
(picture elements)
Cada pixel recebe um valor tonal (branco, preto, tons de cinza ou cor), representado em bits [código binário - (zeros) e (uns)]
Tonalidade
Profundidade de bit significa o número de bits usados para transmitir tonalidade a cada pixel.
- Escala de cinza8-bit - produz 256 sombras de cinza variando de puro branco a puro preto.
O "bit" (binary digit), é a menor unidade de informação usada na Computação
e na Teoria da Informação.
-Preto e branco1-bit ou Bitonal - para 1-bit pixel existem dois valores possíveis, preto ou branco.
- Colorida24-bit - produz a variação tonal de cerca de 16 milhões de diferentes cores.