Tratamento da Informação Digital · 2007. 2. 15. · Acervo Iconográfico. Fundação Biblioteca...

Post on 20-Aug-2021

5 views 0 download

Transcript of Tratamento da Informação Digital · 2007. 2. 15. · Acervo Iconográfico. Fundação Biblioteca...

Tratamento Tratamento dada

InformaInformaçção Digital:ão Digital:prprááticas na Biblioteca Nacionalticas na Biblioteca Nacional

AngelaAngela Monteiro Monteiro BettencourtBettencourtCoordenadora de InformaCoordenadora de Informaçção Bibliogrão Bibliográáficafica

FundaFundaçção Biblioteca Nacionalão Biblioteca Nacional

A questão do tratamento tA questão do tratamento téécnico da informacnico da informaçção ão digital digital éé fundamental para o sucesso de fundamental para o sucesso de qualquer projeto de digitalizaqualquer projeto de digitalizaçção dele ão dele dependerdependeráá não snão sóó a efica eficáácia do cia do acessoacesso, a , a visibilidadevisibilidade dos recursos e a dos recursos e a preservapreservaçção a ão a longolongo prazo dos documentos digitais.prazo dos documentos digitais.

A A Biblioteca Nacional DigitalBiblioteca Nacional Digital comecomeççou em 2001 ou em 2001 com projetos de digitalizacom projetos de digitalizaçção financiados ão financiados atravatravéés de recursos externos, na ocasião não s de recursos externos, na ocasião não havia ainda uma polhavia ainda uma políítica de digitalizatica de digitalizaçção nem ão nem uma cadeia de digitalizauma cadeia de digitalizaçção estabelecidas.ão estabelecidas.

A Biblioteca Nacional DigitalBiblioteca Nacional Digital jjáá disponibiliza disponibiliza diversos conjuntos documentais:diversos conjuntos documentais:

Hondius, Hericus, 1563-1612 Freti Magellanici ac novi Freti vulgo La Maire exactissima delineatio[1633]

Munster, Sebastian, 1489-1552Typus orbis universalis. [Basiléia, Suíça] :Apud Henricum,1552

A coleção possui cerca de 2.500 atlas e mais de 20.000 mapas - entre impressos e manuscritos.

Acervo de Cartografia

2.000 documentos digitalizados2.000 documentos digitalizados

Fundação Biblioteca Nacional

Com cerca de 800.000 documentos compreende o período que vai do século XI ao século XX constituindo referência indispensável a pesquisadores em história e literatura. Jáforam digitalizadas algumas coleções como:

Acervo de Manuscritos

Francisco Freire Alemão

Alexandre Rodrigues FerreiraViagem filosófica

Fundação Biblioteca Nacional

Está em curso, sob o patrocínio da Getty Foundation, o Projeto de Identificação e Digitalização de 250 álbuns de fotografias (23.000 fotos) da Coleção Thereza Christina Maria registrada como patrimônio da humanidade pelo Programa Programa MemMemóória do Mundo da UNESCOria do Mundo da UNESCO..

Acervo Iconográfico

Fundação Biblioteca Nacional

É o maior acervo de música do Brasil com aproximadamente 220 mil peças entre discos, partituras, fitas, etc.

Acervo de Música

4.000 discos 4.000 discos –– 1.000 partituras1.000 partituras

Acervo de Obras Raras

Já foram digitalizados os principais tesouros do acervo como a Viagem ao Brasil de Hans Staden (1558) e a Arte de navegar de Martin Cortes (1551)

Hans Staden Martin Cortes

Fundação Biblioteca Nacional

Acervo de PeriódicosDestacam-se as coleções históricas de jornais como algumas das mais importantes publicações extintas. Foram digitalizados 35 jornais raros dos quais 20 manuscritos além do AlmanakLaemmert – 1844 -1899 e dos Anais da Biblioteca Nacional

critérios e políticas de seleção adequados

do acesso

da preservação a longo prazo

e da interoperabilidade com outros sistemas

Estes projetos foram muito importantes para o estabelecimento e consolidação de uma cadeia de digitalização própria baseada em:

padrões e técnicas de tratamento técnico

E para o desenvolvimento de um sistema de gestão que garantisse a eficácia:

seleção capturadigital

controlede

qualidade

compactação/compressão

armazenagem on line e off line

metadados

Cadeia de digitalização na Biblioteca Nacional

acesso webe

interoperabilidade

seleseleççãoão

Cadeia de digitalização na Biblioteca Nacional

qualidade da imagemqualidade da imagem visualizavisualizaççãoão preservapreservaçção a ão a longo prazolongo prazo

captura digital

Quanto à sua origem os recursos eletrônicos classificam-se em:

- os que nasceram digitaisnasceram digitais, publicados em mídias eletrônicas e os publicados somente na web

- os que foram convertidosconvertidos de suportes primários (papel, discos) ou secundários (microfilmes, cromos, etc.)

O tratamento técnico dos documentos digitais convertidos começa na sua captura ou conversão.

Resolução

Tonalidade

Legibilidade

Três pontos devem ser considerados:

Podem ser produzidos pela Biblioteca Digital seja localmente ou externamente através de prestadores, e a padronização já deve começar nesta etapa.

ResoluçãoÉ a capacidade de distinguir os detalhes finosDPI dots-per-inch e PPI pixels-per-inchsão termos sinônimos utilizados para expressar a resolução de imagens digitais.

100 dpi 300 dpi 600 dpi

O aumento da resolução permite capturar detalhes mais precisos. No entanto, uma maior resolução não traráobrigatoriamente como resultado um ganho evidente na qualidade da imagem, mas apenas um maior tamanho de arquivo.

Resolução

AA chave chave éé determinar a resoludeterminar a resoluçção necessão necessáária ria para capturar todos os detalhes importantes para capturar todos os detalhes importantes

presentes no documento fontepresentes no documento fonte

Na Biblioteca Nacional a captura é feita em 300 dpi e obedecendo o tamanho original do documento.

O arquivo de qualidade (TIFF)(TIFF) é armazenado com fins de preservação, posteriormente são gerados os arquivos derivados para fins de distribuição na Web

seleção capturadigital

Cadeia de digitalização na Biblioteca Nacional

controlede

qualidade

Consiste em aplicar periodicamente o mesmo processo de garantia de qualidade, utilizado na avaliação inicial Somente a avaliação continuada vai assegurar a qualidade de todo o projeto de digitalização.

Ocorre anteriormente à implementação do projeto, e consiste em utilizar um subconjunto de documentos a ser convertidos para verificar se as decisões técnicas tomadas com relação aos procedimentos e padrões foram apropriadas.

Avaliação inicial

Avaliação continuada

seleção capturadigital

Cadeia de digitalização na Biblioteca Nacional

controlede

qualidade

compactação/compressão

A compressão é utilizada para reduzir o tamanho do arquivo digital viabilizando a sua transmissão na web.A escolha do programa de compressão depende do tipo de recurso e de sua estruturaçãoQuanto à estruturação basicamente existem dois tipos de recursos: simples (composto de uma única imagem) e multi-parte (composto de várias imagens).Quanto ao tipo podem ser: sonoros, imagens, textos, filmes, etc.

Compactação/Compressão

Recursos sonoros

MID

Compactação/Compressão - Som

MP3

É um dos primeiros tipos de compressão de áudio, com perdas quase imperceptíveis ao ouvido humano. A redução do tamanho do arquivo é de cerca de 90%.O método de compressão com perdas consiste em retirar do áudio tudo aquilo que o ouvido humano normalmente não conseguiria perceber.

Compactação/Compressão - Som

158Kb

.MP3 (MPEG Audio Layer-3)

A grande vantagem do arquivo MID é o peso em Kbytes. Um arquivo MIDI não contém o áudiopropriamente dito, e sim as instruções para produzi-lo, que serão utilizadas por um sintetizador para a geração dos eventos musicais. É basicamente uma partitura digitalizada.

.MID (Musical Instrument Digital Interface)

2Kb

Recursos simples

Recursos multi-partes

JPG

MrSid

DjVu

PDF

MidFlip

Html

Compactação/Compressão - Imagem

Na web fica difícil detectar os efeitos da compressão com perda, e a imagem

pode considerar-se "sem perda visual".

É o principal esquema de compressão com perda,

permite selecionar o grau de compressão.

Foi sancionado pela ISO

..JPEG (JPEG (JointJoint PhotographicPhotographic ExpertsExperts GroupGroup

Os arquivos de mapas e fotos são compactados utilizando o software MrMr.SID.SID baseado em wavelet.

Este software integra múltiplas resoluções de uma imagem em um único arquivo permitindo aos usuários fazer zoom, obtendo assim mais e mais detalhes.

Comprime imagens sem perda visual da qualidade da imagem original.

MrMr.SID (.SID (MultiMulti--ResolutionResolution SeamlessSeamless ImageImage Database)Database),,

Preserva a aparência e a integridade dos documentos originaisOs arquivos Adobe PDF têm exatamente a mesma aparência dos documentos originais e preservam as fontes, as imagens, os elementos gráficos e o layout de qualquer arquivo de origem - independentemente do aplicativo e da plataforma usados.

.PDF (Portable Document Format)

.DJvu (Déjà vu)As imagens de um documento DjVu tem o menor tamanho quando comparadas com outros formatos disponíveis no mercado. Os arquivos DjVu podem ser 1.000 vezes menores que TIFFe de 10 até 100 vezes menores que JPEG ou PDF.

.HTML – (Hypertext Markup Language

MidFlip

pluginsplugins

seleção capturadigital

Cadeia de digitalização na Biblioteca Nacional

controlede

qualidade

compactação/compressão

armazenagem on line e off line

A nomeação e arquivamento dos arquivos digitais é feita de maneira sistemática, seguindo critérios que permitem a fácil associação de um recurso digital ao seu documento original correspondente.A armazenagem dos arquivos digitais derivados obedece a mesma estrutura dos arquivos master. É feita on line [HD] e off line[DVDs ; HDs] armazenados em arquivo deslizante na sala cofre, em condições ambientais adequadas

Arquivamento e Armazenagem

acervo_digital

div_iconografia

div_manuscritos

div_musica

Objdigital.bn.br

etc....

Modelo de armazenagem em DVD

sala cofre

arquivos deslizantes

seleção capturadigital

controlede

qualidade

compactação/compressão

armazenagem on line e off line

tratamentotécnico

Cadeia de digitalização na Biblioteca Nacional

descobertadescobertaee

identificaidentificaççãoão

gestão gestão de de

direitosdireitos

preservapreservaçção ão a a

longo prazolongo prazo

A identificação dos recursos digitais estácondicionada à sua descrição (onde as tradicionais normas AACR2 e/ou ISBD são aplicadas) e também ao esquema de metadados e sua estrutura (Dublin Core, MODS, METS, MARCXML, etc.), que mais adiante também influirão na interoperabilidade com outros sistemas.

Para a eficácia da descoberta é preciso também o controle dos principais pontos de acesso que no caso dos documentos eletrônicos são: assuntos (bilíngüe) e autorias

IdentificaIdentificaçção e ão e DescriDescriççãoão

Documento tradicional :- separação física entre ele e a sua descrição éinevitávelpontos “de acesso” = acesso à descrição, não ao documento em si.

Documento eletrônico : - pontos “de acesso” = acesso é direto ao documento seja no todo ou a partes

« Os Metadados são as informações estruturadas que descrevem, explicam, localizam ou ainda facilitam a descoberta, utilização ou gestão de um recurso informacional »

O termo “Metadado” começou a ser usado em 1994. No seu sentido original consiste em dados digitais fornecendo informações sobre um pacote de dados digitais ao qual pertencem.

NISO (National Information Standards Organization), Understanding metadata, 2004, ISBN 1-880124-62-9

<http://www.niso.org/standards/resources/UnderstandingMetadata.pdf>

Esquema de metadados e Esquema de metadados e estrutura do registroestrutura do registro

Tipos de metadados

Metadados administrativosadministrativos(compreendem principalmente : metadados de gestão de direitos e de acesso, e metadados de preservação)

Metadados estruturaisestruturais(explicitação das relações entre as partes do recurso, links entre estas partes)

Metadados descritivosdescritivos(objetivo : descoberta e identificação dos recursos)

Fundação Biblioteca Nacional

Podem se referir a:

um conjunto de recursosum recurso individualuma parte de um recurso

Onde se posicionam ?

• Podem ser :

– Encapsulados (exemplo: Dublin Core)– Englobantes (exemplo: EAD)– Externos (exemplo: MARC)

Recurso

Metadadosencapsulados Metadados

englobantes Recurso

Metadadosexternos

http://… Recurso

Esquema de metadados e Esquema de metadados e estrutura do registroestrutura do registro

?

Esquema de metadados e Esquema de metadados e estrutura do registroestrutura do registro

Para estruturar os registros seguimos as etiquetas (tags) do MARC21. Para as informações específicas dos recursos digitais e não previstas no formato MARC21 bibliográfico acrescentamos etiquetas permitidas pelo formato para informações locais:X9XX9X e 9XX9XX

Tipo de recurso

DireitosData

CoberturaColaborador

RelaçãoEditor

LínguaDescrição

FonteAssuntos

IdentificadorAutorCriador

FormatoTítulo

(1995) ISO 15836 (2003)

para a escolha dos metadados nos baseamos inicialmente nos 15 elementos Dublin Core

suficientemente simples, mas suficientemente estruturados para que pudessem aumentar a performance dos motores de busca

Aos 15 elementos do Dublin Core acrescentamos mais 7 elementos do MODSEsquema XML apoiado no MARC21 para assegurar a continuidade entre os registros « tradicionais » e os novos registros utilisando XMLDesenvolvido pela Biblioteca do Congresso 2001-2003 (versão 3.1 : julho 2005)Permite :– Reutilizar parte de um registro

em formato MARC21– Criar diretamente metadados

originaisIdentificador

Nível de audiênciaInformação de origem

Informações do registro

Item relacionado

Tabela de conteúdos

Gênero

ExtensãoClassificação

ResumoTipo de recurso

Condições de acesso

Assunto

Descrição físicaNome

LocalizaçãoNota

LínguaTítulo

ISO 15836 (2003)

Esquema de metadados utilizado pela Biblioteca Nacional

+ =

Identificador

Nível de audiência

Informação de origem

Informações do registro

Item relacionado

Tabela de conteúdos

Gênero

ExtensãoClassificação

ResumoTipo de recurso

Condições de acesso

Assunto

Descrição físicaNome

LocalizaçãoNota

LínguaTítulo

Tipo de recurso

DireitosData

CoberturaColaborador

RelaçãoEditor

LínguaDescrição

FonteAssuntos

IdentificadorAutorCriador

FormatoTítulo

Controle dos pontos de acesso

Autoridades nomes

Autoridades assuntos

Para o controle de Autoridades de Nomes nos baseamos na Base de Autoridades da Biblioteca Nacional, hoje com cerca de 200.000 registros e mais de 300.000 remissivas

Para o controle de Terminologia de Assuntos, nos baseamos na base de Terminologia da Biblioteca Nacional que é uma linguagem pré-coordenada (cabeçalhos de assuntos)baseada na LCSH (Lista de Cabeçalhos de assunto da Library of Congress. Segue uma estrutura de Tesauro com termos genéricos, específicos e relacionados.É bilíngüe na busca o termo tanto em inglês como em português.

Na Biblioteca Digital o acesso por assuntos pode ser feito tanto em português como em inglês e a utilização de uma linguagem pré-coordenada não se choca com a adoção de uma pós-coordenada graças à possibilidade de também se recuperar por termos livres

seleção capturadigital

Cadeia de digitalização na Biblioteca Nacional

controlede

qualidade

compactação/compressão

armazenagem on line e off line

acesso webe

interoperabilidade

tratamentotécnico

Acesso e Interoperabilidade com Acesso e Interoperabilidade com outros sistemasoutros sistemas

Para melhor interoperar e cooperar com outros sistemas utilizamos o Formato MARC21 e exportamos os registros de metadados em diversos formatos:

ISO 2709

ANSI Z39.2

MARCXML

Dublin Core XML (comunicação com OAI)

É uma linguagem de marcação usada para transferir simultaneamente, em um ambiente informático, dados textuais em conjunto com a sua estruturaUm formato livre e aberto, mantido pelo W3C e independente de qualquer plataforma informáticaUsado em bibliotecas para divulgar registros na web (MARCXML, MODS, METS, BiblioML) e para intercambiar registros na web (OAI/Dublin Core)

O uso do o XML– ExtendedMarkup Language

A exportação dos metadados no padrão Dublin Core, utilizando a linguagem XML, permite que coletores de metadados (harversters), como o OAI-PMH coletem esses recursos tornando-os acessíveis aos motores de busca e derrubando assim as barreiras da web profunda.

páginas web dinâmicas, multimídias, serviços por assinatura,

artigos de jornais,bases de dados, grupos de discussão,

formatos especiais de documentos (como pdf e doc)

e recursos intranet privados

páginas webnormais e outros

recursosda Internet de acesso direto

webweb profundaprofundawebweb de superfde superfííciecie

Exemplo de metadados exportados em OAI/Dublin Core

Acesso e Interoperabilidade com Acesso e Interoperabilidade com outros sistemasoutros sistemas

Para acessar e ser acessado por outros sistemas abrimos o gateway Z39.50Z39.50 que é um protocolo de comunicação entre computadores desenhado para permitir pesquisa e recuperação de informação em redes de computadores na webPara acessar o sistema Z39.50 é necessário contar com um programa especial chamado cliente Z39.50.

ANSI/NISO Z39.50 (1995) [o nome se deve por ter sido desenvolvido pelo comitê 39 da ANSI e por ser a norma 50 da NISO]

Apresentamos os metadados da seguinte forma:

visualização

estruturação

identificação

gestão de direitos

cart325616fr

estruturação preservação

visualização

gestão reproduções

OBRIGADAOBRIGADA

angelab@bn.brangelab@bn.br

A imagem digital é uma “fotografia eletrônica”, que pode conter toda a informação (forma e conteúdo) do original, incluindo os sinais de sua idade e de seus usos prévios.

A imagem original é transformada numa malha de pontos ou ‘pixels’

(picture elements)

Cada pixel recebe um valor tonal (branco, preto, tons de cinza ou cor), representado em bits [código binário - (zeros) e (uns)]

Tonalidade

Profundidade de bit significa o número de bits usados para transmitir tonalidade a cada pixel.

- Escala de cinza8-bit - produz 256 sombras de cinza variando de puro branco a puro preto.

O "bit" (binary digit), é a menor unidade de informação usada na Computação

e na Teoria da Informação.

-Preto e branco1-bit ou Bitonal - para 1-bit pixel existem dois valores possíveis, preto ou branco.

- Colorida24-bit - produz a variação tonal de cerca de 16 milhões de diferentes cores.