Artigo_Scan for Marc1 Sintaxe e Semântica de Registros Bibliográficos Na Conversão de Dados...
Transcript of Artigo_Scan for Marc1 Sintaxe e Semântica de Registros Bibliográficos Na Conversão de Dados...
-
20 Scan for Marc: sintaxe e semntica de registros bibliogrficos na converso De dados analgicos para o formato MAR21 Bibliogrfico
Z. R. Zafafon
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
Artigos
Scan for Marc1: sintaxe e semntica de registros bibliogrficos na converso de dados analgicos para o Formato MARC21 Bibliogrfico2 Zaira Regina Zafalon Docente na Universidade Federal de So Carlos (UFSCar), Doutora em Cincia da Informao pela Universidade Estadual Paulista (UNESP). Dados para correspondncia: R. So Paulo, 260, Vila Monteiro, So Carlos, SP. CEP: 13560-340. [email protected] Resumo: Estuda-se a converso de registros bibliogrficos e delimita-se o objeto de estudo pelo entendimento da converso de dados analgicos para o formato MARC21 Bibliogrfico, a partir da anlise sinttica e semntica de registros descritos segundo
padres de estrutura de metadados descritivos e padres de contedo. Busca-se desenvolver um modelo terico-conceitual de sintaxe
e semntica em registros bibliogrficos, a partir de estudos lingsticos saussureanos e hjelmslevianos das manifestaes da linguagem
humana, que subsidie o desenvolvimento de um interpretador computacional, voltado converso de registros bibliogrficos ao formato
MARC21 Bibliogrfico, passvel de se confirmar tanto o valor semntico do recurso informacional representado quanto a fidedignidade
da representao. O percurso metodolgico da pesquisa baseia-se na abordagem qualitativa, de carter exploratrio, descritivo e
experimental e recorre pesquisa bibliogrfica. Contribuies no plano terico so vislumbradas diante do desenvolvimento de
questes inerentes aos aspectos sintticos e semnticos de registros bibliogrficos, e por envolver, a um s tempo, a
interdisciplinaridade entre a Cincia da Informao, a Cincia da Computao e a Lingstica. Contribuies no campo prtico so
identificadas pelo fato de o estudo abranger o desenvolvimento do Scan for MARC, um interpretador computacional de converso de
registros bibliogrficos impressos para o formato MARC21 Bibliogrfico. Palavras-chave: Converso de registros bibliogrficos; Anlise sinttica de registros bibliogrficos; Anlise semntica de registros bibliogrficos; Formato MARC21 Bibliogrfico; ISBD. AACR2r; Padro de estrutura de metadados descritivos; Padro de contedo. INTRODUO Esta pesquisa apresenta como tema nuclear o estudo do processo de converso de registros bibliogrficos
e delimita-se pelo entendimento da converso de registros bibliogrficos para o Formato MARC21
Bibliogrfico3, a partir de anlise sinttica e semntica. Diz respeito, portanto, ao estudo da representao
de recursos informacionais e do compartilhamento e converso de registros bibliogrficos em ambiente
digital, ao desenvolvimento tecnolgico e de aspectos tericos e metodolgicos que envolvem tais
processos, utilizando-se de ferramentas e mtodos inerentes s tecnologias da informao e comunicao.
Os recursos tecnolgicos e miditicos, por meio de estruturas computacionais, permeiam a produo, a
organizao, a distribuio, o acesso, o armazenamento, a preservao, o uso e o reuso dos recursos
informacionais por meio de mtodos de representao e de recuperao, construindo, consequentemente,
1 Programa de computador registrado no Instituto Nacional de Propriedade Industrial (INPI) sob o n 13192-0. 2 Tese apresentada ao Programa de Ps-Graduao em Cincia da Informao da Universidade Estadual Paulista (UNESP) como requisito parcial para a obteno do ttulo de Doutor em Cincia da Informao. Data da defesa: 29 jun. 2012. Banca examinadora: Profa. Dra. Plcida Leopoldina Ventura Amorim da Costa Santos (orientadora), Profa. Dra. Dulce Maria Baptista (UnB), Prof. Dr. Edberto Ferneda (UNESP), Profa. Dra. Elisa Campos Machado (UNIRIO) e Prof. Dr. Ricardo Csar Gonalves Santana (UNESP). 3 MARC acrnimo de MAchine Readable Cataloging Record. O Formato MARC 21 agrega formatos destinados a dados bibliogrficos, dados de autoridade, para holdings, para dados de classificao e para informaes de comunidade. Nesta pesquisa sero estudados dados bibliogrficos.
-
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
novo contexto scio-cultural, educacional, econmico e tecnolgico. Aliado a esses fatores h o
crescimento exponencial de acervos documentais em unidades de informao, o que requer a adequao
de processos biblioteconmicos que satisfaam, de modo eficiente e eficaz, demanda informacional por
diferentes pblicos.
Recorrer a mecanismos computacionais nas atividades do dia-a-dia das bibliotecas, como substitutos das
atividades manuais e mecnicas, j foram indicados por Ranganathan e Gopinath (1967), para quem esse
processo exige viabilidade econmica e, em ltima instncia, depende do estgio de desenvolvimento de
um pas. No mbito tcnico-funcional-administrativo das bibliotecas, o emprego de tecnologias de
informao e comunicao tornou-se constante, o que favorece tanto o surgimento quanto a inovao de
vrias atividades cooperativas.
Com as novas tecnologias de informao e comunicao surgem, tambm dentre as atividades
cooperativas, as facilidades de compartilhamento de registros bibliogrficos entre as mais variadas
unidades de informao. Identificou-se na literatura, entretanto, que para se estabelecer o processo de
converso de dados bibliogrficos para o Formato MARC21 Bibliogrfico parte-se do estudo, do
conhecimento e do delineamento da estrutura do banco de dados da base legada. Porm, diante da
diversidade da estrutura das bases de dados, as aes de converso so dificultadas.
Diante do exposto, e do cenrio de atuao profissional do bibliotecrio a partir de aspectos das novas
tecnologias da informao e da comunicao, questiona-se: [1] possvel proceder a converso de
registros bibliogrficos para o formato MARC21 Bibliogrfico por meio de uma mesma metodologia que
seja aplicvel a diferentes bases?; [2] possvel estabelecer-se um contedo sinttico e semntico do
registro bibliogrfico que possa nortear o processo de converso ao Formato MARC21 Bibliogrfico? [3]
possvel aplicar-se um modelo terico-conceitual de sintaxe e semntica de registros bibliogrficos uma
ferramenta computacional que permita estabelecer a converso para o Formato MARC21 Bibliogrfico?
Nesse sentido, estabelecem-se como premissas os fatos: a) no h padronizao nica adotada para a
definio da estrutura de bases de dados em sistemas gerenciadores de bibliotecas e outras unidades de
informao; b) no domnio bibliogrfico, os registros bibliogrficos so elaborados a partir de convenes
advindas de comunidades de prtica; e c) h esquemas tradicionais e internacionais de descrio e de
visualizao de registros bibliogrficos, identificados nos padres de estrutura de metadados descritivos e
nos padres de contedo.
Prope-se, assim, o objetivo de desenvolver um modelo terico-conceitual de sintaxe e semntica em
registros bibliogrficos, a partir de estudos lingsticos saussureanos e hjelmslevianos das manifestaes
da linguagem humana, que subsidie o desenvolvimento de um interpretador computacional4, voltado
converso de registros bibliogrficos ao formato MARC21 Bibliogrfico, passvel de se confirmar tanto o
valor semntico do recurso informacional representado quanto a fidedignidade da representao.
4 O conceito de interpretador computacional nesta pesquisa adotado para refletir o processo, mediado por meios computacionais, que interpreta um registro bibliogrfico analgico por meio de uma estrutura definida pelas marcaes sintticas, identificadas pelos sinais de pontuao presentes nos registros bibliogrficos, de tal forma que permite inferir o valor semntico do recurso informacional representado de modo que seja garantida a fidedignidade da representao. Tendo em vista a busca pela garantia da interpretao dos dados e a simplificao do processamento optou-se pelo uso da linguagem Perl que, segundo Stockton (]2005]), uma linguagem interpretada otimizada para examinar arquivos de textos e extrair informaes de arquivos de textos. Considerou-se, tambm, o fato de estar sob os termos da Licena Pblica Geral (GNU), caracterizando-se como sendo software livre (PERL, [2011]), e por permitir aliar programas desenvolvidos em diversificados ambientes, tais como UNIX, MSDOS, Windows, Macintosh, OS/2. Para o desenvolvimento dos testes recorreu-se ao ambiente Strawberry Perl.
-
22 Scan for Marc: sintaxe e semntica de registros bibliogrficos na converso De dados analgicos para o formato MAR21 Bibliogrfico
Z. R. Zafafon
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
Tendo em vista os objetivos definidos o percurso metodolgico nesta pesquisa baseia-se na abordagem
qualitativa, na qual possvel assumir uma relao dinmica com o mundo real, por meio da interpretao
e atribuio de significados aos fenmenos estudados, segundo Gonsalves (2011). De acordo com os
objetivos, a pesquisa expe carter exploratrio, uma vez que se caracteriza pelo desenvolvimento e
esclarecimento de ideias, com objetivo de oferecer uma viso panormica, uma primeira aproximao a
um determinado fenmeno que pouco explorado e, por oferecer, por meio da pesquisa bibliogrfica,
dados elementares que do suporte para a realizao de estudos mais aprofundados sobre o tema
(GONSALVES, 2011, p. 67). Por considerar, ainda, os objetivos, a pesquisa encarrega-se do carter
descritivo, por descrever as caractersticas de um objeto de estudo. (GONSALVES, 2011, p. 68). O
carter experimental tambm est presente por referir-se a um fenmeno que reproduzido de forma
controlada, submetendo os fatos experimentao (verificao), buscando, a partir da, evidenciar as
relaes entre os fatos e as teorias. (GONSALVES, 2011, p. 69).
Tal estudo, a nosso ver, deflagra contribuies tanto no plano terico, por vislumbrar o desenvolvimento de
questes sobre aspectos sintticos e semnticos de registros bibliogrficos, e por envolver, a um s tempo,
a interdisciplinaridade entre a Cincia da Informao, a Cincia da Computao e a Lingstica, de modo a
reafirmar a proposta de Borko (1968) e de Saracevic (1996); quanto no prtico, por abranger o
desenvolvimento de interpretador computacional que possa ser adotado por quaisquer instituies que
queiram utilizar-se de procedimento de converso de bases de dados de registros bibliogrficos, para o
formato MARC21 Bibliogrfico a partir dos esquemas de descrio (AACR2) e de visualizao de registros
bibliogrficos (ISBD), carter que se considera inovador na pesquisa.
1. PADRES DE REPRESENTAO DE RECURSOS INFORMACIONAIS E CONVERSO DE REGISTROS BIBLIOGRFICOS A relao intrnseca entre representao e recuperao de documentos exige que se leve em conta as
ferramentas de descrio e, tambm, de estrutura de registros bibliogrficos, o que promove consistncia,
preciso e relevncia aos resultados obtidos em resposta a uma consulta. Em se tratando de estrutura e
de descrio de contedo recorre-se a Foulonneau e Riley (2008) que apresentam os padres de estrutura
de metadados descritivos e os padres de contedo.
Dentre os padres de estrutura de metadados descritivos, que listam elementos considerados importantes
para a descrio do recurso, incluindo caractersticas fsicas e de contedo, destaca-se o Formato MARC
Bibliogrfico. Quanto aos padres de contedo, que, por sua vez, fornecem regras para a sintaxe de uma
entrada em um campo de metadado e tem o propsito de promover consistncia em registros metadados
para permitir uma melhor pesquisa e recuperao pelos usurios, encontram-se as AACR2.
Em bibliotecas familiar o padro de contedo e sua relao com o padro de estrutura de metadados,
como as AACR2 e sua relao com o MARC, ambas estudadas nesta pesquisa. As AACR2r, reviso de
2002 das Anglo-American Cataloging Rules, 2nd edition, apresentam, por meio de orientaes, regras e
exemplos, a descrio do contedo e, tambm, a escolha, a elaborao e a atribuio de pontos de acesso
a um documento, o que permite que sejam criados os direcionamentos para a construo de catlogos
bibliogrficos. Pelo fato de as AACR2r apresentarem, inclusive historicamente, relao direta com as
-
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
ISBDs, pode-se dizer, de certo modo, que, para os catlogos manuais, elas assumem tanto aspectos do
padro de estrutura de metadados descritivos quanto do padro de contedo.
Compreende-se a ISBD como padro de estrutura de metadados descritivos a partir de Swanson (1973) e
Langker (1974) para quem a ISBD especifica os elementos de uma descrio bibliogrfica, prescreve a
ordem em que devem ser apresentados, mas, principalmente, porque indica os sinais de pontuao pelo
qual os elementos devem ser demarcados.5 Desse modo, a ISBD visa trs objetivos: fazer registros de
diferentes fontes intercambiveis, facilitar a sua interpretao acima das barreiras lingsticas e facilitar a
converso de tais registros forma legvel por mquina.
Para a descrio e a recuperao de registros bibliogrficos em meio automatizado, requerida, aliada s
AACR2r, a adoo de um padro de estrutura de metadados descritivos, e, para esta pesquisa, interessa
estudar o Formato MARC21 Bibliogrfico, que abrange aspectos de leitura e de interpretao de dados
disponveis em registros bibliogrficos por meio computacional. Aspectos inerentes estrutura de um
registro MARC podem ser notados pela flexibilidade da estrutura do arquivo e pelo nmero e tamanho
ilimitados dos campos. O processo de leitura e interpretao computacional de um registro bibliogrfico em
Formato MARC facilitado pelas marcaes inerentes a ele.
Entende-se, por fim, que as convenes adotadas nas marcaes de um registro bibliogrfico, quer seja
pela ISBD, quer seja pelo Formato MARC21 Bibliogrfico, promovem, aliadas s regras de descrio de
contedo, dadas pelas AACR2r, cada uma a seu modo, o desenvolvimento de catlogos e o atendimento
aos objetivos bibliogrficos.
Considerando-se que o tratamento tcnico e o registro de informaes bibliogrficas, sem dvida, so as
atividades nas quais mais incidem os custos de um processo de automao, torna-se fundamental garantir
que os dados em meio digital do acervo sejam (re)utilizados. Para tanto, requerida a garantia da base
tecnolgica e metodolgica fornecida pela adoo de padres, que, por sua natureza, promovem
compatibilidade e intercmbio de registros bibliogrficos. Em se tratando de intercmbio de dados
bibliogrficos, uma das principais atividades envolve a converso de dados bibliogrficos. Porm, faz-se
necessrio esclarecer que os termos converso e migrao de dados bibliogrficos, usados, algumas
vezes, como sinnimos, so diferentes. No enfoque desta pesquisa, a expresso converso adotada
para designar o processo de mudana do suporte no qual um registro bibliogrfico est inscrito ou, ainda, o
processo em que a alterao se d no nvel da estrutura do registro, o que no envolve a alterao da
descrio de seu contedo. A converso de dados bibliogrficos assumida, portanto, como meio de se
proceder a mudana de padro de estrutura de metadados descritivos dos recursos informacionais.
Tendo em vista a configurao da proposta terica acerca dos registros bibliogrficos, o prximo tpico
apresenta a contribuio de Saussure e de Hjelmslev representao de recursos informacionais.
5 Considerar a ISBD como um padro de estrutura de metadados descritivos por conta da pontuao assume carter fundamental para o desenvolvimento desta pesquisa, uma vez que, segundo Trask (2008, p. 232), a pontuao um sistema convencional de marcas que representam informaes sobre a estrutura de um texto escrito. Por sua vez, Langker (1974) ressalta que a pontuao usada para fins estruturais para delimitar os campos e subcampos (de modo a auxiliar um operador de mquina a registrar em formato legvel por mquina). Entende-se que a pontuao prescrita nas ISBDs cumpra a dupla finalidade de proporcionar meios para precisar elementos bibliogrficos, independentemente da linguagem, tanto para seres humanos quanto para mquinas.
-
24 Scan for Marc: sintaxe e semntica de registros bibliogrficos na converso De dados analgicos para o formato MAR21 Bibliogrfico
Z. R. Zafafon
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
2 A SINTAXE E A SEMNTICA DE REGISTROS BIBLIOGRFICOS A PARTIR DE SAUSSURE E HJELMSLEV
Recorre-se contribuio lingstica da comunicao humana, feitos por Saussure, e concepo
semntica estruturalista, com Hjelmslev, para a elaborao do arcabouo terico da sintaxe e da
semntica dos registros bibliogrficos.
Entende-se que, da mesma forma que a lingstica se forma pelas manifestaes da linguagem humana
(SAUSSURE, 2010, p. 13), o papel social das instituies de patrimnio cultural forma-se a partir da
representao de tais manifestaes, levando-se em conta aquelas registradas, independentemente do
meio e do suporte em que isso seja feito. As manifestaes da linguagem humana, por meio de seus
registros, permitem a descrio, a identificao, o acesso, o uso, o reuso, a disseminao e o
compartilhamento entre as mais diversificadas instituies de patrimnio cultural. O fenmeno da
representao dos recursos informacionais integra duas faces que se correspondem e se complementam:
a obra e a manifestao, ambas reconhecidas pela International Federation of Library Associations and
Institutions (1998, 2005, 2009) como produtos do esforo intelectual ou artstico.
Obra a criao intelectual ou artstica que reflete o contedo e identificada como uma entidade
abstrata. Para Smiraglia (2002), obra o conhecimento deliberadamente criado para representar um
conjunto coordenado de idias (ou seja, o contedo ideacional), que veiculado por meio do texto tem a
finalidade de ser comunicado ao consumidor. Um documento pode conter uma ou mais obras, e uma obra
pode existir em um ou mais documentos, o que significa que possvel que exista em vrias instncias.
Manifestao a corporificao de uma obra, que s possvel de ser conhecida se manifestada, ou, de
outro modo, a manifestao s existe a partir da concepo de uma obra; a obra s pode ser reconhecida
por meio da manifestao. A manifestao assume a forma fsica. Assim, a representao da informao
s possvel de ser realizada por meio da compreenso da correspondncia entre obra e manifestao.
No se pode, portanto, reduzir a representao a uma ou a outra face: obra resultado do pensamento,
sem que, entretanto, tenha sido manifestada, vindo a pblico. Surge, por conseguinte, da, a
correspondncia entre a obra, unidade complexa mental, e a manifestao, unidade complexa fsica.
Entenda-se, portanto, que a manifestao o traje que uma obra ocupa.
Compreende-se, portanto, que os recursos informacionais constituem-se de manifestaes socializveis de
obras, estas, por sua vez, individuais ou coletivas. Partindo-se desta perspectiva, pode-se avistar um
dilema sobre o que de fato se representa: ou envolve-se com a explicao de que a obra, por ser
concepo mental primeira; ou arrisca-se a perceber que a manifestao, registro em suporte fsico da
concepo mental. Parte-se do ponto de vista de se observar a representao a partir da manifestao.
Representao da informao , portanto, o ato de articular formas de descrio a partir de instrumentos
que permitam tornar cognoscvel um recurso informacional sem que seja necessrio recorrer ao
documento original para identific-lo. O enfoque entre obra e manifestao e sua relao com o processo
comunicativo norteiam o estudo de uma possibilidade terica advinda do campo da linguagem para se
pensar os registros da informao, como o sugerido por Ferdinand de Saussure, em 1916, relacionando-o
com a questo do significado e do significante. Para tanto, estuda-se a correspondncia entre obra e
manifestao, significado, significante.
-
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
Do mesmo modo que Saussure (2010, p. 81 et seq.) apresenta princpios como a arbitrariedade do signo e
o carter linear do significante, buscar-se- explicitar a correlao entre obra e manifestao presentes nos
princpios de Saussure. Quanto ao primeiro princpio, O lao que une o significante ao significado
arbitrrio (SAUSSURE, 2010, p. 81), observa-se a arbitrariedade da manifestao em relao obra.
Neste sentido, a idia de uma obra, como 100 cientistas que mudaram a histria do mundo, de John
Hudson Tiner, no apresenta relao direta com, to somente, uma forma de manifestao; essa ligao
arbitrria e pode assumir outras tantas formas: um roteiro de uma pea teatral ou de um cinema; um
musical; um livro; entre outras. Na prtica, a forma de manifestao selecionada pode ser qualquer uma,
desde que evoque a obra por meio da corporificao. Diante do segundo princpio, O significante [...]
desenvolve-se no tempo [...] (SAUSSURE, 2010, p. 84), de to notvel relevncia quanto o primeiro,
entende-se que a linearidade que um registro assume requer uma sequncia para o registro da obra na
manifestao do produto mental (contedo ideacional), independentemente de sua forma.
A obra faz meno ao conceito mental, ou, para remeter a Saussure, ao significado, ao conceito; a
manifestao, por sua vez, remete ao significante, imagem acstica registrada. A obra, reduzida a um
princpio essencial para a manifestao, apresenta correspondncia entre tantas formas de expresso
quantas forem possveis.
O catalogador, assim sendo, precisa conhecer as manifestaes para, delas, recorrer aos mecanismos de
representao, o que possibilitar dar a conhecer aos outros os recursos informacionais. Dessa maneira,
embora a manifestao seja, por si s, estranha obra, impossvel abstra-la das vrias manifestaes,
processo pela qual a obra constantemente passvel de ser representada. Obra e manifestao, dois
sistemas distintos, so, porm, complementares para a formao do objeto documental. A obra pode ter
uma tradio oral, fixada diversamente da tradio escrita em um suporte, e, mesmo assim, ser transferida
para outras geraes. Embora essas de tradio oral possam ser objeto das instituies de patrimnio
cultural, conquanto no estiverem registradas, no so passveis de representao.
Na rea de lingstica, h estudos voltados semntica estruturalista que, por sua vez, abordam a
semntica de forma concreta e analisam a semntica lexical a partir da idia central de que a linguagem
deve ser vista como um sistema (GEERAERTS, 2010; TAMBA-MECZ, 2006). Assim, a linguagem natural
pode ser entendida como um sistema simblico, com propriedades e princpios prprios que determinam
como um signo lingstico funciona.
A contribuio hjelmsleviana advm da viso de estrutura na lingstica estruturalista. Recorre-se, tambm,
a Hjelmslev (1991, p. 116), para compreender melhor a relao entre objeto, estrutura e descrio
cientfica, quando o autor afirma, diante da lingstica, que No h nem conhecimento nem descrio
cientfica possvel de um objeto qualquer sem recurso a um princpio estrutural. Diante de tal afirmativa
observa-se a adoo de princpios formais em uma relao parte-todo o que supe uma afinidade
intrnseca representao documental na Cincia da Informao.
Denota-se um paralelo entre a semntica estruturalista e a Cincia da Informao, tendo em vista que
ambas fundamentam-se em constructos simblicos e com viso sistmica, seno, veja-se: tal qual a
linguagem, a representao tambm recorre a um sistema, no qual possvel estudar, analisar e
representar unidades informacionais, simblicas, presentes nas mais diferentes manifestaes de obras.
Nesse sentido, a representao documental, baseada em convenes, normas e padres, iguala-se
lngua. A representao permite a anlise sincrnica do documento, com traos inerentes ao recurso
-
26 Scan for Marc: sintaxe e semntica de registros bibliogrficos na converso De dados analgicos para o formato MAR21 Bibliogrfico
Z. R. Zafafon
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
informacional e seu suporte, no qual esto presentes as relaes entre obra e manifestao. A sincronia,
na representao, significa a impossibilidade de dissociao entre representante e representado; entre
obra e manifestao. Nesse sentido, o estudo sincrnico da representao prope o estudo dos registros
bibliogrficos a partir de suas relaes, tanto no prprio registro quanto em relao ao objeto descrito. A
semntica estruturalista de registros bibliogrficos volta-se, assim, ao estudo descritivo do funcionamento
dos catlogos.
No estudo estruturalista dos registros bibliogrficos percebe-se a inteno de identificar a estrutura do
registro, sua relao com outros registros e a relao com o documento. Desse modo, a sintaxe do registro
bibliogrfico no d conta do catlogo; a semntica que permite o contexto e as sinapses entre os vrios
registros bibliogrficos; a semntica que d conta dos processos mentais segundo os quais se produz,
constitui, compreende e descreve a representao de um recurso informacional. Nesta pesquisa,
denomina-se papel semntico o estudo das diferentes relaes que podem ser estabelecidas entre os
registros bibliogrficos, entre o registro bibliogrfico e o recurso informacional, e entre os elementos do
prprio registro bibliogrfico.
Nesse sentido, considera-se a possibilidade de se estudar a representao documental a partir de uma
teoria dos nveis: do nvel subsemntico (entre os elementos de um registro bibliogrfico) ao nvel
supersemntico (a relao entre os vrios registros bibliogrficos, a partir de suas semelhanas e
diferenas), passando pelo nvel semntico (objeto que est sendo descrito e a descrio em si). Assim, o
objetivo da nfase estruturalista para a anlise semntica dos registros bibliogrficos pode ser definido
como: estudar a descrio de registros bibliogrficos efetivamente realizados, no qual se considera a
influncia do catlogo, como meio para o estabelecimento de mensagens presentes nos recursos
informacionais e nas necessidades informacionais dos usurios. possvel admitir trs planos de diferena
semntica em registros bibliogrficos: entre o referente e a representao, entre o todo e as partes da
representao e, entre as representaes presentes no catlogo. So estes aspectos semnticos que
reduzem a alteridade de um registro bibliogrfico que, em um catlogo, faz com que o disperso e o
aparente sejam marcados por identidades que lhe so prprias. A semntica na Cincia da Informao
dada pela forma da e na representao da informao.
A semntica, pensada por este prisma, refere-se estrutura de um sistema que relaciona significado e
significante, obra e manifestao. Na semntica dos registros bibliogrficos o significado dado pelo valor
do significante, ou, a manifestao o valor da obra no processo de representao. Esses valores
semnticos em um registro bibliogrfico formam uma rede de relaes estruturais com outros registros
bibliogrficos, a qual se denomina supersemntica do registro bibliogrfico. A semntica requer a adoo
de sintaxe para a definio dos valores semnticos; em outras palavras, a sintaxe est presente no padro
de estrutura de metadados descritivos e a semntica nos padres de contedo.
A sintaxe, no mbito desta pesquisa, diz respeito ordem dos elementos dispostos para a representao
dos recursos informacionais. Entende-se, portanto, que a sintaxe do registro bibliogrfico seja parte da
Cincia da Informao voltada ao estudo da forma, arranjo e disposio em que cada elemento deva ser
descrito quando da representao do recurso informacional. Neste sentido, faz parte do sistema
biblioteconmico que determina relaes formais entre a representao de cada uma das partes do
-
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
documento representado. Esses elementos so organizados segundo padres de estrutura de metadados
estabelecidos. Os aspectos sintticos de um registro bibliogrfico podem remeter estrutura semntica.
A linguagem bibliogrfica ultrapassa o nvel sinttico e faz com que se entenda que um registro apresente
nveis semnticos, necessrio ao entendimento do documento representado sinttica e semanticamente.
Desse modo, cada elemento sinttico, assume um contedo semntico diante de cada elemento definidor
da representao e este elemento, por sua vez, quando contextualizado e contraposto ao documento
representado, assume significado entre o registro e o objeto.
O registro bibliogrfico cinge, ento, tanto questes sintticas, por referir-se aos padres de estruturas dos
metadados de cada elemento do documento ou objeto a ser descrito, quanto questes semnticas, por
permitir analisar a coeso e o significado indicado entre elementos do representante e do representado e
entre o prprio representante e representado. Cada elemento sinttico, quando contextualizado e
contraposto ao documento representado, assume um significado concreto entre o registro e o objeto.
Como se pode entender a converso, a partir da anlise sinttica e semntica dos registros bibliogrficos,
a ponto de ser possvel conduzir processos de converso de registros bibliogrficos ao Formato MARC21
Bibliogrfico? Entende-se que ocorra pela utilizao das marcaes dadas pelo padro de estrutura de
metadados descritivos, presentes nas AACR2r e nas ISBDs, e, consequentemente, pela inferncia
semntica, prevista em uma aplicao computacional. Neste momento, vislumbra-se aplicar aspectos
terico-conceituais dos princpios sintticos e semnticos de registros bibliogrficos converso de
registros bibliogrficos ao Formato MARC21 Bibliogrfico em um interpretador computacional.
3 SCAN FOR MARC: INTERPRETAO SINTTICA E SEMNTICA DE REGISTROS BIBLIOGRFICOS IMPRESSOS
A partir do pressuposto que considera os esquemas sintticos e semnticos dos registros bibliogrficos, e
no a estrutura da base de dados legada, necessrios para a converso de registros bibliogrficos ao
Formato MARC21 Bibliogrfico, discute-se o interpretador computacional sinttico e semntico de registros
bibliogrficos, identificado como Scan for MARC, por aludir ao mtodo de escaneamento dos registros
bibliogrficos e sua conseqente converso ao Formato MARC21 Bibliogrfico.
O desenvolvimento do interpretador, em sua verso beta, envolveu, sumariamente, aes de captura de
imagens de registros bibliogrficos analgicos, apresentados em fichas catalogrficas em meios
eletrnicos; anlise de resultados de processamentos de imagem em software de reconhecimento de
caracteres, o que permite a converso de imagem para texto editvel; processamento das imagens de
registros bibliogrficos selecionados para teste (processo inicial da construo da representao);
tratamento sinttico e semntico dos registros bibliogrficos digitais, checagem dos resultados e avaliao
de ajustes.
A fase de testes para a captura de imagens dos registros bibliogrficos dividiu-se em trs etapas: em
scanner de impressora funcional, em cmera de dispositivo mvel e em cmera fotogrfica digital. Finda
esta fase procederam-se testes para o processamento de imagens com reconhecimento de caracteres de
registros bibliogrficos em formato analgico, para o qual se adotou um software de reconhecimento de
caracteres (OCR). Nesta fase de testes, dividida em dois momentos (o de anlise de softwares freeware ou
free software, e o de softwares proprietrios, com anlise em verses trial), analisou-se os seguintes
-
28 Scan for Marc: sintaxe e semntica de registros bibliogrficos na converso De dados analgicos para o formato MAR21 Bibliogrfico
Z. R. Zafafon
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
softwares: ABBYY FineReader 11, Cognitive Open OCR (Cuneiform) 0.1, FreeOCR, FreeOCR 3.1,
Leadtools, OnlineOCR.net, ScreenOCR 9.1, Sci2ools (i2OCR), SimpleOCR 3.5, TopOCR 3.1, WeOCR
Server.6
Os testes foram desenvolvidos a partir de cotejo e anlise quanto pontuao, aos sinais diacrticos,
troca de letras, ao espaamento entre informaes e margens. Dentre os aplicativos identificados, o
software OnlineOCR.net ofereceu melhores resultados. Seguiu-se nova fase de testes na qual se buscava
definir o mtodo de processamento de imagens que oferecesse melhor resultado (diante das diversas
formas de captura de imagens).
Como resultado geral apresentam-se os seguintes comentrios: questes referentes iluminao na
captura das imagens so extremamente relevantes para o processamento em software de OCR dada a
influncia na qualidade da imagem; os melhores ndices de sucesso no processamento de imagens de
registros bibliogrficos foram capturados diante das imagens capturadas em scanner de impressora
multifuncional; problemas com a troca de letras no processo de reconhecimento de caracteres em imagens
foram identificados nos testes dos trs diferentes recursos; aspectos quanto fixao da cmera, quer seja
de dispositivo mvel quer seja de fotografia digital, mostraram-se mais relevantes do que a distncia a ser
considerada na captura da imagem; a qualidade do OCR est intrinsecamente vinculada qualidade da
imagem e no ao mtodo pelo qual a imagem capturada. Diante dos resultados, optou-se por trabalhar
com as imagens capturadas em scanner de impressora multifuncional e com o OnlineOCR.net.
Efetuados os testes de processamento de imagens dos registros bibliogrficos analgicos selecionados,
apresentam-se os procedimentos adotados para o tratamento sinttico e semntico dos dados
bibliogrficos do arquivo, luz da proposta terica apresentada nesta pesquisa.
Estudou-se os padres de estrutura de metadados descritivos (ISBDs, AACR2r e Formato MARC21
Bibliogrfico) e definiu-se a interferncia dos sinais de pontuao no contedo semntico, presente nos
padres de contedo (AACR2r). Para a efetiva adoo destas marcaes no script de converso de
registros bibliogrficos ao MARC21 Bibliogrfico foi necessrio, entretanto, cuidado quanto pontuao
que faz parte do contedo e no da estrutura de metadados descritivos. Outra anlise, em busca da
definio de padres, foi requerida quanto s informaes dos pontos de acesso para o que se determinou
que os pontos de acesso definidos por cabealhos de assunto iniciam-se por numerais indo-arbicos
seguidos de ponto, e de que os outros pontos de acesso que se fizerem necessrios iniciam-se por
numerais romanos.
Sem dvida alguma, um dos primeiros problemas identificados para o processamento das informaes foi
decorrente do tipo de codificao dos caracteres do arquivo texto de entrada (UTF-8/ISO, UFT-
16/UNICODE, ASCII/ANSI), necessrios para a correta interpretao dos sinais diacrticos. A fase de
tratamento sinttico e semntico dos registros bibliogrficos digitais foi feita a partir de testes de
processamento de roteiros de registros bibliogrficos. Foram estabelecidos quatro roteiros, com diferentes 6 Endereo para acesso: ABBYY FineReader 11 (http://www.abbyy.com.br/finereader/); Cognitive Open OCR (Cuneiform) 0.1
(http://cognitive-openocr-cuneiform.en.softonic.com/download); FreeOCR (http://www.free-ocr.com/); FreeOCR 3.1
(http://www.paperfile.net/freeocr.exe); Leadtools (http://www.leadtools.com/sdk/ocr/default.htm); OnlineOCR.net
(http://www.onlineocr.net/default.aspx); ScreenOCR 9.1 (http://www.screenocr.com); Sci2ools (i2OCR) (http://www.sciweavers.org/free-
online-ocr); SimpleOCR 3.5 (http://www.charactell.com/scanstore/); TopOCR 3.1 (http://www.brothersoft.com/topocr-download-47055-
s1.html); WeOCR Server (http://ocr1.sc.isc.tohoku.ac.jp/e1/).
-
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
graus de complexidade, que subsidiassem as verses de scripts (desenvolveram-se quatro verses, cada
qual com pequenos ajustes necessrios aps a checagem dos resultados).
Neste trabalho apresentam-se alguns resultados que no mostram, entretanto, todos os casos previstos e
j em funcionamento no Scan for MARC (cf. Figura 1). Em todos os casos so indicados, alinhados
esquerda, o resultado do processamento de imagem em OCR, e, direita, o resultado do Scan for MARC.
Figura 1 Resultado do processamento de imagem em OCR e do tratamento sinttico e semntico pelo Scan for MARC
Fonte: Elaborado pelos autores.
Observe-se que nos resultados a codificao em Formato MARC21 Bibliogrfico manteve-se
correlacionada com aquela feita por catalogadores. Diante da anlise de resultado entende-se que a diante
da proposta de interpretao sinttica e semntica de registros bibliogrficos, o resultado tenha sido de
qualidade.
Ao final das anlises consagradas aos testes de processamento de imagens dos registros bibliogrficos
analgicos, para o qual se recorreu aos aspectos sintticos e semnticos dos registros bibliogrficos, o
tpico seguinte destina-se s consideraes finais da pesquisa.
-
30 Scan for Marc: sintaxe e semntica de registros bibliogrficos na converso De dados analgicos para o formato MAR21 Bibliogrfico
Z. R. Zafafon
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
CONSIDERAES FINAIS Diante da temtica definida para esta pesquisa, a converso de registros bibliogrficos para o Formato
MARC21 Bibliogrfico, desenvolveu-se a teoria sinttica e semntica de registros bibliogrficos, definida
por padres de estrutura de metadados descritivos e por padres de contedo, consubstanciados a partir
das ISBDs e das AACR2r.
Apresentou-se abordagem terico-conceitual acerca da representao de recursos informacionais e do
compartilhamento e converso de registros bibliogrficos analgicos em ambiente digital; o
desenvolvimento tecnolgico alcanado diante da proposta de garantir a fidedignidade de aspectos da
representao do conhecimento; e, a anlise e o desenvolvimento de aspectos tericos e metodolgicos
que subsidiem atividades de converso de dados, recorrendo-se a mtodos inerentes s tecnologias de
informao e comunicao.
Reafirmou-se a importncia da adoo de normas, regras, padres, formatos, metodologias e critrios para
a representao de recursos informacionais em unidades de informao tendo em vista a aplicao de
processos, permeados por aplicaes tecnolgicas e miditicas que recorrem a estruturas computacionais
que avalizem produo, organizao, armazenamento, gerenciamento, tratamento, preservao,
distribuio, proviso, recuperao, acesso, uso, reuso e compartilhamento de registros informacionais em
diversos suportes.
Estabeleceu-se, a partir de Saussure, o modelo de representao dos recursos informacionais calcado na
relao entre significado e significante, no qual se discute a arbitrariedade da manifestao em relao
obra, bem como o desenvolvimento da linearidade da manifestao em relao ao contedo ideacional da
obra, fator determinante para a compreenso do documento e necessria elaborao do registro
bibliogrfico. Com Hjelmslev discutiu-se, a partir dos princpios formais adotados na Lingustica para o
estudo da estrutura do sistema lingstico, a representao documental na Cincia da Informao, haja
vista que esta se fundamenta nos constructos tericos e sistmicos da anlise sincrnica do documento,
com traos inerentes da indissociao entre obra e manifestao, para o qual se prope o estudo dos
registros bibliogrficos a partir das relaes internas entre os elementos de um registro (subsemntica),
entre os registros de um catlogo (supersemntica), e em relao ao documento descrito (semntica).
Em decorrncia das questes apresentadas procurou-se formar o arcabouo terico-metodolgico da
representao bibliogrfica e seus aspectos sintticos e semnticos dos objetos representados, com
reflexo nos seguintes aspectos: [1] compreenso da obra, enquanto significado, e da manifestao,
enquanto significante; [2] entendimento da representao bibliogrfica como resultado da relao entre
significante e significado e entre obra e manifestao e como definitiva para a semntica; [3] percepo da
sintaxe para a definio da subsemntica, alm de necessria representao do recurso informacional;
[4] apreenso do conceito de supersemntica, a partir de sua co-dependncia com a subsemntica e a
semntica, na relao, identificvel nos catlogos, entre registros bibliogrficos e documentos de um
acervo e entre obra e manifestao, tomados como significante e significado.
Tendo em vista os resultados obtidos nos testes, embora considerados iniciais por requererem, ainda,
ajustes e aprimoramentos, realizados em prol da definio do comportamento do Scan for MARC, entende-
se que a contribuio quanto aos aspectos sociais ensejados apresentem repercusso terico-prtica
-
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
significativa na rea da Cincia da Informao, bem como em sua interdisciplinaridade com a Cincia da
Computao e a Lingstica.
Para estudos futuros, em se tratando do Scan for MARC retomem-se as necessidades identificadas para
melhorias e aperfeioamento do interpretador computacional: [1] conjugao integrada das fases de
reproduo e de representao, recorrendo-se adoo de um OCR em linha de comando; [2]
desenvolvimento de interface grfica; [3] previso de padres para a interpretao de dados de
classificao de assunto (CDU); [4] tratamento do contedo de termos qualificadores (subdiviso de forma,
subdiviso cronolgica, subdiviso geogrfica e subdiviso geral) nos pontos de acesso de assunto tpico;
[5] previso de padres para tratamento de pontos de acessos secundrios de assuntos para nome
pessoal, institucional, evento e ttulo uniforme; [6] previso de padres para tratamento de pontos de
acessos principais para instituies, eventos e ttulo uniforme; [7] previso para criao de dicionrios
semnticos para pontos de acesso e seus termos qualificadores; [8] implementao de processo de teste
de consistncia do arquivo convertido, uma vez que isso afere carter qualitativo ao registro bibliogrfico
gerado; [9] integrao do script com o OCR, o que exige a adoo de um que seja em linha de comando.
Enseja-se, ainda, dar continuidade aos estudos dos mtodos sintticos e semnticos de registros
bibliogrficos e pesquisar a validade deste mtodo de converso de dados bibliogrficos analgicos
quando aplicados interpretao dos dados da catalogao na fonte do tipo documental livro.
REFERNCIAS BORKO, H. Information science: what is it? American Documentation, v. 19, n. 1, p. 3-5, jan. 1968.
FOULONNEAU, M.; RILEY, J. Choosing metadata standards for a digital library project. In: ________.
Metadata for digital resources: implementation, systems design and interoperability. Oxford: Chandos,
2008. p.13-28.
GEERAERTS, D. Theories of lexical semantics. New York: Oxford University Press, 2010.
GONSALVES, E. P. Conversas sobre iniciao pesquisa cientfica. 5. ed. rev. e ampl. Campinas: Alnea,
2011.
HJELMSLEV, L. Ensaios lingsticos. So Paulo: Perspectivas, 1991.
INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS. Declarao de
princpios internacionais de catalogao. 2009. Disponvel em:
http://www.ifla.org/files/cataloguing/icp/icp_2009-pt.pdf. Acesso em: 20 jun. 2011.
INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS. Functional
requirements for bibliographic records: final report. 1998. Disponvel em:
http://archive.ifla.org/VII/s13/frbr/frbr3.htm#6. Acesso em: 20 jun. 2011.
INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS. Guidelines for
Online Public Access Catalogue (OPAC) displays: final report: may 2005. Mnchen: K. G. Saur, 2005.
LANGKER, R. ISBD: another step in the right direction. The Australian Library Journal, v. 23, n. 3, p. 99-
103, April, 1974.
PERL Programming Documentation. [2011]. Disponvel em: http://perldoc.perl.org/perl.html. Acesso em: 24
maio 2012.
-
32 Scan for Marc: sintaxe e semntica de registros bibliogrficos na converso De dados analgicos para o formato MAR21 Bibliogrfico
Z. R. Zafafon
CRB-8 Digital, So Paulo, v. 6, n. 1, p. 20-32, ago. 2013 | http://revista.crb8.org.br
RANGANATHAN, S. R.; GOPINATH, M. A. Prolegomena to library classification. 3rd ed. New York: Asia
Publishing, 1967.
SARACEVIC, T. Cincia da informao: origem, evoluo e relaes. Perspectivas em Cincia da
Informao, Belo Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996.
SAUSSURE, F. Curso de lingstica geral. So Paulo: Cultrix, 2010.
SMIRAGLIA, R. P. Further Reflections on the Nature of A Work: An Introduction. Cataloging &
Classification Quarterly, v. 33, n. , p. 1-11, 2002.
STOCKTON, R. PERL: practical extraction and report language. [2005]. Disponvel em:
http://www.stacken.kth.se/help/perl/. Acesso em: 24 maio 2012.
SWANSON, G. ISBD: standard or secret? Library Journal, n. 15, p. 124-130, Jan. 1973.
TAMBA-MECZ, I. A semntica. So Paulo: Parbola, 2006.
TRASK, R. L. Dicionrio de linguagem e lingstica. So Paulo: Contexto, 2008.