Revisão de áreas do Vocabulário Controlado do SIBiUSP ...£o... · Linguagens documentárias e...
Transcript of Revisão de áreas do Vocabulário Controlado do SIBiUSP ...£o... · Linguagens documentárias e...
Grupo Gestor do Vocabulário Controlado Sistema Integrado de Bibliotecas
Universidade de São Paulo
Juliana de Souza Moraes - ICMC IGc / USP
01 de setembro de 2016
Revisão de áreas do Vocabulário Controlado do SIBiUSP: procedimentos e
orientações
Contextualização
Vocabulários controlados
“Lista controlada de termos explicitamente listados, com definição clara e inequívoca e com o objetivo de organizar informação” (ANSI/NISO Z39.19-2005 (R2010))
Assegura coerência e consistência na descrição de conteúdos e na recuperação de informação
Usado para aumentar a efetividade dos sistemas de informação ou de outros ambientes que procuram identificar e localizar conteúdos através de um conjunto de descrição ‘via linguagem’
Contextualização
Vocabulários controlados
2 regras devem ser aplicadas, no mínimo:
Se um mesmo termo é comumente usado para designar dois ou mais conceitos diferentes, o nome do termo deve ser explicitamente qualificado para resolver essa ambiguidade;
Se múltiplos nomes são usados para designar um mesmo conceito, um deles deve ser identificado como termo preferido e os demais anotados como sinônimos ou pseudônimos.
Contextualização
Descrição e Representação da informação Indexação
Importância da atualização Viabiliza representação mais próxima do objeto real
Viabiliza a comunicação entre usuário e sistema de informação garantindo acesso aos seus conteúdos
Única garantia de instrumentos úteis e efetivos
Maior desvantagem: dificuldade e lentidão de atualização
Processo contínuo
Contextualização
Métodos de construção
método indutivo – a partir da representação do próprio objeto e seu contexto Garantia Literária
método dedutivo – abstração; racionalização sobre o domínio Garantia do uso ou endosso do usuário
em tese e prática, são métodos complementares, são sistêmicos e não individuais.
VOCAUSP hoje Aspectos Números
Grandes áreas cobertas 07
Subáreas 68
Termos autorizados 41.844 Tabela principal - 29.012 Geográficos - 11.265 Profissões - 983 Gênero e Forma - 125 Qualificadores - 459
Termos remissivos 4.330 Tabela principal - 3.998 Geográficos - 214 Profissões - 100 Qualificadores - 18
Notas de escopo Tabela principal - 2.628
Relacionamentos 2 tipos
SIBIX SIBIX650B - VERSÃO 1.7.6 - maio/2016
Tematres Em testes
Primeiras orientações
As unidades que tem interesse em revisar sua área precisam primeiramente consultar o Grupo Gestor do Vocabulário Controlado. Por que?
Para organizar uma agenda que viabilize a conferência da revisão e a implementação do novo vocabulário, tarefas essas que são de responsabilidade do Grupo Gestor;
Para consultar outras unidades de mesma área do conhecimento e convidá-las à participarem da revisão.
A análise da atual terminologia
Aumento da frequência de termos não existentes no Vocabulário durante o processo de indexação
Aumento do número de pedidos para o Sistema de Sugestões do SIBIX
Identificação da ausência de uma subárea inteira
Identificação da ausência de desdobramentos mais específicos
Observação da frequência de sucesso e fracasso na recuperação da informação por tema/assunto do banco de dados Dedalus
Data da última revisão da área
Planejamento da revisão
Equipe
Conhecimento da área
Delimitações
Princípios metodológicos
Organização dos registros da revisão
Tarefas e responsáveis
Cronograma de atividades
Reuniões periódicas
Prazo de entrega
Etapas da revisão
Divisão da área do conhecimento
Escolha dos especialistas ou juízes
Seleção das fontes de informação
Análise da terminologia
Especialistas
Bibliotecários
Registro dos dados / Anotações
Análise dos dados
Elaboração da proposta e Checagem
Conferência e correções do Grupo Gestor
Elaboração da proposta final e implementação
A divisão da área do conhecimento
Áreas grandes
Exemplo: CIÊNCIA DA COMPUTAÇÃO
Início: 11 subáreas e 323 termos preferidos
Final: 33 subáreas e 470 termos preferidos
Análise por subáreas
Divisão em subáreas seguindo a divisão existente no VOCAUSP
1 especialista para cada subárea
Fontes de informação de cada subárea (= ideal) ou da área como um todo
A divisão da área do conhecimento
Áreas pequenas
Exemplo: ENGENHARIA AERONÁUTICA
Início: 1 única subárea e 99 termos
Final: 21 subáreas e 127 termos
Possibilidade da análise por inteiro
Especialistas em número ímpar
Fontes de informação da área como um todo
Possibilidade da divisão em subáreas
1 especialista para cada subdivisão
Fontes de informação de cada subárea
Escolha dos especialistas ou juízes
Preferivelmente em número ímpar
Especialista da área em questão, isto é, professor e pesquisador na área
Preferivelmente um especialista por subárea
Tempo de ensino e pesquisa na área/subárea
Sorteio para subáreas com vários especialistas, se necessário
Seleção das fontes de informação
Quais tipos?
Linguagens documentárias e taxonomias NASA Thesaurus, Unesco Thesaurus, EUROVOC, MeSH, DeCS, IEEE
Thesaurus, LCSH, CDD...
Dicionários e glossários especializados Cambridge Aerospace Dictionary, Oxford Dictionary of Biology, Glossário
da Associação Brasileira de Estatística...
Bases de dados referenciais ou não Web of Science, MathSciNet, MedLine, MUSE...
Produção científica (teses, artigos de periódicos...) BDTD, BDPI, bibliotecas digitais renomadas, periódicos on-line...
Palavras-chave utilizadas na indexação das bases de dados do Dedalus e das bibliotecas digitais da USP, e na tentativa de recuperação de informação
Seleção das fontes de informação
Considerações importantes para a seleção
Publicações de entidades reconhecidas
Abrangência da área do conhecimento
Público-alvo da publicação
Atualidade do conteúdo
Idioma
Qualidade da tradução, se houver
Periodicidade de revisão e manutenção, se houver
Facilidade de manuseio e compreensão da lógica
Uso por outros sistemas de informação
A Revisão: análise da terminologia
Especialista(s) Forma livre
Segundo aspectos pré-estabelecidos*, tais como:
Organização hierárquica
Qualidade da tradução
Desconhecimento do termo
Desuso
Novo termo
*Aspectos mais frequentes resultantes da revisão da área de Ciência da Computação (MORAES; CRISTIANINI, 2006.)
Garantia de uso
Análise pelo Especialista
Leitura e compreensão da terminologia atual
Identificação dos aspectos pré-estabelecidos para cada termo da área/subárea e anotação conforme legenda
Liberdade para inserção de outros aspectos, bem como para registro de quaisquer observações pertinentes.
Identificador Aspecto ou Problema identificado no termo
L Organização hierárquica / estrutura / lugar
T Qualidade da tradução
D Desconhecimento do termo
E Desuso ou exclusão
N Novo termo / acréscimo
Tratamento de cada aspecto
Organização hierárquica ou estrutura ou lugar
O especialista não concorda com a localização do termo na atual estrutura hierárquica, pode ser um único termo ou uma classe de termos
O especialista deve sugerir o melhor local na estrutura hierárquica, indicando o código numérico onde o termo ou a classe de termos deve ser recolocada*
Qualidade da tradução
O especialista não concorda com a tradução do termo
O especialista deve sugerir nova tradução
É possível ter esses dois aspectos para um mesmo termo
Tratamento de cada aspecto
Desconhecimento do termo O especialista nunca ouviu o termo, nunca o leu, nunca o usou
para redação científica e ou para recuperação de informação O especialista pode ou não sugerir a exclusão do termo
Termo em desuso ou para exclusão O especialista não concorda com a permanência do termo no
Vocabulário, especialmente em função do seu uso O especialista possivelmente sugerirá a exclusão do termo
Termo novo O especialista concorda que há ausência de termos relevantes
e atuais, sejam termos individuais ou classes inteiras de termos O especialista deve sugerir quantos termos e classes de termos
entender necessários, bem como deve indicar a localização deles na estrutura hierárquica a partir do código numérico em uso*
Exemplo de retorno de um especialista
CE622.1.9|CONTROLE DE AERONAVES
CE622.1.9.1|INSTRUMENTOS DE CONTROLE DE AERONAVES
CE622.1.10|ESTRUTURA DE AERONAVES
CE622.1.10.1|AERONAVES DE AÇO
CE622.1.10.2|AERONAVES DE ALUMÍNIO
CE622.1.10.3|AERONAVES DE MADEIRA
AERONAVES DE COMPÓSITOS N CE622.1.10.4|ASAS DE AERONAVES
CE622.1.10.5|EMPENAGENS DE AERONAVES
CE622.1.10.6|CHASSIS DE AERONAVES
JUNÇÕES DE AERONAVES N
JUNÇÃO ASA-FUSELAGEM N
JUNÇÃO FUSELAGEM-EMPENAGEM N
JUNÇÃO DE FUSELAGENS N
A Revisão: análise da terminologia
Bibliotecário(s) Leitura e compreensão da terminologia atual
Forma livre
Maior condição de analisar a organização hierárquica, o agrupamento dos termos, remissivas necessárias, ausência de termos novos
Menor condição de analisar traduções ruins, termos em desuso, remissivas desnecessárias
Segundo as fontes de informação selecionadas da área ou subáreas E a partir da resposta dos especialistas
Paralelamente à resposta dos especialistas, a partir da criação de um corpus
Garantia literária
Fontes de informação + resposta dos especialistas
Checar as alterações sugeridas pelos especialistas
na(s) fonte(s) de informação selecionada(s) As alterações propostas na organização hierárquica estão
presentes e da mesma forma na fonte de informação?
A nova tradução sugerida consta da fonte de informação, seja como termo preferido ou como remissiva?
O termo desconhecido pelo especialista está presente na fonte de informação?
O termo apontado como em desuso pelo especialista está presente na fonte de informação?
O novo termo sugerido pelo especialista consta na fonte de informação (observada sua data de atualização)?
Lembrando...
Há fontes de informação que não trarão todos os aspectos analisados pelos especialistas. Por exemplo: os dicionários, os glossários e a produção científica não trarão a organização hierárquica da área em questão...
Considerando o objetivo e a natureza do VOCAUSP, nesses casos sugere-se adotar o
entendimento do especialista.
Fontes de informação + Corpus
Estabelecimento de um corpus
Recolha dos termos, manual ou automática
Registro dos dados, manual ou eletrônica
Tratamento dos termos
Elaboração de uma proposta provisória
Estabelecimento do corpus
Conjunto de enunciados escritos ou orais relativos ao domínio estudado, no todo ou em partes, em formato eletrônico, selecionado de acordo com critérios externos para representar uma variedade da linguagem e que são utilizados em um trabalho terminológico
Corpus de análise Corpus de referência
Atenção para a qualidade e respeitabilidade das
fontes de informação selecionadas para comporem o corpus
Critérios para composição do corpus
Representatividade dos textos Relacionada ao tamanho
Relacionada à amostra
A literatura selecionada precisa ser uma amostra real e satisfatória do universo que ela pretende representar
Tempo Períodos de tempo considerados / Datas dos textos
Tamanho ou extensão Número de palavras dos textos e do corpus
Equilíbrio e balanceamento Diferentes tipos de texto e em proporções balanceadas
Especificidade e homogeneidade Gêneros, temas e autores específicos
Recolha dos termos: Manual
Leitura
Leitura para indexação versus Leitura para coleta de termos
Identificação e seleção dos termos
Critério: frequência de ocorrência no corpus
Decisão: corte no número de ocorrências
Palavras válidas: substantivos
Registros dos dados
Fichas terminológicas, manuais ou eletrônicas
Exemplo de ficha para registro do termo
Recolha dos termos: Automática
Varredura Softwares para processamento e análise (linguística) de texto
Escolha do software Unitext - http://www-igm.univ-mlv.fr/~unitex/ WorldSmith Tools - http://www.lexically.net/wordsmith/ Léxico3 - http://www.lexi-co.com e-Termos - http://www.etermos.cnptia.embrapa.br/ Vantage Point* – http://www.thevantagepoint.com
Identificação e seleção dos termos Critério mais adotado: frequência de ocorrência no corpus Decisão: corte no número de ocorrências Palavras válidas: substantivos para os vocabulários controlados
Recolha dos termos: Automática
Vantagens Rapidez na varredura do corpus
Possibilidade de atualização do corpus e recontagem
Capacidade de análise de gigantescas quantidades de palavras
Vários critérios pode ser considerados
Dicionário = ranking da frequência-ocorrência das palavras do corpus
Concordanciador
Mapas das seções
Segmentos repetidos ou coocorrências
outros
Mapa de seções
Dicionário
Sentença onde está o
termo selecionado no
mapa de seções
Concordanciador
Registro dos dados ou Anotações
Formas de anotação
O que anotar?
Definição
Quando não houver na fonte de informação previamente selecionada é possível consultar outras fontes;
O grupo revisor pode elaborar uma definição própria a partir da consulta de várias fontes de informação
Nota de escopo ou explicativa
Tipo de relacionamento e com qual termo
Hierárquico (superordenado ou subordinado / TG ou TE)
Equivalência ou sinonímia (remissiva ver) Termos rejeitados x Termos em desuso x Termos tolerados
CIÊNCIA DA COMPUTAÇÃO
TG BANCOS DE DADOS
TE BANCOS DE DADOS ATIVOS
TE BANCOS DE DADOS
DISTRIBUÍDOS
TE BANCOS DE DADOS RELACIONAIS
TE BANCOS DE DADOS ORIENTADOS
A OBJETOS
Relacionamento Hierárquico
REGIÕES DO CORPO
TG MEMBROS INFERIORES
TE PERNAS
QUADRIL
...
Relacionamento Hierárquico
FLORICULTURA
TG FLORES
TE AÇUCENA
TE ALFAZEMA
TE ANGÉLICA
TE ANTÚRIO
TE AZALEIA
TE BEGÔNIA
...
Relacionamento Hierárquico
ESCOLAS
TG TIPOS DE ESCOLAS
TE ESCOLA COMUNITÁRIA
TE ESCOLA DE APLICAÇÃO
TE ESCOLA ITINERANTE
TE ESCOLA LAICA
TE ESCOLA
MISSIONÁRIA
...
ELO FALSO
FLORICULTURA
TG FLORES
TE AÇUCENA
TE ALFAZEMA
TE ANGÉLICA
TE ANTÚRIO
TE AZALEIA
TE BEGÔNIA
...
Relacionamento Hierárquico
CA110 AGRONOMIA CA110.1 FITOTECNIA
CA110.1.4 PRODUÇÃO VEGETAL
CA110.1.4.1 PLANTAS CULTIVADAS
CA110.1.4.1.2 HORTICULTURA
CA110.1.4.1.2.3 PLANTAS ORNAMENTAIS
CA110.1.4.1.2.3.3 FLORICULTURA
CA110.1.4.1.2.3.3.1 FLORES
CA110.1.4.1.2.3.3.1.1 AÇUCENA
CA110.1.4.1.2.3.3.1.2 ALFAZEMA
CA110.1.4.1.2.3.3.1.3 ANGÉLICA
CA110.1.4.1.2.3.3.1.4 ANTÚRIO
CA110.1.4.1.2.3.3.1.5 AZALEIA
CA110.1.4.1.2.3.3.1.6 BEGÔNIA
AVIÕES
USE AERONAVES
RENDERING
USE RENDERIZAÇÃO
ABANDONO DO TRATAMENTO
USE DESISTÊNCIA DO TRATAMENTO
AIDS
USE SÍNDROME DE IMUNODEFICIÊNCIA ADQUIRIDA
CE622.1 AERONAVES
CE622.1X AVIÕES
CE610.23.1 RENDERIZAÇÃO
CE610.23.1X RENDERING
CB360.15.1.4.37 DESISTÊNCIA DO TRATAMENTO
CB360.15.1.4.37X ABANDONO DO TRATAMENTO
CB330.4.28.2.1.1 SÍNDROME DE IMUNODEFICIÊNCIA ADQUIRIDA
CB330.4.28.2.1.1X AIDS
Relacionamento de Equivalência
Análise dos dados
Dados da análise dos especialistas
Necessário consenso entre as indicações dos especialistas da mesma área/subárea?
Será considerada a maioria das indicações semelhantes?
Todas as indicações serão consideradas, desde que não sejam excludentes entre si?
Todas as indicações serão consideradas independente da análise e opinião do grupo revisor?
Decisões do grupo revisor Os dados obtidos pelos especialistas compõem a ‘garantia
de uso ou endosso do usuário’
Análise dos dados
Considerações sobre os aspectos da análise
dos especialistas
Checar a organização hierárquica proposta prioritariamente (= coluna vertebral do Vocabulário)
Traduções
• Optar por manter termos em português
• Manter remissiva em outra língua, se for fundamental
• Se não houver termo em português já consolidado ou reconhecido, manter na língua em que foi indicado
Análise dos dados
Termos desconhecidos, em desuso e exclusões • Checar uso no Dedalus, prioritariamente
Não sendo usado = consultar outras fontes da USP
Sendo usado = avaliar quanto e outras possibilidades de indexação para o mesmo objeto
Exemplo: caso da Álgebra da Diferença e Álgebra Diferencial
• Checar uso em outras fontes da USP Não sendo usado = exclusão
Sendo usado = observar em quais campos aparecem e quanto
• Considerando quantidade de uso e em quais bases e campos, pensar na exclusão desses termos e na reindexação dos objetos antes indexados por eles.
Garantia do uso x Garantia literária
Termos validados através e concomitantemente da garantia literária e do uso comum ou consenso
Termos validados somente através da garantia literária Comprova a existência do termo, a prática do ensino e da pesquisa
na área e a sua publicidade formal Podem ser termos muito novos, de subáreas também muito novas e
ainda não amplamente divulgados e usados
Termos validados somente através do uso comum ou
consenso Comprova a divulgação e uso do termo em um grupo seleto de
especialistas Podem ser termos muito novos, de subáreas também muito novas,
uma vez que o uso do termo antecede o seu registro e publicidade Concomitantemente, podem representar necessidades locais
Início da elaboração da proposta
Inserção das alterações previamente registradas no arquivo original da área de conhecimento, enviado pelo DT/SIBiUSP
A cada dia de trabalho e modificação do arquivo, ‘salvar como’ um novo arquivo e contendo a data da modificação, criando um HISTÓRICO da revisão
.doc ou já migrado para .xlsx
Cada tipo de alteração deve ser registrado à parte para compor as listas de alteração a serem entregues ao Grupo Gestor
Substituições / Inserções / Exclusões / Trocas de códigos...
Exemplo das primeiras alterações
Exemplos das listas de alteração
Tradução do termo Código original Sugestão Código atual
Convexidade CE550.3.14 Análise convexa CE550.29.14
Completion CE550.48.14 Completamento CE550.73.13
Alteração de nome Código original Sugestão Código atual
Resistência de aeronaves
CE622.1.13 Cargas de aeronaves
CE622.13
Chassis de aeronaves
CE622.1.10.6 Fuselagem de aeronaves
CE622.11.3
Termos Excluídos Código original
Rotor CE622.1.10.13
Lançamento de aeronaves CE622.1.18.5
Checagem no SIBIX
Checar todos os termos do novo vocabulário proposto
Se encontrar?
Avaliar se possuem o mesmo conceito
SIM = sugerir a área em que o termo deve permanecer observando a origem dele
NÃO = possibilidade de duplicação do termo com acréscimo de um qualificador fixo para diferenciação
Se não encontrar? Manter o termo na área em questão
CH783.4.1.2.2.1 CAVERNAS CE622.11.3.1 CAVERNAS (ENGENHARIA AERONÁUTICA)
Tratamento dos dados
Conceitos genéricos e individuais Universidades e USP
Termos simples e termos compostos Softwares e Engenharia de software
Plural ou singular Cadeiras x Saúde
Equivalentes em inglês Obras de referência em mais de 1 língua
Tradutores automáticos
Elaboração da proposta final
Novas alterações após checagem no SIBIX e na fase de tratamento dos dados, se necessário
Última tarefa: renumeração de toda a área Numeração progressiva
Marcação das remissivas
Obrigatoriamente conversão em formato de tabela
Obrigatoriamente como arquivo Excel
4 colunas Código numérico da área
Termo
Termo em inglês
Definição e/ou nota de escopo
Exemplo de uma proposta final
Conferência e correções do Grupo Gestor
O que entregar?
Arquivo Excel com a proposta final, em formato de tabela
Listas de alterações
Início da conferência pelo Grupo Gestor
Retorno aos revisores com as dúvidas do Grupo Gestor
Reinício do processo de checagem e, em alguns casos, novas consultas aos especialistas
Nova entrega ao Grupo Gestor ou, dependendo da dúvida, resposta individual para cada uma
Proposta final e Implementação pelo DT/SIBiUSP
Documentação da revisão
Documentação do método
Manual de revisão/manutenção
Registro das tomadas de decisão
Registro das fontes de informação utilizadas e seus critérios de seleção
Registro dos especialistas consultados, suas áreas de responsabilidade e critérios de escolha
Registro de termos candidatos*, caso existam
Garantia da continuidade com mesma qualidade e coerência
OBRIGADO(A)
Departamento Técnico do SIBiUSP
http://www.sibi.usp.br/
Facebook.com/SIBiUSP
Grupo Gestor do Vocabulário Controlado
Fontes consultadas
ANSI/NISO Z39.19-2005 (R2010) standard, Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies.
BARROS, L. A. Curso básico de Terminologia. São Paulo: EDUSP, 2004.
CABRÉ, M. T. La terminologia: teoria, metodologia, aplicaciones. Barcelona: Antártida/Empúries, 1993.
CINTRA, A. M. M. Para entender as linguagens documentárias. São Paulo: Editora Polis, 2002.
CURRÁS, E. Tesauros: linguagens terminológicas. Tradução de Antonio Felipe da Costa. Brasília: CNPq/IBICT, 1995.
DODEBEI, V. L. D. Tesauro: linguagem de representação da memória documentária. Niterói: Intertexto; Rio de Janeiro: Interciência, 2002.
GARSHOL, L. M. Metadata? Thesauri? Taxonomies? Topic maps! Making sense of it all. Journal of Information Science, v.30, n.4, 2004, p. 378-391.
GOMES, H. E.; CAMPOS, M. L. A. Tesauro e normalização terminológica: o termo como base para intercâmbio de informações. DataGramaZero - Revista de Ciência da Informação, v.5, n.6, Dez., 2004.
KOBASHI, N. Y. Tratamento de informação: indexação e tesauro. 2006. (Material didático).
LIMA, V. M. A. Terminologia, comunicação e representação documentária. São Paulo: ECA/USP, 1998. (Dissertação de Mestrado).
Fontes consultadas MORAES, J. S. Contribuição para a construção de linguagem documentária em
Inteligência Artificial. Campinas, 2000. 91 p. Dissertação (Mestrado em Biblioteconomia). Faculdade de Biblioteconomia. Pontifícia Universidade Católica de Campinas.
MORAES, J.S.; CRISTIANINI, G.M.S. Terminologia de Matemática: revisão da área para o Vocabulário Controlado da USP. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 16., 2008, São Paulo. Anais... São Paulo, SP, 2008.
MORAES, J.S.; CRISTIANINI, G.M.S. Terminologia em Ciência da Computação: revisão da área implementada no Vocabulário Controlado do SIBi/USP. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 15., 2006, Salvador. Anais... Salvador, BA: UFBA/SIBI, 2006.
MORAES, J.S.; CRISTIANINI, G.M.S. Revisão de vocabulário controlado e critérios para a seleção de literatura: o caso da área de Estatística e Probabilidade do ICMC/USP. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 17., 2010, Rio de Janeiro. Anais... Rio de Janeiro, RJ: UFRJ/SIBI, 2010.
AVEL, S.; NOLET, D. Manual de Terminologia. 2002. Disponível em: www.translationbureau.gc.ca. Acesso em 26 de agosto de 2016.
SARDINHA, T. B. Linguística de corpus. Barueri, SP: Manole, 2004.
SINCLAIR, J. Developing linguistic corpora. 2004. Disponível em: http://www.ahds.ac.uk/creating/guides/linguistic-corpora/. Acesso em 26 de agosto de 2016.