INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

42
INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA Camila Rodrigues de Araujo nº USP 9799359 Jessica Oliveira Santos nº USP 8500318 João Vasques nº USP 9799321 Prof. Dra. Giovana Deliberali Maimone Indexação: teoria e métodos - noturno

Transcript of INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Page 1: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Camila Rodrigues de Araujo nº USP 9799359Jessica Oliveira Santos nº USP 8500318João Vasques nº USP 9799321

Prof. Dra. Giovana Deliberali Maimone

Indexação: teoria e métodos - noturno

Page 2: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Sobre o livro:Título: Indexação e resumos: teoria e prática

Autor: Frederick Wilfrid Lancaster

Primeira edição: 1991

Trata da indexação de assuntos e redação de resumos.

“A indexação de assuntos e a redação de resumos são atividades intimamente relacionadas, pois ambas implicam a preparação de uma representação do conteúdo temático dos documentos.” (LANCASTER, 2004, p. 6)

Page 3: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulos abordados:

❖ Capítulo 2: Princípios da indexação

❖ Capítulo 3: A prática da indexação

❖ Capítulo 15: Indexação automática, redação automática de resumos e

processos afins

Page 4: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 2: Princípios da indexaçãoRESUMO

Resumidor: síntese do documento de forma clara e com boa qualidade.

INDEXAÇÃO

Indexador: descreve o conteúdo com um ou vários termos de indexação (vocabulário controlado).

Objetivo: indicar do que trata o documento e funcionar como pontos de acesso para recuperação.

Page 5: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 2: Princípios da indexaçãoExtensão do registro:● uma das propriedades mais importantes de

uma representação de conteúdo temático;● no resumo quanto mais informações

apresentadas, mais se revela se satisfaz ou não a necessidade informacional;

● a indexação exaustiva proporciona uma indicação melhor do assunto.

representação = recuperabilidade do item (pontos de acesso)

Page 6: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 2: Princípios da indexaçãoEtapas da indexação de assuntos:

1. Análise conceitual2. Tradução

1. Análise conceitual decide de que trata/assunto do documento. Para Lancaster (2004, p. 15) “[...] identifica assuntos estudados ou representados num documento.”

3 perguntas:

● De que trata?● Por que foi incorporado a nosso acervo?● Quais de seus aspectos serão de interesse para nossos usuários?

Page 7: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 2: Princípios da indexação● “indexação centrada no usuário” (FIDEL, 1994 apud LANCASTER, 2004, p.

10)● Métodos colaborativos de indexação.● É preciso que os indexadores

saibam muito mais do que os princípios da indexação. Devem, em especial, estar inteiramente a par dos interesses da comunidade atendida e das necessidades de informação de seus membros.” (LANCASTER, 2004, p. 12)

Page 8: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 2: Princípios da indexação2. Tradução “[...] envolve a conversão da análise conceitual de um documento num determinado conjunto de termos de indexação.” (LANCASTER, 2004, p. 18)

● Indexação por extração (derivada): palavras ou expressões selecionados do documento.

● Indexação por atribuição: termos de outra fonte que não o documento, podendo ser o vocabulário controlado.

Page 9: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 2: Princípios da indexaçãoVocabulário controlado:

● Vocabulário controlados - lista de termos autorizados que serve para controlar sinônimos, diferenciar homógrafos e agrupar termos afins.

● 3 tipos principais de vocabulários controlados: esquemas de classificação bibliográfica, listas de cabeçalhos de assuntos e tesauros.

Page 10: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 2: Princípios da indexaçãoEspecificidade do vocabulário:

● Tradução para os 3 tipos de vocabulários;● Alcance e especificidade do vocabulário;● Propriedades de combinação de termos.

Segundo Lancaster (2004, p. 22-23):

[...] o tipo de vocabulário controlado (esquemas de classificação, listas de cabeçalhos de assuntos, tesauro) não é o fator mais importante a influir na etapa de tradução da indexação. Muito mais importantes são o alcance (abrangência) e a especificidade do vocabulário. [...] É importante considerar, em especial, as propriedades de combinações de termos de indexação mais do que as propriedades de termos isolados.

Page 11: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 3: A prática da indexaçãoQuase em nenhuma oportunidade, o indexador conseguirá ler um texto ou documento completamente. Indica-se a leitura de trechos que têm maior probabilidade de fornecer informações importantes sobre o texto em menor tempo. Lancaster cita esses trechos, assim como dá uma lista presente em uma norma internacional sobre indexação de assuntos (Methods for examining documents) de 1985:

a) título;b) resumo, se houver;c) sumário;d) introdução, as frases e parágrafos

de abertura de capítulos, e as conclusões;

e) ilustrações, gráficos, tabelas e respectivas legendas;

f) palavras ou grupos de palavras que apareçam sublinhados ou grafados com tipos diferentes.

Page 12: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 3: A prática da indexação

O autor frisa que esses pressupostos são considerados para documentos que são possíveis de se ler, a já citada Methods for examining documents fala sobre diferentes procedimentos para os outros tipos de documentos, como os audiovisuais. Como no caso dos documento impressos, geralmente, o documento não é todo analisado (neste caso, assistido ou escutado), sendo a indexação feita a partir do título e/ou da sinopse.

Usando como referência um texto de Browne (2001), fala-se da particularidade em indexar sites na web, para ter-se uma base e a indexação ser possível, o profissional deve: anotar o tipo de informação, a quantidade de informação, a qualidade dos vínculos de navegação, o tamanho dos arquivos e, por fim; solicitar ao responsável informações importantes dos arquivos, inclusive a quantidade de autores que contribuem com a página.

Page 13: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 3: A prática da indexaçãoExaustividade e exatidão da indexação:

Existem dois fatores que influem diretamente na eficiência de um sistema de recuperação da informação, ligados diretamente a indexação, são eles: a política de indexação e a exatidão da indexação. A principal decisão política diz a respeito à exaustividade da indexação, o que é relacionado ao número de termos atribuídos em média. Não é recomendado que exista um limite para esses termos mas, que se estabeleça uma faixa de termos padrão.

Figura que mostra o problema de uma indexação exaustiva, em que o indexador quer incluir todos os assuntos abordados no texto.O correto seria uma indexação equilibrada (seletiva + exaustiva), que busque identificar os termos mais relevantes para o usuário.

Page 14: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 3: A prática da indexação

Princípio da especificidade:

É o mais importante princípio da indexação de assuntos, remontando a Cutter. Este princípio defende que um tópico deve ser indexado sob o termo mais específico que o abranja completamente e se torna muito comum indexadores serem redundantes quando não o seguem. Lancaster usa o exemplo de um artigo sobre o cultivo de laranjas para exemplificar o princípio, o mesmo seria indexado sob o termo LARANJAS e não com um termo mais genérico como FRUTAS ou FRUTAS CÍTRICAS.

Incluir esses termos mais abrangentes tornará a tarefa de diferenciar artigos mais genéricos dos mais específicos mais difícil e demorada. Deve se entender que é possível ter especificidade com a combinação de termos, se nenhum termo sozinho possa representar um tópico.

Page 15: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 3: A prática da indexação

Outras diretrizes:

Nenhuma outra regra rigorosa, além do princípio da especificidade foi desenvolvida para atribuição dos termos. O único outro princípio formulado é denominado de “indexação compulsória”, que é basicamente uma reafirmação do princípio da especificidade. Apesar de teorias e axiomas surgirem de vários autores, Lancaster analisa que eles não são diretamente ligados a indexação. Segundo ele, é possível identificar apenas duas regras básicas; uma referente a análise conceitual e outra a etapa de tradução:

1. Inclua todos os tópicos reconhecidamente de interesse para os usuários do serviço de informação, que sejam tratados substantivamente no documento

2. Indexe cada um desses tópicos tão especificamente quanto o permita o vocabulário do sistema e o justifiquem as necessidades ou interesses dos usuários.

Page 16: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 3: A prática da indexação

Índices pós-coordenados:

O conteúdo temático objeto de um documento e os termos de indexação que lhe são atribuídos possuem caráter multidimensional. Lancaster usa como exemplo um texto que trata da migração de mão-de-obra de Moçambique para as minas da África do Sul.

Um sistema de recuperação da informação que permite que uma busca combine os termos de qualquer maneira é chamado de pós-coordenado. Um sistema informatizado moderno, funciona em linha e pode ser imaginado conceitualmente como uma matriz.Sobre os índices pós-coordenados pode se afirmar:

Page 17: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 3: A prática da indexação

Índices pós-coordenados:

1. Os termos podem ser combinados entre si de qualquer forma no momento em que se faz a busca.

2. Preserva-se a multidimensionalidade das relações entre os termos.

3. Todo termo atribuído a um documento tem peso igual - nenhum é mais importante que o outro.

Page 18: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

“As representações de textos podem ser o próprio texto completo, partes dele ou outra forma de representação construída [...] As representações de pedidos serão termos, apresentados em relações lógicas, enunciados textuais ou ‘itens’ [...].” (LANCASTER, 2004, p. 284)

Problemas de recuperação da informação:

● mensagem em diferentes formatos;● necessidades de informação como pedidos formulados a um serviço de informação;● serviço de informação que armazena as informações numa base de dados.

Page 19: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

“Os textos podem não ser representações perfeitas das mensagens [...] as representações dos textos também podem ser imperfeitas. E por sinal, os pedidos raramente são representações perfeitas das necessidades de informação [...]. ” (LANCASTER, 2004, p. 284)

Bates (1986 apud LANCASTER, 2004) a respeito do problema da recuperação da informação foca na problemática da saída da atividade (necessidade de informação - pedido - representação) em relação a entrada (mensagem - texto - representação).

Lancaster (2004) menciona a aplicação de computadores na indexação automática e elaboração automática de resumos.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

Page 20: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Indexação por extração automática:

Na indexação por extração, palavras ou expressões que aparecem no texto são extraídas e utilizadas” (LANCASTER, 2004, p. 286)

Critérios de indexação por extração feita por humanos e computadores:

● frequência;● posição;● contexto.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

Métodos para o critério de frequência:

● seleção de palavras e expressões no texto;

● seleção de radicais;● processamento da primeira e última

linha de cada parágrafo (BAXENDALE, 1958);

● frequência relativa combinada a frequência absoluta.

Page 21: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Indexação por atribuição automática:

De acordo com Lancaster (2004, p. 289):

A extração automática apresenta nítida vantagem em relação à extração feita por seres humanos: é totalmente coerente. No entanto, a maior parte da indexação feita por seres humanos não constitui indexação por extração, mas indexação por atribuição, e a realização desse trabalho por computador é, em geral, mais difícil.

Método para indexação por atribuição feita por computador:

● desenvolver um “perfil” de palavras e expressões para cada termo

Ex: termo “chuva ácida” chuva ácida, precipitação ácida, poluição atmosférico, etc.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

Page 22: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

● Outras formas de classificação:

A indexação é uma forma de classificação na qual há atribuição de “itens”, nela são criadas classes de documentos ou classes de termos.

O capítulo 15 trata principalmente da “indexação” e a “elaboração automática de resumos”.

○ Em sistemas “convencionais”: recuperação da informação é realizada na forma de buscas auxiliadas por associações estabelecidas entre termos.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

○ Método automático: de classificação é baseado na comparação (cotejar) da linguagem natural, resumos e/ou representações documentais.

○ Eficácia das buscas: o método automático vem incorporando processos automáticos.

○ Co-ocorrência: que é a relação entre termos explorada pelo computador.

Page 23: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Ex. de co-ocorrência: Quanto mais frequentemente dois termos ocorrerem juntos [...], mais provável será que tratem de conteúdo temático similar [...] se o termo A nunca ocorre em B e o termo B nunca ocorre sem A [...] os dois termos são totalmente interdependentes e seriam completamente intercambiáveis na busca. Além da associação direta: (X e X tendem a ocorrer juntos).

○ Associações indiretas: termos podem também ser derivados com base nos dados de co-ocorrência. (LANCASTER, 2004, p. 294).

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

○ O cálculo de associação:

É feito através da co-ocorrência relativa à frequência de ocorrência de cada termo.

A relacionalidade “R” de dois termos é definida pela equação

Page 24: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

○ Relacionalidade: os dados obtidos com a relacionalidade podem ser usados de duas formas:

✓ Desenvolve-se e armazena-se uma rede de associações entre dois termo;

✓ Identificam-se e armazenam-se classes separadas de termos com base em associações extraídas da rede.

Tipos de classes de termos:

➢ Facção:

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

➢ Estrela:

➢ Fileira:

➢ Conglomerado:

➢ Tais classes derivam de um processo estatístico;

Page 25: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

● Outras formas de ligação:○ Indexação semântica latente:

abordagem similar ao “agrupamento de itens relacionados” é a “Indexação semântica latente”, que se baseia no processo de classificação relacionado com a análise fatorial.

○ Acoplamento bibliográfico: Kessler (1962-1965) fórmula que quanto mais referências dois itens tiverem em comum, mais forte será seu acoplamento.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

○ Co-citação: um tipo de ligação que alguns itens forma uma classe por serem citados juntos. (quanto mais itens co-citarem, mais fortemente estarão relacionados).

○ É importante ressaltar que as classes formadas por co-citação sofrem mudanças com o passar do tempo, pois novas inter-relações entre pesquisas e resultados são estabelecidos.

○ Esse método poderia descobrir itens úteis que não seriam encontrados por meio convencionais. Porém o método normal consegue localizar itens que a ligação por citação não conseguiria, os dois métodos são complementares e não concorrentes.

Page 26: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

● Redação automática de resumos:

Os computadores podem ser programados para selecionar termos de documentos seguindo critérios de frequência, isso basicamente se denomina como a “redação automática de resumo ou elaboração automática de extratos”.

O criador desse método é Luhn (1958), e para tanto adotou os seguintes procedimentos:

➢ Uma lista de palavras proibidas elimina do processamento posterior todas as palavras não-significativas.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

➢ Contam-se as ocorrências de todas as palavras restantes, que são ordenadas segundo sua frequência de ocorrência (podem ser usados radicais no lugar das palavras).

➢ Todas as palavras que ocorram mais de x vezes são definidas como palavras de “alta frequência” ou significativas”.

➢ Localizam-se as frases que contenham concentrações dessas palavras de alta frequência, Consideram-se duas palavras relacionadas dentro de uma frase se não houver mais de quatro palavras intermediárias.

Page 27: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

➢ Calcula-se um “fator de significância” para cada frase, da seguinte maneira:

✓ determina-se o número de “aglomerados” na frase (grupo de palavras mais extenso, demarcado por palavras significativas e estas não estejam separadas por de 4 palavras intermediárias);

✓ determina-se o número de palavras significativas no aglomerado e se divide o quadrado desse número pelo total de palavras dentro do aglomerado;

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

✓ define-se o fator de significância da frase como o valor do aglomerado mais alto ou como a soma dos valores de todos os aglomerados na frase.

Exemplo:

Page 28: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

○ De acordo com Luhn, as frases que tenham fatores de significância mais altos serão selecionadas na sequência em que ocorrem no texto, dando forma ao “resumo”.

○ O resumo feito dessa forma pode parecer confuso, pois tira frases de todas as partes do texto (começo, meio e fim).

○ O importa é que as frases escolhidas tenham o quadro exato do que o documento está tratando.

○ Luhn (1959) e Oswald et al (1959), utilizam a frequência de palavras ou expressões para a seleção de frases.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

● Outros pesquisadores empregaram critérios alternativos para extratos automáticos:

● Ex. Edmundson (1959), identificou 4 métodos possíveis:

✓ Método de chave✓ Método da deixa✓ Método do título✓ Método da Localização

Page 29: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Já para Rush et al. (1971) qualquer método de extração deve ter critérios de rejeição e seleção de frases, levando em conta a relevância contextual.

● O seu método baseia-se no cotejo do texto com uma lista de Controle de palavras, que inclui uma lista de expressões que levariam a seleção ou rejeição dos termos.

● Seu método oferecia vantagens em relação a processos anteriores, pois tinha a capacidade de:

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

✓ Modificar frases extraídas;✓ “Remissão interfrasal” (frase testada para

determinar seu significado, dependentes das frases precedentes. se o significado fosse dependente, as frases (max. 3) seriam incluídas no resumo, mesmo sem estar de acordo com os critérios de aceitação;

✓ Capacidade de criar extratos com melhor sequência lógica.

Page 30: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Mathis et al. (1973) fez modificações no método de Rush, referentes às características de modificação frasal e remissão interfrasal dos processos anteriores, assim pretendia-se produzir representações que sejam mais legíveis.

Earl (1973) fez experimentos para determinar se as frases poderiam ou não ser significativas e identificadas por meio de análise sintática. A hipótese de Earl era que as frases que contivessem certas estruturas sintáticas seriam mais indicativas de conteúdo do que outras.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

Paice (1981) descreveu processos de elaboração automática de extratos baseados na identificação de frases com probabilidade de serem bons indicadores daquilo de que trata um documento. (expressões como “o principal objetivo” ou “descreve-se um método”).

Fum et al. (1982) descreveram um método de elaboração automática de resumos no qual, processos de análise sintática e ponderação identificam as informações mais importantes transmitidas num texto e eliminam elementos não-essenciais e reestruturam o restante em um resumo condensado e expressivo. (Processo não viável com documento extensos)

Page 31: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Hahn e Reimer (1984) desenvolveram um método, inspirado no conceito de “sistema especialista”, para condensação de textos, em que foi adotado uma base de conhecimento de quadros que aplicavam à análise sintática de textos(métodos que pode ser utilizados para criar condensação em vários níveis).

Quanto mais formais e coerentes forem os textos dos documentos, mais bem sucedidos provavelmente serão os processos de elaboração de extratos.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

Page 32: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

● Operações “automáticas” de recuperação:

Processo que permitiria que um pedido expresso em texto em linguagem natural fosse cotejado com o texto dos documentos (texto completo, texto parcial ou alguma forma de apresentação), considera-se isso como uma espécie de coincidência de padrões.

○ Escore: Atribui-se aos textos de base de dados um tipo de escore, que reflete o grau de coincidência de um texto com um pedido, de modo que possam ser apresentados em forma de saída ordena

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

○ Método simples de coincidência: Levar em conta quantas palavras do pedido ocorrem em um resumo.

○ São possíveis muitos refinamentos desse nível rudimentar de estabelecimento de coincidência.

○ A coincidência pode basear-se em radicais, ao invés de palavras completas.

○ Mais precisa se tiver como base expressões e não palavras simples.

○ Na posição intermediária entre palavras simples e expressões está o emprego da proximidade de palavras (capacidade de atribuir pesos maiores a palavras que apareçam perto uma da outra).

Page 33: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

● diferentes critérios na atribuição de um escore ao texto, a fim de refletir o grau em que ele coincide com o texto de um pedido.

● escore atribuído pode basear-se em mais de um dos critérios.

● Portanto um sistema “automático” deve incorporar diversos critérios possíveis para o estabelecimento de coincidência, e permitir ao usuário escolher um deles (ex. sistema mais elaborado SMART de Salton, elaborado por mais de 30 anos).

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

Salton (1989): os métodos de Salton determinam essencialmente a similaridade entre dois textos e expressam essa proximidade como um escore numérico, uma “medida de similaridade”, que será usada para ordenar a saída.

Pode-se atribuir outras utilizações para essa medida de similaridade dos textos (ex. medir proximidade de textos de documentos, permitindo formar classes de textos similares).

Esse escore pode estabelecer vínculos de hipertexto em uma rede de informação.

Page 34: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Savoy (1995) postula o estabelecimento de vínculos de hipertexto mediante aplicação de métodos probabilísticos. Também sugere que os vínculos de hipertexto sejam usados para a obtenção automática de novos termos de busca.

Outros sistemas também foram criados para permitir ao usuário dar entrada a um pedido na forma de enunciado textual (ex. CITE desenvolvido por Doszkocs (1983)).

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

CITE: tem sido empregado como interface em linguagem natural com bases de dados MEDLINE e CATLINE da National Library of Medicine.

Ele funciona em uma base de dados de registros que possuem termos de indexação ou que envolva textos livres.

Page 35: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Abordagens atuais:

A internet provocou tremendo aumento do interesse pelas técnicas de recuperação em geral e pelos métodos automáticas em particular.” (LANCASTER, 2004, p. 310)

● Projeto TIPSTER: atividades de processamento automático de texto

Conferências:

● TRECS (Text Retrieval Conferences) - recuperação de texto;● MUCS (Message Understanding Conferences) - compreensão de mensagens;● DUCS (Document Understanding Conferences) - compreensão de documentos;● Conferências sobre processamento de linguagem natural aplicada;● Conferências internacionais sobre análise e reconhecimento de documentos.

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

Page 36: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Mais de 30 anos as pesquisas sobre indexação com o auxílio de computador. O auxílio em linha ocorre das seguintes formas: sugestão de termos aos indexadores; advertência para erros; substituição de termos inaceitáveis por aceitáveis; interface com a base de dados. (LANCASTER, 2004).

❖ Exemplos de sistemas de indexação com computador:

● DCMS (Data Creation and Maintenance System) - National Library of Medicine;● CAIN - usado no AGREP (base de dados da Comunidades Européia sobre projetos

agrícolas), usa dois tesauros (AGRO-VOC e o CAB Thesauros);● CASI (Center for AeroSpace Information) - NASA;● SNOMED (Systematized Nomenclature of Human and Veterinary Medicine) - atribuição

automática de descritores clínicos dos textos de resumo de alta de pacientes;

Capítulo 15: Indexação automática, redação automática de resumos e processos afins

Page 37: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

● MedIndEx - sistema especializado da National Library of Medicine, baseado em quadros [frame-bases];

● CAIT (Computer-Assisted Indexing Tutor) - sistema especializado da National Agricultural Library.

❖ Sistemas descritos na literatura:

Jones e Bell (1992) - “[...] sistema projetado para extrair palavras ou expressões de textos, a fim de formar entradas de índices [...] baseia-se em listas armazenadas: de palavras a serem ignoradas, palavras/expressões/nomes de reconhecido interesse, e listas auxiliares para desambiguação de homógrafos.” (LANCASTER, 2004, p. 313)

Driscoll et al (1991) - “O texto é processado em cotejo com uma lista de mais de 3000 expressões. A ocorrência de uma delas no texto aciona o uso de regras de inserção e eliminação.” (LANCASTER, 2004, p. 313)

Plaunt e Norgard (1998) - uso do tesauro INSPEC com base na técnica de “colocação lexical”.

Page 38: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

NLM (National Library of Medicine) desenvolve processos para atribuir automaticamente a artigos de periódicos os cabeçalhos do Medical Subject Heading (MeSH):

● método de ligação com os termos do MeSH com expressões presentes nos títulos dos artigos e nos resumos, utilizando o Unified Medical Language System;

● método de cotejo das palavras, do título e do resumo de um artigo ‘novo’ com as palavras que ocorrem no título e no resumo de artigos já indexados, assim os termos atribuídos coincidentes tornam-se candidatos para atribuição ao novo artigo.

Pérez-Carballo (2001) - “A indexação semântica latente (ISL) é um dos mais elaborados esforços atuais visando a uma indexação automática de alta qualidade. Fundamenta-se em agrupamentos de termos baseados em co-ocorrência e identificação de documentos relativos a tais agrupamentos. Ao se apoiar em dados de co-ocorrência a ISL, também consegue lidar com o problema da variedade de termos que expressam ideias semelhantes.” (LANCASTER, 2004, p. 315-316)

Page 39: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

❖ Redação de resumos assistida por computador:

Mudança do termo “redação automática de resumos” para “sumarização de textos”

De acordo com Lancaster (2004, p. 320):

“A sumarização automática ainda é uma questão de seleção de frases e o objetivo das pesquisas nesta área consiste em otimizar essa seleção e organizar as frases selecionadas para melhorar a clareza e utilidade do extrato.”

❖ Métodos descritos na literatura:

Hahn e Mani (2000) - modelo de ponderação linear, com localização no texto, número de ocorrências na base de dados como um todo e expressões-deixa (cue phrases)

Salton et al (1997) - medição das semelhanças entre pares de parágrafos no mesmo documento

Nomoto e Matsumoto (2001) - ‘diversidade’ - identificação de tópicos abrangidos no texto e seleção da frase mais representativa de cada tópico

Page 40: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Lehmam (1999) - seleção de frases que contenham a maior concentração de palavras ou expressões

Mani (2001) avalia resumo automáticos em métodos intrínsecos e extrínsecos:

Método intrínseco: Método extrínseco:

Page 41: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Obrigado!

Page 42: INDEXAÇÃO E RESUMOS: TEORIA E PRÁTICA

Referências:LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. rev. atual. Brasília, DF: Briquet de Lemos/Livros, 2004.