Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações

26
PUCRS I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima

description

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações. Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima. O que será visto. Introdução aos conceitos de tesauro e relações semânticas; Objetivos deste trabalho; Recursos disponíveis; - PowerPoint PPT Presentation

Transcript of Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações

Page 1: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para

a Recuperação de Informações

Luiz Augusto Sangoi Pizzato

Vera Lúcia Strube de Lima

Page 2: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

2 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

O que será visto ...

• Introdução aos conceitos de tesauro e relações semânticas;

• Objetivos deste trabalho;• Recursos disponíveis;• Estrutura multitesauro desenvolvida;• Heurística de expansão de consultas implementada;• Avaliação;• Trabalhos relacionados;• Considerações;

Page 3: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

3 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

O que é um tesauro?

"É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999)

Caminhoneiro -> Caminhão, Motorista, CargaCobra -> Animal, Réptil, Cobra VenenosaComputador -> Processador, CPU, Processamento

Definição adequada ao contexto da RI / Dissertação

Definição adequada ao contexto da RI / Dissertação

Page 4: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

4 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Relações semânticas da ISO 2788

• Relação entre sinônimos– Entre Termos Preferenciais (TP) e Termos Não-Preferenciais

(TNP).• USE

– TNP USE TP– Motorista de caminhão USE Caminhoneiro

• UF (Used For)– TP UF TNP– Caminhoneiro UF Motorista de caminhão

Page 5: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

5 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Relações semânticas da ISO 2788

• Relações entre TP• Broader Term - BT

– Automóvel BT Veículo

• Narrower Term - NT– Veículo NT Automóvel

• Related Term - RT– Automóvel RT Rodovia

Page 6: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

6 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Objetivos deste trabalho

• Criar uma estrutura de tesauros que seja útil à Recuperação de Informação (RI).

• Demonstrar a possibilidade de utilização de múltiplos tesauros de forma conjunta (multitesauro) através da utilização de uma estrutura padrão.

Page 7: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

7 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Recursos disponíveis

• Tesauros– LDPUCRS

• Lista de descritores da Biblioteca Ir. José Otão – PUCRS;

– VCUSP• Vocabulário Controlado da USP – Tesauro em CDROM;

– VCBS• Vocabulário Controlado Básico do Senado;

– LTOCSS• Lista de termos obtida por cálculo de similaridade sintática

através das técnicas descritas por Gasperin (2001).

• Tesauro construído automaticamente através do corpus do NILC da “Folha de São Paulo” do ano de 1994.

Page 8: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

8 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

• Tesauros LDPUCRS, VCUSP, VCBS podem ser facilmente convertidos para a uma estrutura baseada na ISO 2788

• Algumas informações presentes nos tesauros podem ser descartadas– Scope Note (Notas de Escopo) são úteis para bibliotecários, mas

não aparentam utilidade na RI automática

• As relações semânticas do tesauro LTOCSS apresentam uma medida de similaridade entre os termos. – Como os significados das relações não são conhecidos, elas

são associadas à relação RT da ISO 2788.

Desenvolvimento da estrutura multitesauro

Page 9: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

9 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

LTOCSS

ISO 2788

<THESAURUS><TERM term=“Eletroeletrônicos”>

<TERM term=“Televisão”><UF term=“TV”/><RT term=“Audiência”/><RT term=“Telespectador” value=“0.99”/>

</TERM><NT term=“Videocassete”/>

</TERM><TERM term=“Videocassete”>

<SN>Utilize este termo quando for um aparelho

com mídia em fita magnética.</SN><BT term=“Eletroeletrônicos”/>

</TERM><TERM term=“Audiência”/>

</THESAURUS>

Estrutura multitesauro

Page 10: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

10 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Estrutura aplicada a RI

• Desenvolvimento de um heurística de Expansão de Consulta

– Objetivos:• Utilizar a estrutura em uma aplicação de RI;

• Demonstrar que, através de uma estrutura padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação.

Page 11: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

11 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Expansão de consulta?

• A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original.

DocumentosRelevantes

Termo A

Termo B

Termo C

Contexto deste trabalho

Contexto deste trabalho

Page 12: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

12 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

O que é o QET?

É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão.

O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux.

Page 13: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

13 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Carro AutomóvelUF

(0.8)Acidente de Trânsito

RT

(0.2)

RT

(0.2)

Carro AutomóvelUF

(0.8)Acidente de Trânsito

RT

(0.2)

Carro AutomóvelUF

(0.8)

Heurística da Expansão

• Um termo t é adicionado à consulta expandida se o valor δ(t) for maior que um limiar λ proposto.

• O valor δ(t) é soma de todos valores β(t) > σ .• A cada tipo de relação é atribuído um peso entre (0,1]

β = 0.8 > σ (0.1)

β = 0.16 > σ (0.1)

β = 0.032 < σ (0.1)

Acidente Acidente de TrânsitoNT

(0.6)δ = 0.6 + 0.16 > λ (0.6)

Page 14: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

14 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Medidas de avaliação

• Precisão:

• Recall:

• F-Measure:

c

bP

Corpus

a cb

Documentos Relevantes

Documentos Recuperados

a

bR

RP

PRF

2

Page 15: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

15 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Definição dos pesos para as relações

Peso de RT altos diminuem a precisão

Peso de BT elevado aumenta o recall mas reduz a precisão

Page 16: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

16 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Avaliação

• Testes em corpus– Corpus do NILC de artigos diversos da folha de São Paulo do

ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente.

– Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI.

• Verificação manual de relevância.

• Geração semi-automática de estatísticas.

– Marcação de relevância para 13 assuntos.

Page 17: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

17 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Recall

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

0,9000

1,0000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Ab

ran

nci

a

Consulta Original Consulta Expandida

Page 18: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

18 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Precisão

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

0,9000

1,0000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Pre

cis

ão

Consulta Original Consulta Expandida

Page 19: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

19 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

F-Measure

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Me

did

a-F

Consulta Original Consulta Expandida

Page 20: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

20 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Avaliação

• Médias das 13 consultas

Médias Precisão Recall F-Measure

Consulta Normal 0,4563 0,2336 0,3090

Consulta Expandida 0,3867 0,5247 0,4452

-15,25% +124,61% +44,08%

Page 21: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

21 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Trabalhos Relacionados

• Sintichakis & Constantopoulus (1997) apresentam um método de efetuar a junção de tesauros monolíngües;

• Robin & Ramalho (2001) realizam a expansão de consultas com as relações de sinonímia e hiperonímia da WordNet.

• Tudhope et al. (2001) propõem uma técnica para medir a distância semântica entre termos utilizando diferentes pesos para as diferentes relações semânticas.

• Mandala et al. (1999) utilizam a WordNet, junto ao tesauro de Roget e outros tesauros gerados automaticamente, na expansão de consultas.

Et al.

E coautores!

Et al.

E coautores!

Page 22: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

22 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Considerações

• A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido.

• O método de expansão apresenta bons resultados (F-Measure) e melhora a RI.

Page 23: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

23 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Foco da Dissertação

• O desenvolvimento da estrutura multitesauro;• A heurística utilizada na expansão de consulta

implementada na ferramenta QET.• Uma avaliação da utilização da estrutura na RI.

Page 24: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

24 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Agradecimentos

• Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS

• Conselho Nacional de Pesquisa Científica

• Departamento Técnico do Sistema Integrado de Bibliotecas da USP

• Subsecretaria de Biblioteca do Senado Federal

• Biblioteca Central da PUCRS

• Núcleo Interinstitucional de Lingüistica Computacional

Page 25: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

25 /28

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Referências

GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001.

ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.

MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpus-based thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The Association For Computational Linguistics (EACL'99), 1999. Proceedings ... . 1999. p.94-101.

MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of thesaurus for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research And Development In Information Retrieval, 1999. Proceedings .... ACM Press, 1999. p.191-197.

ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine setting. In: IR'2001, 2001,Oulu, Finland. Proceedings … . 2001.

RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.

SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th International Conference On Research And Development In Information Retrieval, 1997. Proceedings ... . 1997. p.129-138.

TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for retrieval. Journal of Digital Information, v.1, n.8, Fevereiro 2001.

Page 26: Desenvolvimento e Avaliação de uma Estrutura Multitesauro para  a Recuperação de Informações

PUCRS

I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002

CNPq

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para

a Recuperação de Informações

Luiz Augusto Sangoi Pizzato

Vera Lúcia Strube de Lima

http://www.inf.pucrs.br/~pizzatohttp://www.inf.pucrs.br/[email protected]@inf.pucrs.br