Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

25
Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Transcript of Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Page 1: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Medidas de Avaliação de Sistemas de Recuperação de Informação

Eveline Alonso VelosoPUC-MINAS

Page 2: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Referências

BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 3.

Page 3: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Avaliação de Desempenho

Métricas mais comumente utilizadas para avaliar o desempenho de sistemas de recuperação de informação:

tempo de resposta;

espaço utilizado.

Page 4: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Características Principais de Sistemas de Recuperação de Informação Necessidade de informação do

usuário: ampla; vaga.

Documentos recuperados não correspondem a uma resposta exata; devem ser ranqueados de acordo

com suas relevâncias para a consulta.

Principal diferença em relação a sistemas de recuperação de dados.

Page 5: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Avaliação da Estratégia de Recuperação de Informação

Métricas que avaliam quão preciso é o conjunto-resposta.

Avaliações baseiam-se em:

coleções de referência;

métricas de avaliação.

Page 6: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Coleção de Referência Consiste em:

uma coleção de documentos; um conjunto de consultas de

exemplo; para cada consulta de

exemplo; um conjunto de documentos

relevantes; normalmente indicado por

especialistas.

Page 7: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

TREC Conferência TREC:

Text REtrieval Conference; web site: http://trec.nist.gov/; ocorre anualmente desde 1992; objetivo:

apoiar a pesquisa na área de recuperação de informação;

fornecendo a infra-estrutura necessária para a avaliação de metodologias de recuperação em grandes coleções de documentos textuais.

Page 8: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

TREC Coleção de documentos:

novas coleções TREC são publicadas a cada edição da conferência;

diversas coleções; com milhões de documentos;

documentos são extraídos de fontes como:

Wall Street Journal; registros de patentes dos Estados

Unidos; Financial Times; entre outros.

Page 9: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

TREC Identificação dos documentos

relevantes para as consultas de exemplo: a cada edição da conferência,

seus participantes avaliam suas estratégias de recuperação de informação em uma nova coleção;

processando as consultas de exemplo.

Page 10: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

TREC Identificação dos documentos

relevantes para as consultas de exemplo (continuação): os k primeiros documentos retornados

por cada uma destas estratégias de recuperação de informação, para cada uma das consultas de exemplo, são selecionados.

Em geral, k = 100 documentos. todos os documentos selecionados são

então avaliados por especialistas; que decidem sobre a relevância destes

documentos para a consulta; indicando assim o conjunto final de

documentos relevantes para a consulta.

Page 11: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Outras Coleções de Referência Coleção CACM:

artigos publicados no periódico Communications of the ACM;

alguns milhares de documentos. Coleção Fibrose Cística:

subconjunto da base de documentos MEDLINE;

pouco mais de mil documentos.

Page 12: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Procedimento de Avaliação Dada uma estratégia de recuperação

de informação, a métrica de avaliação quantifica; para cada consulta de exemplo da

coleção de referência; a similaridade entre:

o conjunto de documentos recuperados pela estratégia de recuperação de informação que está sendo avaliada e;

o conjunto de documentos relevantes indicado pela coleção de referência.

Isto provê uma estimativa da eficácia da estratégia de recuperação avaliada.

Page 13: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Precisão x Revocação

Para uma consulta q: R: conjunto de documentos relevantes para

q; |R| = número de elementos do conjunto R.

A: conjunto-resposta para a consulta q; indicado pela estratégia de recuperação de

informação que está sendo avaliada. |A| = número de elementos no conjunto A.

Ra: interseção entre os conjunto R e A; |Ra| = número de elementos no conjunto Ra.

Coleção

R ARa

Page 14: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Revocação

Fração dos documentos relevantes que foram recuperados:

|R|

|R|vocaçãoRe a

Page 15: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Precisão

Fração dos documentos recuperados que são relevantes:

|A|

|R|ecisãoPr a

Page 16: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Precisão x Revocação Em geral, o sistema de

recuperação de informação não apresenta ao usuário todos os documentos do conjunto-resposta de uma única vez.

Os documentos são ranqueados; e o usuário examina esta lista de

documentos a partir do topo.

Page 17: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Precisão x Revocação Assim, medidas de precisão e

revocação variam; à medida que o usuário avança em

seu exame do conjunto-resposta. Por isso, é necessário avaliar a

precisão; em diversos níveis de revocação;

obtendo-se uma curva de precisão x revocação com 11 pontos de revocação;

0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%.

Page 18: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Precisão x Revocação Muitas vezes, não conseguimos

determinar a precisão nestes exatos 11 pontos de revocação.

Nestes casos, utilizamos o seguinte mecanismo de interpolação: precisão no nível j de revocação:

corresponde ao maior valor de precisão conhecido entre os níveis de revocação j e j+1.

Page 19: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Precisão x Revocação Além disso, geralmente, estratégias de

recuperação de informação são avaliadas através do processamento de diversas consultas diferentes.

Nestes casos, para cada consulta distinta; uma curva de precisão x revocação é criada.

Em seguida, para cada um dos 11 pontos de revocação;

fazemos a média dos valores de precisão encontrados, neste nível de revocação, para todas as consultas processadas.

A curva resultante corresponde à curva de precisão x revocação que reflete o desempenho geral da estratégia de recuperação avaliada.

Page 20: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Exercício 1 – Documentos Relevantes Você está avaliando um novo

algoritmo de recuperação de informação. Para esta avaliação, você usará uma coleção de referência que indica, para uma consulta q1, o seguinte conjunto de documentos relevantes: d3, d5, d9, d25, d39, d44, d56, d71, d89,

d123

Page 21: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Exercício 1 – Conjunto-resposta Para esta mesma consulta q1, o novo

algoritmo de recuperação de informação que está sendo avaliado retornou os seguintes documentos, nesta ordem de relevância para a consulta: d123, d84, d56, d6, d8, d9, d511, d129, d187, d25,

d38, d48, d250, d113, d3

Construa o gráfico de 11 pontos de precisão x revocação deste novo algoritmo de recuperação de informação, para a consulta q1.

Page 22: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Exercício 2 – Documentos Relevantes Você decidiu agora avaliar este

mesmo algoritmo de recuperação de informação utilizando, no entanto, uma outra coleção de referência que indica, para uma outra consulta q2, o seguinte conjunto de documentos relevantes: d5, d64, d110

Page 23: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Exercício 2 – Conjunto-resposta Utilizando esta segunda coleção de

referência, o novo algoritmo de recuperação de informação que está sendo avaliado retornou, para a mesma consulta q2, os seguintes documentos, nesta ordem de relevância: d123, d4, d64, d36, d80, d9, d51, d110, d17, d250,

d38, d84, d50, d11, d5

Construa o gráfico de 11 pontos de precisão x revocação deste algoritmo de recuperação de informação, para a consulta q2.

Page 24: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Exercício 3 – Documentos Relevantes Considere que, em uma

determinada coleção de referência, a resposta ideal para uma determinada consulta q3, desta coleção de referência, seja composta pelos seguintes documentos: d1, d7, d13, d49.

Page 25: Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.

Exercício 3 – Conjunto-resposta Considere também que um novo modelo

de recuperação de informação está sendo avaliado e que a resposta encontrada por este novo modelo para a mesma consulta q3 seja composta pelos seguintes documentos, nesta ordem: d11, d70, d1, d32, d149, d51, d17, d90, d12, d40, d150,

d7, d15, d92, d49, d3, d100, d81, d9, d14.

Construa o gráfico de precisão x revocação deste novo modelo de recuperação de informação, para a consulta q3.