Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.
Transcript of Medidas de Avaliação de Sistemas de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS.
Medidas de Avaliação de Sistemas de Recuperação de Informação
Eveline Alonso VelosoPUC-MINAS
Referências
BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 3.
Avaliação de Desempenho
Métricas mais comumente utilizadas para avaliar o desempenho de sistemas de recuperação de informação:
tempo de resposta;
espaço utilizado.
Características Principais de Sistemas de Recuperação de Informação Necessidade de informação do
usuário: ampla; vaga.
Documentos recuperados não correspondem a uma resposta exata; devem ser ranqueados de acordo
com suas relevâncias para a consulta.
Principal diferença em relação a sistemas de recuperação de dados.
Avaliação da Estratégia de Recuperação de Informação
Métricas que avaliam quão preciso é o conjunto-resposta.
Avaliações baseiam-se em:
coleções de referência;
métricas de avaliação.
Coleção de Referência Consiste em:
uma coleção de documentos; um conjunto de consultas de
exemplo; para cada consulta de
exemplo; um conjunto de documentos
relevantes; normalmente indicado por
especialistas.
TREC Conferência TREC:
Text REtrieval Conference; web site: http://trec.nist.gov/; ocorre anualmente desde 1992; objetivo:
apoiar a pesquisa na área de recuperação de informação;
fornecendo a infra-estrutura necessária para a avaliação de metodologias de recuperação em grandes coleções de documentos textuais.
TREC Coleção de documentos:
novas coleções TREC são publicadas a cada edição da conferência;
diversas coleções; com milhões de documentos;
documentos são extraídos de fontes como:
Wall Street Journal; registros de patentes dos Estados
Unidos; Financial Times; entre outros.
TREC Identificação dos documentos
relevantes para as consultas de exemplo: a cada edição da conferência,
seus participantes avaliam suas estratégias de recuperação de informação em uma nova coleção;
processando as consultas de exemplo.
TREC Identificação dos documentos
relevantes para as consultas de exemplo (continuação): os k primeiros documentos retornados
por cada uma destas estratégias de recuperação de informação, para cada uma das consultas de exemplo, são selecionados.
Em geral, k = 100 documentos. todos os documentos selecionados são
então avaliados por especialistas; que decidem sobre a relevância destes
documentos para a consulta; indicando assim o conjunto final de
documentos relevantes para a consulta.
Outras Coleções de Referência Coleção CACM:
artigos publicados no periódico Communications of the ACM;
alguns milhares de documentos. Coleção Fibrose Cística:
subconjunto da base de documentos MEDLINE;
pouco mais de mil documentos.
Procedimento de Avaliação Dada uma estratégia de recuperação
de informação, a métrica de avaliação quantifica; para cada consulta de exemplo da
coleção de referência; a similaridade entre:
o conjunto de documentos recuperados pela estratégia de recuperação de informação que está sendo avaliada e;
o conjunto de documentos relevantes indicado pela coleção de referência.
Isto provê uma estimativa da eficácia da estratégia de recuperação avaliada.
Precisão x Revocação
Para uma consulta q: R: conjunto de documentos relevantes para
q; |R| = número de elementos do conjunto R.
A: conjunto-resposta para a consulta q; indicado pela estratégia de recuperação de
informação que está sendo avaliada. |A| = número de elementos no conjunto A.
Ra: interseção entre os conjunto R e A; |Ra| = número de elementos no conjunto Ra.
Coleção
R ARa
Revocação
Fração dos documentos relevantes que foram recuperados:
|R|
|R|vocaçãoRe a
Precisão
Fração dos documentos recuperados que são relevantes:
|A|
|R|ecisãoPr a
Precisão x Revocação Em geral, o sistema de
recuperação de informação não apresenta ao usuário todos os documentos do conjunto-resposta de uma única vez.
Os documentos são ranqueados; e o usuário examina esta lista de
documentos a partir do topo.
Precisão x Revocação Assim, medidas de precisão e
revocação variam; à medida que o usuário avança em
seu exame do conjunto-resposta. Por isso, é necessário avaliar a
precisão; em diversos níveis de revocação;
obtendo-se uma curva de precisão x revocação com 11 pontos de revocação;
0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%.
Precisão x Revocação Muitas vezes, não conseguimos
determinar a precisão nestes exatos 11 pontos de revocação.
Nestes casos, utilizamos o seguinte mecanismo de interpolação: precisão no nível j de revocação:
corresponde ao maior valor de precisão conhecido entre os níveis de revocação j e j+1.
Precisão x Revocação Além disso, geralmente, estratégias de
recuperação de informação são avaliadas através do processamento de diversas consultas diferentes.
Nestes casos, para cada consulta distinta; uma curva de precisão x revocação é criada.
Em seguida, para cada um dos 11 pontos de revocação;
fazemos a média dos valores de precisão encontrados, neste nível de revocação, para todas as consultas processadas.
A curva resultante corresponde à curva de precisão x revocação que reflete o desempenho geral da estratégia de recuperação avaliada.
Exercício 1 – Documentos Relevantes Você está avaliando um novo
algoritmo de recuperação de informação. Para esta avaliação, você usará uma coleção de referência que indica, para uma consulta q1, o seguinte conjunto de documentos relevantes: d3, d5, d9, d25, d39, d44, d56, d71, d89,
d123
Exercício 1 – Conjunto-resposta Para esta mesma consulta q1, o novo
algoritmo de recuperação de informação que está sendo avaliado retornou os seguintes documentos, nesta ordem de relevância para a consulta: d123, d84, d56, d6, d8, d9, d511, d129, d187, d25,
d38, d48, d250, d113, d3
Construa o gráfico de 11 pontos de precisão x revocação deste novo algoritmo de recuperação de informação, para a consulta q1.
Exercício 2 – Documentos Relevantes Você decidiu agora avaliar este
mesmo algoritmo de recuperação de informação utilizando, no entanto, uma outra coleção de referência que indica, para uma outra consulta q2, o seguinte conjunto de documentos relevantes: d5, d64, d110
Exercício 2 – Conjunto-resposta Utilizando esta segunda coleção de
referência, o novo algoritmo de recuperação de informação que está sendo avaliado retornou, para a mesma consulta q2, os seguintes documentos, nesta ordem de relevância: d123, d4, d64, d36, d80, d9, d51, d110, d17, d250,
d38, d84, d50, d11, d5
Construa o gráfico de 11 pontos de precisão x revocação deste algoritmo de recuperação de informação, para a consulta q2.
Exercício 3 – Documentos Relevantes Considere que, em uma
determinada coleção de referência, a resposta ideal para uma determinada consulta q3, desta coleção de referência, seja composta pelos seguintes documentos: d1, d7, d13, d49.
Exercício 3 – Conjunto-resposta Considere também que um novo modelo
de recuperação de informação está sendo avaliado e que a resposta encontrada por este novo modelo para a mesma consulta q3 seja composta pelos seguintes documentos, nesta ordem: d11, d70, d1, d32, d149, d51, d17, d90, d12, d40, d150,
d7, d15, d92, d49, d3, d100, d81, d9, d14.
Construa o gráfico de precisão x revocação deste novo modelo de recuperação de informação, para a consulta q3.