DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a...

28
DSC/CCT/UFCG 1 Inteligência Artificial Inteligência Artificial Recuperação da Informação Recuperação da Informação (Conceitos Básicos) (Conceitos Básicos) Prof. Prof. a a Joseana Macêdo Fechine Régis de Araújo Joseana Macêdo Fechine Régis de Araújo [email protected] [email protected] Universidade Federal de Campina Grande Universidade Federal de Campina Grande Departamento de Sistemas e Computação Departamento de Sistemas e Computação Curso de Pós-Graduação em Ciência da Curso de Pós-Graduação em Ciência da Computação Computação

Transcript of DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a...

Page 1: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

DSC/CCT/UFCG

DSC/CCT/UFCG

1

Inteligência ArtificialInteligência Artificial

Recuperação da Informação Recuperação da Informação (Conceitos Básicos)(Conceitos Básicos)

Prof.Prof.aa Joseana Macêdo Fechine Régis de Araújo Joseana Macêdo Fechine Régis de Araújo

[email protected]@computacao.ufcg.edu.br

Universidade Federal de Campina GrandeUniversidade Federal de Campina Grande

Departamento de Sistemas e Computação Departamento de Sistemas e Computação

Curso de Pós-Graduação em Ciência da Curso de Pós-Graduação em Ciência da ComputaçãoComputação

Page 2: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

2DSC/CCT/UFCGDSC/CCT/UFCG

2

Recuperação da Informação

Tópico

Conceitos Básicos e IA

Page 3: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

3DSC/CCT/UFCGDSC/CCT/UFCG

Recuperação da informação significa a operação pela qual se seleciona documentos, sobre tópicos específicos, a partir do acervo, em função da demanda do usuário.

O processo de recuperação de informação consiste em identificar, no conjunto de documentos(corpus) de um sistema, quais atendem à necessidade de informação do usuário.

Recuperação da Informação

Page 4: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

4DSC/CCT/UFCGDSC/CCT/UFCG

SRI – Etapas Principais

Aquisição (seleção) dos documentos Preparação dos documentos Indexação dos documentos Armazenamento Recuperação

Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados

Page 5: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

5DSC/CCT/UFCGDSC/CCT/UFCG

SRI – Tarefas e Modelos

(FERNEDA, 2003)

Page 6: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

6DSC/CCT/UFCGDSC/CCT/UFCG

Baseado na lógica booleana.

Considera uma consulta como uma expressão booleana convencional formada com os conectivos lógicos AND, OR e NOT.

Sua estratégia de recuperação é baseada no critério de decisão binária.

SRI – Modelo Booleano

Page 7: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

7DSC/CCT/UFCGDSC/CCT/UFCG

(FERNEDA, 2003)

SRI – Modelo Booleano ...

Page 8: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

8DSC/CCT/UFCGDSC/CCT/UFCG

Associa pesos aos termos de indexação e aos termos da expressão de busca.

O resultado da utilização destes pesos é a ordenação dos documentos pelo grau de similaridade em relação à expressão de busca.

Cada elemento do vetor é normalizado para assumir valores entre 0 e 1.

Para o cálculo do peso é considerado o n° de vezes que o termo aparece no documento e o n° de vezes que o termo aparece no corpus de documentos.

SRI – Modelo Vetorial

Page 9: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

9DSC/CCT/UFCGDSC/CCT/UFCG

A representação gráfica de dois documentos: DOC1, com termos de indexação t1 e t3, com pesos 0.3 e 0.5, e DOC2 com termos de indexação t1, t2 e t3, com pesos 0.5, 0.4 e 0.3, dá-se:

SRI – Modelo Vetorial ...

Page 10: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

10DSC/CCT/UFCGDSC/CCT/UFCG

Se for utilizada uma expressão de busca eBUSCA=(0.2,0.35,0.1), juntamente com os documentos DOC1 e DOC2, em um espaço vetorial formado pelos termos t1, t2 e t3, tem-se a representação gráfica a seguir:

SRI – Modelo Vetorial ...

Page 11: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

11DSC/CCT/UFCGDSC/CCT/UFCG

Grau de similaridade: cosseno do ângulo entre documentos ou entre consultas e documentos:

wi,x é o peso do i-ésimo elemento do vetor x e wi,y é o peso do i-ésimo elemento do vetor y.

SRI – Modelo Vetorial ...

Page 12: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

12DSC/CCT/UFCGDSC/CCT/UFCG

SRI – Modelo Vetorial ...

Page 13: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

13DSC/CCT/UFCGDSC/CCT/UFCG

SRI – Modelo Vetorial ...

Cálculo dos Pesos:

Método TF-IDF

Term Frequency (TF)- Frequência do termo no documento- Quanto maior, mais relevante é o termo para descrever o

documento Inverse Document Frequency (IDF)- Inverso da frequência do termo entre os documentos da

coleção- Termo que aparece em muitos documentos não é útil para

distinguir relevância

Peso associado ao termo tenta balancear os dois fatores

Page 14: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

14DSC/CCT/UFCGDSC/CCT/UFCG

É possível restringir a quantidade de documentos recuperados definindo um limite mínimo para o valor de similaridade.

Um limite de 0.5, indica que uma expressão de busca obterá como resultado apenas os documentos cujo valor de similaridade for superior a 50%.

SRI – Modelo Vetorial ...

Page 15: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

15DSC/CCT/UFCGDSC/CCT/UFCG

O Modelo Probabilístico representa o processo de recuperação de informação sob um ponto de vista probabilístico, ou seja, calcula a probabilidade de que o documento seja relevante para a consulta.

SRI – Modelo Probabilístico

Page 16: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

16DSC/CCT/UFCGDSC/CCT/UFCG

Dada uma expressão de busca, podem-se dividir os N documentos de um corpus em quatro subconjuntos:

• o conjunto dos documentos relevantes (Rel)

• o conjunto dos documentos recuperados (Rec)

• o conjunto dos documentos relevantes e recuperados (RR) e

• o conjunto dos documentos não relevantes e não

recuperados.

SRI – Modelo Probabilístico ...

Page 17: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

17DSC/CCT/UFCGDSC/CCT/UFCG

O resultado ideal de uma busca é o conjunto que contenha todos e apenas os documentos relevantes para o usuário, isto é, todo o conjunto Rel.

SRI – Modelo Probabilístico ...

Page 18: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

18DSC/CCT/UFCGDSC/CCT/UFCG

Após obter os resultados da primeira busca, é possível melhorar os resultados a partir de interações com o usuário.

Seja Rel o conjunto de documentos relevantes, e o complemento de Rel, a probabilidade de um documento d ser relevante em relação à expressão de busca é designada por p(Rel|d).

lRe

SRI – Modelo Probabilístico ...

Page 19: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

19DSC/CCT/UFCGDSC/CCT/UFCG

A similaridade (sim) de um documento d em relação à expressão de busca eBUSCA é definida como:

SRI – Modelo Probabilístico ...

Page 20: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

20DSC/CCT/UFCGDSC/CCT/UFCG

Sistemas Especialistas

Algoritmos Genéticos

Redes Neurais

SRI – Outros Modelos

Page 21: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

21DSC/CCT/UFCGDSC/CCT/UFCG

A recuperação de informação é um processo cuja eficiência depende grande parte do conhecimento sobre o assunto.

SRI – Sistemas Especialistas ...

Exemplo: Sistema IOTA

Esses conceitos são identificados utilizando-se cálculos estatísticos de co-ocorrência de pares de palavras.

Se duas palavras aparecerem próximas em vários documentos do corpus então elas possuem um certo relacionamento.

Page 22: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

22DSC/CCT/UFCGDSC/CCT/UFCG

Exemplo: Sistema RUBRIC

Rule-Basic Retrieval of Information by Computer

O usuário é capaz de construir sua própria base de conhecimento sobre um determinado assunto a partir da especificação e organização de conceitos na forma de uma rede de frames.

SRI – Sistemas Especialistas ...

Page 23: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

23DSC/CCT/UFCGDSC/CCT/UFCG

Exemplo: Sistema RUBRIC

Para cada conceito (frame) o usuário define um conjunto de regras do tipo se...então que caracteriza o conceito.

Ex:

Se “recuperação” e “informação” então “recuperação de informação” (0.5)

Aparecendo as palavras”recuperação” e “informação” no mesmo documento, a probabilidade de se tratar de “recuperação de informação” é de 50%.

SRI – Sistemas Especialistas ...

Page 24: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

24DSC/CCT/UFCGDSC/CCT/UFCG

As representações dos documentos podem ser vistas como um tipo de um “código genético”.

Nesse código genético um cromossomo é representado por um vetor binário, em que cada elemento armazena o valor 0 ou 1 (presença ou ausência de um determinado termo na representação do documento).

SRI – Algoritmos Genéticos

Page 25: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

25DSC/CCT/UFCGDSC/CCT/UFCG

SRI – Algoritmos Genéticos ...

Page 26: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

26DSC/CCT/UFCGDSC/CCT/UFCG

Uma tarefa comum para um sistema de recuperação de informação é pesquisar documentos relevantes que satisfazem uma determinada expressão de busca a partir dos termos de indexação.

Essa organização pode ser comparada a uma estrutura de uma rede neural.

SRI – Redes Neurais

Page 27: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

27DSC/CCT/UFCGDSC/CCT/UFCG

(FERNEDA, 2003)

Entrada da rede neuralSaída da rede neural

SRI – Redes Neurais ...

Page 28: DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

28DSC/CCT/UFCGDSC/CCT/UFCG

Recuperar informação implica operar seletivamente um estoque de informação, o que envolve processos cognitivos que dificilmente podem ser formalizados através de um algoritmo.

Mesmo que um modelo computacional de recuperação da informação tenha como base algum tipo de vocabulário e organização lógica, a equiparação dos significados supostamente implícitos depende de uma análise intelectual.

SRI – Considerações Finais