CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros...

25
CIn-UFPE 1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros [email protected]

Transcript of CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros...

Page 1: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE 1

Mineração na WebIntrodução a Recuperação de Informação

Flávia Barros

[email protected]

Page 2: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

2

Roteiro

Motivação/Introdução

Histórico

Aplicações

Arquitetura básica

Principais módulos

Page 3: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

3

“Morrendo ignorante num mar de informações”

- Dificuldade de localizar documentos relevantes !!

Recuperação de Informação Motivação

Page 4: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

4

Como funciona?

Necessidade deInformação

CasamentoCasamento

Documentos

Indexação

Representaçãoda Consulta

Representaçãodo documento

Formulação

Recuperação de Informação Motivação

Usuário

Page 5: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

5Tarefa típica de Recuperação de Informação (RI)

Dados Um corpus de documentos (itens de

dados) & Uma consulta do usuário (representada

por palavras-chave)

Encontrar Um conjunto ordenados de documentos

que são relevantes para a consulta

Page 6: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

6

Sistemas de RI

Sistema de RIConsulta

Corpus de documentos

Documentos ordenados

1. Doc12. Doc23. Doc3 . .

Usuário

Page 7: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

7

Recuperação de InformaçãoDefinição

Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o

armazenamento, a busca e a recuperação de itens de informação

Objetivo principal facilitar o acesso a documentos (itens de

informação) relevantes à necessidade de informação do usuário Geralmente representada através de

consultas baseadas em palavras-chaves

Page 8: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

8

Recuperação de InformaçãoDefinição

Ênfase na recuperação de informação (não de dados!) Ex., “encontre documentos contendo informação sobre:

(a) cursos de Computação (b) com pós-graduação em Inteligência Artificial”

Recuperação de dados: Que documentos contêm um conjunto de palavras-

chave? Semântica bem-definida (ex. SQL) Qualquer erro implica em falha na recuperação

Recuperação de informação: Informação sobre um assunto ou tópico Semântica mais livre Pequenos erros são tolerados

Page 9: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

9Histórico 1ª Fase: decs. 1950 e 1960

Dec. 1950: Aplicações:

sistemas de recuperação de referências bibliográficas e outros serviços para bibliotecas.

Técnicas: indexação manual documentos indexados por termos de um

vocabulário restrito montado manualmente

Dec. 1960: Aplicações:

sistemas de recuperação de documentos off-line Técnicas: início da indexação automática

título e abstract Algoritmos de busca na recuperação dos itens

Page 10: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

10Histórico2ª Fase: decs. de 1970 e 1980

Aumento do poder computacional

Aplicações: Sistemas de Pergunta-Resposta

Técnicas: RI + Processamento de Linguagem Natural

Evoluíram para interfaces em Linguagem Natural para BDs

Sistemas de RI on-line Técnicas: estatística e probabilidade,

Modelo de Espaço Vetorial Avaliação do desempenho do sistema

pelo usuário

Page 11: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

11Histórico3ª Fase: dec. 1990 até ...

Aparecimento da Web: Repositório universal de “conhecimento” Gigabytes de dados não estruturados Livre acesso

Alguns problemas: Escalabilidade das soluções Velocidade de atualização da Web Velocidade de acesso aos documentos

armazenados RI é vista como a chave para encontrar soluções...

Técnicas tradicionais de RI foram adaptadas ao caso da Web

Explosão de serviços + agentes

Page 12: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

12

Aplicações, Serviços, Agentes...

Engenhos de Busca na Web Google, Yahoo!, etc...

Sistemas de Recomendação Recomendam de itens de informação ao

usuário de acordo com o seu perfil

Sistemas de Extração de Informação Extraem, de documentos relevantes,

apenas a informação requerida, que pode ser apresentada ao usuário e/ou armazenada em BDs ou em Bases se Conhecimento

Page 13: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

13

Aplicações, Serviços, Agentes...

Agentes Notificadores Enviam emails para o usuário de acordo

com seus interesses

Agentes de Comércio Eletrônico Capazes de representar o usuário em

compras na Web

Agentes Chatterbots Capazes de dialogar com os usuários em

linguagem natural restrita

Page 14: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

14

Sistemas de RI

Um sistema automático para RI pode ser visto como a parte do sistema de informação responsável pelo

armazenamento ordenado dos documentos em um BD,

e sua posterior recuperação para responder a consulta do usuário.

Etapas principais: Aquisição (seleção) dos documentos Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados

Page 15: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

Sistemas de RI: Criação da base de índices

Base de documentos

Gerenciador do BDIndexação

Preparação dos documentos

Base deíndices

Documentos

Representação do documento

Page 16: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

Sistemas de RI: Consulta à Base de índices

Busca e recuperação

Ordenação

Preparação da consulta

Interface do usuário

Base deíndices

Indices-docsrecuperados

consulta

Índices-docsordenados

Necessidade do usuário

Page 17: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

17Etapa 1: Aquisição (seleção) de Documentos

Manual para sistemas gerais de RI E.g., sistemas de bibliotecas

Automática para sistemas na Web Uso de crawlers (spiders)

Programas que navegam pela Web e fazem download das páginas para um servidor

Partem de um conjunto inicial de links Executam busca em largura ou em profundidade

Crawler do Google Executa em várias máquinas em paralelo Indexou 26 Milhões de páginas em 8 dias

Page 18: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

18

Etapa 2: Preparação dos Documentos

Objetivo Criar uma representação computacional do

documento seguindo algum modelo

Fases Operações sobre o texto Criação da representação

“Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.”

Sócrates

Doc original

desonesto / soubesse /vantagem / honesto /seria / honesto /menos/desonestidade/socrates

honesto 2desonesto 1soubesse 1vantagem 1seria 1menos 1desonestidade 1socrates 1

Operações de TextoRepresentação

Doc : www.filosofia.com Doc : www.filosofia.comDoc : www.filosofia.com

Page 19: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

19Etapa 3: Indexação dos Documentos

Construção da base de índices

Objetivo: facilitar busca dos documentos no repositório

digital

Opção mais simples: Varrer o texto completo

Busca seqüencial on-line Eficaz para textos pequenos ou muito voláteis

Para bases maiores: Indexar os documentos a partir das palavras-

chaves Índices invertidos Vetores e árvores de sufixos Arquivos de assinatura

Page 20: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

20

Etapa 4: Busca e Recuperação

Seleção dos links dos documentos da base que satisfazem uma consulta

Consultas simples Recuperam links dos documentos onde a

palavra ocorre pelo menos uma vez

Consultas compostas (booleanas) Recuperam links dos documentos onde cada

palavra da consulta ocorre pelo menos uma vez Merge de listas

Combina as listas de documentos recuperados de acordo com o operador booleano da consulta

Page 21: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

21

Etapa 5: Ordenação

Ordena os links dos documentos recuperados de acordo com sua relevância em relação à Consulta

Relevância é difícil de medir Mede-se a similaridade entre cada documento e a

consulta

Modelo “Espaço Vetorial” Similaridade é proporcional ao co-seno do ângulo entre o

vetor que representa o documento e o vetor da consulta Tende a retornar documentos pequenos

Google Proximidade das palavras da Consulta no documento Tamanho da fonte, texto de links, ... PageRank

Page 22: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

22

Engenhos de Busca

WebWeb

Consulta

Resposta

Base deÍndices

Engenho de Busca

Usuário

Spider

Indexador

Representação dos Docs

Servidor de Consultas

Aquisição

Pré-Processador

Docs

Recuperador

Ordenador

21

34

Motor deIndexação

Browser

Page 23: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

Sistemas de Filtragem de Informação

Sistemas que filtram a informação recuperada de acordo com o interesse do usuário

Servidor News

ArtigosIndexados

Usuário

Perfil dousuário

Engenho de Busca InternetInternet

Page 24: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

CIn-UFPE

24

Extração de Informação

Sistemas capazes de extrair de documentos relevantes apenas a informação requerida

A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs.

Sistema de EI

BD

Nome:End.:Fone:Fax:Preços:

Template

BC

Página de Hotel

Page 25: CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros fab@cin.ufpe.br.

Mineração na Web

Próxima aula Modelos de Recuperação de

Documentos

Livro texto Modern Information Retrieval. Baeza-Yates

& Ribeiro-Neto. Addison-Wesley, 1999

CIn-UFPE

25