Recuperação de Informação

CIn-UFPE 1

Recuperação de Informação

Exemplos de Aplicações

Flávia Barros

CIn-UFPE

2

Roteiro

Exemplos de Sistemas de RI Aplicações, agentes, serviços na Web

Áreas de pesquisa e desenvolvimento relacionadas

CIn-UFPE

3

Tarefa típica de Recuperação de Informação (RI)

Dados Um corpus de documentos (itens de

dados) & Uma consulta do usuário

geralmente representada por palavras-chave

Encontrar Um conjunto ordenados de documentos

que são relevantes para a consulta

CIn-UFPE

4Sistemas de RI Etapas principais

Aquisição (seleção) dos documentos Manual ou automática

Preparação dos documentos Criação da sua representação

Indexação dos documentos Na maioria dos casos, construção da base de índices

invertidos

Busca e recuperação casamento da consulta do usuário com os índices na

base recuperação dos documentos selecionados

Ordenação dos documentos recuperados de acordo com alguma função de relevância

CIn-UFPE

5

Aplicações, Serviços, Agentes...

Sistemas de Automação de Bibliotecas Primeira aplicação na área de RI Atualmente, a tendência são as

bibliotecas digitais RI + BD

Engenhos de Busca na Web Google, Yahoo!, etc...

CIn-UFPE

6


Sistemas que fazem mais do que simples RI Sistemas de meta-busca

Na Web ou em BDs Sistemas de Pergunta-resposta Sistemas de Recuperação multi-língua Sistemas de Extração de Informação

Extraem, de documentos relevantes, apenas a informação requerida

CIn-UFPE

7


Sistemas que fazem mais do que simples RI Sistemas de Recomendação

Recomendam de itens de informação ao usuário de acordo com o seu perfil

Sistemas de classificação automática de documentos categorização/clustering de documentos

Sistemas de mineração de dados/informação

Sistemas de gerenciamento de documentos

CIn-UFPE

8


Sistemas que fazem mais do que simples RI Agentes de filtragem de informação

E.g., filtragem de spam Agentes Notificadores

Enviam emails para o usuário de acordo com seus interesses

Agentes de Comércio Eletrônico Capazes de representar o usuário em

compras na Web Agentes Chatterbots

Capazes de dialogar com os usuários em linguagem natural restrita

CIn-UFPE

9

Bibliotecas Digitais

Projeto LIBER Mantém uma base de teses e

dissertações produzidas na UFPE http://www.virtus.ufpe.br/liber Documentos indexados por metadados

Autor, titulo, palavras-chave, resumo

Citeseer Scientific Literature Digital Library http://citeseer.ist.psu.edu/

http://www.virtus.ufpe.br/liber

CIn-UFPE

10

Engenhos de Busca na Web

Indexam os documentos na Web

Aquisição automática de documentos Através do uso de spiders

robôs de indexação que varrem a Web em busca de novos documentos

Busca em largura e/ou profundidade a partir de um dado site

Preparação dos documentos Até onde eu sei, indexam o documento inteiro

Não eliminam termos irrelevantes Podem explorar o layout do documento HTML

quando determinam o peso dos termos na representação do documento

CIn-UFPE

11

Engenhos de busca na Web

Busca e recuperação Utilizam bases de índices invertidos Modelo espaço vetorial???

Ordenação dos documentos recuperados de acordo com alguma função de relevância

Co-seno???

Alguns problemas com a Web Taxa de atualização MUITO alta Falta de estrutura padrão nos documentos

Alguns problemas com os engenhos de busca Baixa precisão na recuperação de documentos “Information overload”

Engenhos de Busca

WebWeb

Consulta

Resposta

Base deÍndices

Engenho de Busca

Usuário

Spider

Indexador

Representação dos Docs

Servidor de Consultas

Aquisição

Pré-ProcessadorDocs

Recuperador

Ordenador

21

34

Motor deIndexação

Browser

CIn-UFPE

13

Sistemas para recuperação de documentos similares

Engenhos de busca São robustos e gerais Porém, muitas vezes retornam uma quantidade

muito grande de documentos irrelevantes

Sistemas de recuperação de documentos similares ao que o usurário está acessando E.g. GoogleToolbar, Alexa, Kenjin Problemas:

Lidam apenas com documentos em HTML (GoogleToolbar, Alexa)

O documento do usuário deve estar indexado previamente (GoogleToolbar, Alexa)

Baixa precisão (Kenjin)

CIn-UFPE

14

Active SearchSistema de meta busca

Sistema para recuperação de documentos similares em repositórios digitais Recupera documentos similares ao que o

usuário esta acessando/editando Processo de recuperação é online e baseado no

conteúdo do documento Utiliza o modelo Espaço Vetorial

Lidam com diferentes tipos de documentos HTML, doc

Plataformas: Internet Explorer e Microsoft Word

Projeto financiado pela Lei de Informática Juliano Rabelo, Eduardo Amaral, Fred Brito, Eu,

Gustavo de Paula, Geber...

Active Search - Arquitetura

Doc’s Content

Current Doc’s Internal

Representation

Meta-searchQuery

Preparation

Docs Searcher

Query

Web

Local Directories

Documents Bases

Pointers to Documents

Docs’ Pointers

Docs’ Content

Doc. Post-Processor

Docs’ Internal Representatio

n

Ordered List of Docs

Application1

Application2

Application3

Docs Retriever

Docs Reorderer

Document Pre-Processor

Profile Manager

Relevant Documents

User’s Profile

LAN

Active Search - ProtótipoBusa documentos similares

ao que está sendo acessado/editado a uma parte do documento selecionada com drag-and-

drop

Starts a search from the active document

Keyword search

System configuration

Last results cache

Similarity percentage

to the current

doc

CIn-UFPE

17

Sistemas de Pergunta-Resposta

Recuperação de Informação + Processamento de Linguagem Natural Recebem como entrada uma pergunta em

linguagem natural Retornam como saída a resposta (curta) ao

invés de uma lista de documentos Utilizando também técnicas de Extração de

Informação

Exemplo: P: Qual o melhor time de futebol do Brasil? R: Santa Cruz Futebol Clube

CIn-UFPE

18Sistemas de Pergunta-RespostaArquitetura Genérica

CIn-UFPE

19

Sistemas de Pergunta-Resposta na Web

Motivação A Web é o maior repositório de informações já

construído Necessidade de informação melhor

representada sob forma de pergunta Tecnologias (de RI) existentes são inadequadas Negligenciam a semântica da pergunta e dos

documentos

Sistema Pergunte! Uma interface em Português para pergunta-

resposta na Web não existem sistemas de PR na Web para o

Português Mestrado de Juliano Rabelo, 2004

CIn-UFPE

20Sistemas de Extração de Informação

Sistemas capazes de extrair de documentos relevantes apenas a informação requerida

A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs.

Sistema de EI

BD

Nome:End.:Fone:Fax:Preços:

Template

BC

Página de Hotel

CIn-UFPE

21

A escolha da técnica utilizada depende do tipo de texto a ser tratado- PLN

Textos livres ou não estruturados

Some Country Codes

Congo - 242Egypt - 20Belize - 501Spain - 34

Estudantes caras-pintadas protestaram, ontem, no Centro de São Paulo exigindo o impeachment do prefeito Celso Pitta, acusado de corrupção por sua ex-mulher.

A localização da informação no texto é sempre feita por meio de regras

- Wrappers• Textos estruturados

• Uno 97, 4p., Ar, Dir, VE, Som,

Prata

• Gol 16V, ano 94, Ar, 2 portas, Al.

• Corsa 92, c/ 2 portas, Alarme,

Rodas

• Textos semi-estruturados

Técnicas para Extração de Informação

CIn-UFPE

22

Wrappers

As regras de extração são criadas com base na estrutura do texto e no conhecimento do domínio

Construídos de maneira ad-hoc Não existe uma arquitetura consensual

Modos de Construção Manual

técnica simples, boa precisão, porém requer grande esforço de programação

Semi-Automático tempo de construção reduzido, ineficiente para gerar regras

mais robustas Automático

nenhuma programação requerida, porém apresenta baixa precisão e requer esforço para anotação do corpus

CIn-UFPE

23

O ProdExt

ProdExt: Um Wrapper para extração de referências bibliográficas a partir de páginas eletrônicas Mestrado de Carla Nunes, 2000

Abordagem utilizada Construção manual de base de regras

Autor: A.V.Garcia and A. HaebererTítulo: An Architecture for Semantically Based Code MigrationVeículo: In Proc. of the II Brazilian Symp. on Progr. LanguagesPáginas: pp 179-192 Data: Sept/1997Local: Campinas, Brasil

A.V.Garcia and A. Haeberer. An Architecture for Semantically Based Code Migration. In Proc. of the II Brazilian Symposium on Progr. Languages, pp 179-192, Sept/1997, Campinas, Brasil.

CIn-UFPE

24

Parser

MóduloExtrator

Configurador/Adaptador

Dicionário deTermos doDomínio

Conjuntode Regras

ÁrvoreHTML

Docum.HTML

AutorTítuloVeículo...

Blocos

ProdExtBase de Conhecimento

BD

Arquitetura do ProdExt

CIn-UFPE

25

EI utilizando Aprendizagem de Máquina

Mestrado de Eduardo Amaral

B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .

B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .

d ivisã o e m fra g m e nto s

c la ssific a ç ã o

e xtra ç ã o d e c a ra c te rístic a s

fra g m e nto 1

fra g m e nto 1

fra g m e nto 2

fra g m e nto 2

fra g m e nto 3

fra g m e nto 3

fra g m e nto 4

fra g m e nto 4

130

10

041

20

152

13

2325

títu lo c o nfe rê nc ia d a taa uto r

a uto r, títu lo , c o nfe rê nc ia , d a ta

HM M

Fa se 1

Fa se 2

CIn-UFPE

26

Integração de Informação

Pergunta-resposta + Extração de informação

Objetivo Integrar automaticamente diversos Web sites para responder a determinadas perguntas do

usuário cuja resposta não está disponível em um site único

Para cada site secionado, um wrapper é construído

Os dados extraídos de cada site podem ser tratados como tabelas de bancos de dados que podem ser consultadas usando-se uma query

language (e.g. SQL).

CIn-UFPE

27

Sistemas de Personalização

São sistemas que buscam adaptar-se às preferências e necessidade individuais de cada usuário Utilizam profiles

Sistemas de personalização incluem: Recomendação Filtragem Predição

CIn-UFPE

28

Sistemas de Recomendação

São sistemas que recomendam itens para usuários com base em suas preferências Itens: livros, filmes, CDs, páginas web, mensagens

de newsgroup

Exemplos de sistemas Lojas virtuais oferecem esse serviço para aumentar

as vendas e.g. Amazon, CDNow

Projeto GEP (Guia de Entretenimento Virtual) Equipe: Francisco,Geber,Ivan, Byron, Sérgio, etc

Existem duas abordagens básicas par recomendação: Filtragem colaborativa (um tipo de filtragem social) Recomendação baseada em conteúdo

CIn-UFPE

29

Filtragem Colaborativa

Essa técnica mantém um BD de itens a serem recomendados E as avaliações dos usuários do sistemas para cada

um desses itens

Dado um usuário, o sistema busca os usuários com perfil similar ao dele e recomenda a esse usuário os itens que

não foram ainda avaliados por ele, porém foram bem avaliados pelos usuários similares

a ele

A maioria dos sistemas comerciais utiliza essa abordagem e.g. Amazon

CIn-UFPE

30

Recomendação baseada em conteúdo

Aqui, a recomendação é baseada no conteúdo nas características dos itens e não mais na opinião de outros usuários

Utiliza algoritmos de aprendizagem de máquina para induzir um profile das preferências dos usuários

CIn-UFPE

Filtragem de Informação

Sistemas que filtram a informação recuperada de acordo com o interesse do usuário

Servidor News

ArtigosIndexados

Usuário

Perfil dousuário

Engenho de Busca InternetInternet

CIn-UFPE

32

Classificação de Texto

Objetivo Classificar documentos de acordo com um

conjunto ou hierarquia de categorias

Algumas aplicações: Páginas Web

Recomendação Hierarquias de classes como a do Yahoo para

facilitar busca Criação de repositórios de domínio específico

Mensagens de Newsgroups Recomendação Filtragem de spam

CIn-UFPE

33


Algumas aplicações: Notícias

Jornal personalizado Mensagem de Email

Filtragem de spam Routing Atribuição de prioridades Seleção de folders

CIn-UFPE

34


Abordagens: Classificação manual por especialistas Construção manual de classificadores

sistemas baseados em conhecimento Construção automática de

classificadores árvores de decisão, indução de regras,

aprendizagem bayesiana, redes neurais, aprendizagem baseada em instâncias, etc.

CIn-UFPE

35

Sistema CitationFinder

Classificação automática de páginas de publicações Mestrado de Mariana Lara Neves, 2001

Objetivo Criação e manutenção de um repositório de

documentos desse domínio Para alimentar o sistema Prodext

Construção manual: Bases de conhecimento com regras de produção Máquina de inferência (JEOPS)

CIn-UFPE

36

Sistema CitationFinder Plug-in para engenhos de busca

URLs recuperadas

ConsultaURLs classificadaspositivamente

Busca por palavras-chave do domínio

Web

Base de Índices

Específica

CitationFinder

Engenhos de Busca

tradicionais

CIn-UFPE

37

Agentes Chatterbots

Chatterbots Sistemas capazes de dialogar com os usuários

em linguagem natural restrita E.g., Eliza, ALICE

Utilizam técnicas de armazenagem e recuperação muito semelhantes aos sistemas de Pergunta-resposta

Esses agentes também podem ser usados como interfaces em linguagem natural para Bancos de dados Bases de conhecimento Sites na web

CIn-UFPE

38

Agentes Chatterbots

Exemplo de bot na Web - Pixel http://www.virtus.ufpe.br/pixel Tese de doutorado de André Neves

Utiliza a linguagem AILM Criação de novas tags para descrever o

nível pragmático dos diálogos com chatterbots

CIn-UFPE

39

Algumas Áreas relacionadas a RI

Bancos de dados Uso de XML na descrição dos dados

Ciência da informação Biblioteconomia Bibliotecas digitais

Inteligência artificial Ontologias na web e sistemas inteligentes de RI Aprendizagem de máquina

Classificação e clustering de documentos, criação e manutenção de profiles, extração de informação, mineração de texto, etc..

Processamento de linguagem natural - a seguir

CIn-UFPE

40

Processamento de Linguagem Natural

Algumas regiões de interseção Métodos para determinar o significado

de termos e palavras dependendo do contexto word sense disambiguation

Extração de informação Sistemas Pergunta-resposta E mais os métodos de processamento de

documentos já vistas

Recuperação de Informação

Documents

Transcript of Recuperação de Informação