Recuperação de Informação
description
Transcript of Recuperação de Informação
CIn-UFPE 1
Recuperação de Informação
Exemplos de Aplicações
Flávia Barros
CIn-UFPE
2
Roteiro
Exemplos de Sistemas de RI Aplicações, agentes, serviços na Web
Áreas de pesquisa e desenvolvimento relacionadas
CIn-UFPE
3
Tarefa típica de Recuperação de Informação (RI)
Dados Um corpus de documentos (itens de
dados) & Uma consulta do usuário
geralmente representada por palavras-chave
Encontrar Um conjunto ordenados de documentos
que são relevantes para a consulta
CIn-UFPE
4Sistemas de RI Etapas principais
Aquisição (seleção) dos documentos Manual ou automática
Preparação dos documentos Criação da sua representação
Indexação dos documentos Na maioria dos casos, construção da base de índices
invertidos
Busca e recuperação casamento da consulta do usuário com os índices na
base recuperação dos documentos selecionados
Ordenação dos documentos recuperados de acordo com alguma função de relevância
CIn-UFPE
5
Aplicações, Serviços, Agentes...
Sistemas de Automação de Bibliotecas Primeira aplicação na área de RI Atualmente, a tendência são as
bibliotecas digitais RI + BD
Engenhos de Busca na Web Google, Yahoo!, etc...
CIn-UFPE
6
Aplicações, Serviços, Agentes...
Sistemas que fazem mais do que simples RI Sistemas de meta-busca
Na Web ou em BDs Sistemas de Pergunta-resposta Sistemas de Recuperação multi-língua Sistemas de Extração de Informação
Extraem, de documentos relevantes, apenas a informação requerida
CIn-UFPE
7
Aplicações, Serviços, Agentes...
Sistemas que fazem mais do que simples RI Sistemas de Recomendação
Recomendam de itens de informação ao usuário de acordo com o seu perfil
Sistemas de classificação automática de documentos categorização/clustering de documentos
Sistemas de mineração de dados/informação
Sistemas de gerenciamento de documentos
CIn-UFPE
8
Aplicações, Serviços, Agentes...
Sistemas que fazem mais do que simples RI Agentes de filtragem de informação
E.g., filtragem de spam Agentes Notificadores
Enviam emails para o usuário de acordo com seus interesses
Agentes de Comércio Eletrônico Capazes de representar o usuário em
compras na Web Agentes Chatterbots
Capazes de dialogar com os usuários em linguagem natural restrita
CIn-UFPE
9
Bibliotecas Digitais
Projeto LIBER Mantém uma base de teses e
dissertações produzidas na UFPE http://www.virtus.ufpe.br/liber Documentos indexados por metadados
Autor, titulo, palavras-chave, resumo
Citeseer Scientific Literature Digital Library http://citeseer.ist.psu.edu/
CIn-UFPE
10
Engenhos de Busca na Web
Indexam os documentos na Web
Aquisição automática de documentos Através do uso de spiders
robôs de indexação que varrem a Web em busca de novos documentos
Busca em largura e/ou profundidade a partir de um dado site
Preparação dos documentos Até onde eu sei, indexam o documento inteiro
Não eliminam termos irrelevantes Podem explorar o layout do documento HTML
quando determinam o peso dos termos na representação do documento
CIn-UFPE
11
Engenhos de busca na Web
Busca e recuperação Utilizam bases de índices invertidos Modelo espaço vetorial???
Ordenação dos documentos recuperados de acordo com alguma função de relevância
Co-seno???
Alguns problemas com a Web Taxa de atualização MUITO alta Falta de estrutura padrão nos documentos
Alguns problemas com os engenhos de busca Baixa precisão na recuperação de documentos “Information overload”
Engenhos de Busca
WebWeb
Consulta
Resposta
Base deÍndices
Engenho de Busca
Usuário
Spider
Indexador
Representação dos Docs
Servidor de Consultas
Aquisição
Pré-ProcessadorDocs
Recuperador
Ordenador
21
34
Motor deIndexação
Browser
CIn-UFPE
13
Sistemas para recuperação de documentos similares
Engenhos de busca São robustos e gerais Porém, muitas vezes retornam uma quantidade
muito grande de documentos irrelevantes
Sistemas de recuperação de documentos similares ao que o usurário está acessando E.g. GoogleToolbar, Alexa, Kenjin Problemas:
Lidam apenas com documentos em HTML (GoogleToolbar, Alexa)
O documento do usuário deve estar indexado previamente (GoogleToolbar, Alexa)
Baixa precisão (Kenjin)
CIn-UFPE
14
Active SearchSistema de meta busca
Sistema para recuperação de documentos similares em repositórios digitais Recupera documentos similares ao que o
usuário esta acessando/editando Processo de recuperação é online e baseado no
conteúdo do documento Utiliza o modelo Espaço Vetorial
Lidam com diferentes tipos de documentos HTML, doc
Plataformas: Internet Explorer e Microsoft Word
Projeto financiado pela Lei de Informática Juliano Rabelo, Eduardo Amaral, Fred Brito, Eu,
Gustavo de Paula, Geber...
Active Search - Arquitetura
Doc’s Content
Current Doc’s Internal
Representation
Meta-searchQuery
Preparation
Docs Searcher
Query
Web
Local Directories
Documents Bases
Pointers to Documents
Docs’ Pointers
Docs’ Content
Doc. Post-Processor
Docs’ Internal Representatio
n
Ordered List of Docs
Application1
Application2
Application3
Docs Retriever
Docs Reorderer
Document Pre-Processor
Profile Manager
Relevant Documents
User’s Profile
LAN
Active Search - ProtótipoBusa documentos similares
ao que está sendo acessado/editado a uma parte do documento selecionada com drag-and-
drop
Starts a search from the active document
Keyword search
System configuration
Last results cache
Similarity percentage
to the current
doc
CIn-UFPE
17
Sistemas de Pergunta-Resposta
Recuperação de Informação + Processamento de Linguagem Natural Recebem como entrada uma pergunta em
linguagem natural Retornam como saída a resposta (curta) ao
invés de uma lista de documentos Utilizando também técnicas de Extração de
Informação
Exemplo: P: Qual o melhor time de futebol do Brasil? R: Santa Cruz Futebol Clube
CIn-UFPE
18Sistemas de Pergunta-RespostaArquitetura Genérica
CIn-UFPE
19
Sistemas de Pergunta-Resposta na Web
Motivação A Web é o maior repositório de informações já
construído Necessidade de informação melhor
representada sob forma de pergunta Tecnologias (de RI) existentes são inadequadas Negligenciam a semântica da pergunta e dos
documentos
Sistema Pergunte! Uma interface em Português para pergunta-
resposta na Web não existem sistemas de PR na Web para o
Português Mestrado de Juliano Rabelo, 2004
CIn-UFPE
20Sistemas de Extração de Informação
Sistemas capazes de extrair de documentos relevantes apenas a informação requerida
A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs.
Sistema de EI
BD
Nome:End.:Fone:Fax:Preços:
Template
BC
Página de Hotel
CIn-UFPE
21
A escolha da técnica utilizada depende do tipo de texto a ser tratado- PLN
Textos livres ou não estruturados
Some Country Codes
Congo - 242Egypt - 20Belize - 501Spain - 34
Estudantes caras-pintadas protestaram, ontem, no Centro de São Paulo exigindo o impeachment do prefeito Celso Pitta, acusado de corrupção por sua ex-mulher.
A localização da informação no texto é sempre feita por meio de regras
- Wrappers• Textos estruturados
• Uno 97, 4p., Ar, Dir, VE, Som,
Prata
• Gol 16V, ano 94, Ar, 2 portas, Al.
• Corsa 92, c/ 2 portas, Alarme,
Rodas
• Textos semi-estruturados
Técnicas para Extração de Informação
CIn-UFPE
22
Wrappers
As regras de extração são criadas com base na estrutura do texto e no conhecimento do domínio
Construídos de maneira ad-hoc Não existe uma arquitetura consensual
Modos de Construção Manual
técnica simples, boa precisão, porém requer grande esforço de programação
Semi-Automático tempo de construção reduzido, ineficiente para gerar regras
mais robustas Automático
nenhuma programação requerida, porém apresenta baixa precisão e requer esforço para anotação do corpus
CIn-UFPE
23
O ProdExt
ProdExt: Um Wrapper para extração de referências bibliográficas a partir de páginas eletrônicas Mestrado de Carla Nunes, 2000
Abordagem utilizada Construção manual de base de regras
Autor: A.V.Garcia and A. HaebererTítulo: An Architecture for Semantically Based Code MigrationVeículo: In Proc. of the II Brazilian Symp. on Progr. LanguagesPáginas: pp 179-192 Data: Sept/1997Local: Campinas, Brasil
A.V.Garcia and A. Haeberer. An Architecture for Semantically Based Code Migration. In Proc. of the II Brazilian Symposium on Progr. Languages, pp 179-192, Sept/1997, Campinas, Brasil.
CIn-UFPE
24
Parser
MóduloExtrator
Configurador/Adaptador
Dicionário deTermos doDomínio
Conjuntode Regras
ÁrvoreHTML
Docum.HTML
AutorTítuloVeículo...
Blocos
ProdExtBase de Conhecimento
BD
Arquitetura do ProdExt
CIn-UFPE
25
EI utilizando Aprendizagem de Máquina
Mestrado de Eduardo Amaral
B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .
B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .
d ivisã o e m fra g m e nto s
c la ssific a ç ã o
e xtra ç ã o d e c a ra c te rístic a s
fra g m e nto 1
fra g m e nto 1
fra g m e nto 2
fra g m e nto 2
fra g m e nto 3
fra g m e nto 3
fra g m e nto 4
fra g m e nto 4
130
10
041
20
152
13
2325
títu lo c o nfe rê nc ia d a taa uto r
a uto r, títu lo , c o nfe rê nc ia , d a ta
HM M
Fa se 1
Fa se 2
CIn-UFPE
26
Integração de Informação
Pergunta-resposta + Extração de informação
Objetivo Integrar automaticamente diversos Web sites para responder a determinadas perguntas do
usuário cuja resposta não está disponível em um site único
Para cada site secionado, um wrapper é construído
Os dados extraídos de cada site podem ser tratados como tabelas de bancos de dados que podem ser consultadas usando-se uma query
language (e.g. SQL).
CIn-UFPE
27
Sistemas de Personalização
São sistemas que buscam adaptar-se às preferências e necessidade individuais de cada usuário Utilizam profiles
Sistemas de personalização incluem: Recomendação Filtragem Predição
CIn-UFPE
28
Sistemas de Recomendação
São sistemas que recomendam itens para usuários com base em suas preferências Itens: livros, filmes, CDs, páginas web, mensagens
de newsgroup
Exemplos de sistemas Lojas virtuais oferecem esse serviço para aumentar
as vendas e.g. Amazon, CDNow
Projeto GEP (Guia de Entretenimento Virtual) Equipe: Francisco,Geber,Ivan, Byron, Sérgio, etc
Existem duas abordagens básicas par recomendação: Filtragem colaborativa (um tipo de filtragem social) Recomendação baseada em conteúdo
CIn-UFPE
29
Filtragem Colaborativa
Essa técnica mantém um BD de itens a serem recomendados E as avaliações dos usuários do sistemas para cada
um desses itens
Dado um usuário, o sistema busca os usuários com perfil similar ao dele e recomenda a esse usuário os itens que
não foram ainda avaliados por ele, porém foram bem avaliados pelos usuários similares
a ele
A maioria dos sistemas comerciais utiliza essa abordagem e.g. Amazon
CIn-UFPE
30
Recomendação baseada em conteúdo
Aqui, a recomendação é baseada no conteúdo nas características dos itens e não mais na opinião de outros usuários
Utiliza algoritmos de aprendizagem de máquina para induzir um profile das preferências dos usuários
CIn-UFPE
Filtragem de Informação
Sistemas que filtram a informação recuperada de acordo com o interesse do usuário
Servidor News
ArtigosIndexados
Usuário
Perfil dousuário
Engenho de Busca InternetInternet
CIn-UFPE
32
Classificação de Texto
Objetivo Classificar documentos de acordo com um
conjunto ou hierarquia de categorias
Algumas aplicações: Páginas Web
Recomendação Hierarquias de classes como a do Yahoo para
facilitar busca Criação de repositórios de domínio específico
Mensagens de Newsgroups Recomendação Filtragem de spam
CIn-UFPE
33
Classificação de Texto
Algumas aplicações: Notícias
Jornal personalizado Mensagem de Email
Filtragem de spam Routing Atribuição de prioridades Seleção de folders
CIn-UFPE
34
Classificação de Texto
Abordagens: Classificação manual por especialistas Construção manual de classificadores
sistemas baseados em conhecimento Construção automática de
classificadores árvores de decisão, indução de regras,
aprendizagem bayesiana, redes neurais, aprendizagem baseada em instâncias, etc.
CIn-UFPE
35
Sistema CitationFinder
Classificação automática de páginas de publicações Mestrado de Mariana Lara Neves, 2001
Objetivo Criação e manutenção de um repositório de
documentos desse domínio Para alimentar o sistema Prodext
Construção manual: Bases de conhecimento com regras de produção Máquina de inferência (JEOPS)
CIn-UFPE
36
Sistema CitationFinder Plug-in para engenhos de busca
URLs recuperadas
ConsultaURLs classificadaspositivamente
Busca por palavras-chave do domínio
Web
Base de Índices
Específica
CitationFinder
Engenhos de Busca
tradicionais
CIn-UFPE
37
Agentes Chatterbots
Chatterbots Sistemas capazes de dialogar com os usuários
em linguagem natural restrita E.g., Eliza, ALICE
Utilizam técnicas de armazenagem e recuperação muito semelhantes aos sistemas de Pergunta-resposta
Esses agentes também podem ser usados como interfaces em linguagem natural para Bancos de dados Bases de conhecimento Sites na web
CIn-UFPE
38
Agentes Chatterbots
Exemplo de bot na Web - Pixel http://www.virtus.ufpe.br/pixel Tese de doutorado de André Neves
Utiliza a linguagem AILM Criação de novas tags para descrever o
nível pragmático dos diálogos com chatterbots
CIn-UFPE
39
Algumas Áreas relacionadas a RI
Bancos de dados Uso de XML na descrição dos dados
Ciência da informação Biblioteconomia Bibliotecas digitais
Inteligência artificial Ontologias na web e sistemas inteligentes de RI Aprendizagem de máquina
Classificação e clustering de documentos, criação e manutenção de profiles, extração de informação, mineração de texto, etc..
Processamento de linguagem natural - a seguir
CIn-UFPE
40
Processamento de Linguagem Natural
Algumas regiões de interseção Métodos para determinar o significado
de termos e palavras dependendo do contexto word sense disambiguation
Extração de informação Sistemas Pergunta-resposta E mais os métodos de processamento de
documentos já vistas