CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

31
CIn-UFPE 1 Recuperação de Informação Preparação do documentos Flávia Barros

Transcript of CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

Page 1: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE 1

Recuperação de Informação

Preparação do documentos

Flávia Barros

Page 2: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

2

Roteiro

Sistemas de Recuperação de Informação

Preparação do documentos Operações sobre o texto Criação da representação do documento

Page 3: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

3

Relembrando…Sistemas de Recuperação de Informação

Um sistema automático para RI pode ser visto como a parte do sistema de informação responsável

pelo armazenamento ordenado dos documentos em um BD,

e sua posterior recuperação para responder a consulta do usuário

Etapas principais: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados

Page 4: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

Sistemas de RI: Criação da base de índices

Base de docs. ou

Web

Gerenciador do BDIndexação

Preparação dos documentos

Base deindices

Representação do documento

(visão lógica)

Arquivo de índices invertido

Documentos

Page 5: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

Sistemas de RI: arquitetura básica

Busca e recuperação

Ordenação

Preparação da consulta

Interface do usuário

Base deindices

Indices-docsrecuperados

consulta

Indices-docsordenados

Necessidade do usuário

Page 6: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

6

Preparação dos documentos Definições

Visão lógica do documento Conjunto de termos usados para representar

(indexar) o documento

A seleção desses termos pode ser Manual

Realizado por um especialista Ex., um bibliotecário (em sistemas de bibliotecas)

Automática Os termos são automaticamente extraídos do

texto do documento Ex., a maioria dos sistemas automáticos de RI

Vamos tratar aqui apenas documentos textuais

Page 7: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

7

Preparação dos documentos Seleção automática de termos

Texto completo Visão lógica mais completa do documento Porém tem alto custo computacional Adotada pelos engenhos de busca na Web

Redução do conjunto de termos que ocorrem no documento O objetivo é selecionar os termos que melhor

descrevem o seu conteúdo Reduzindo a complexidade da representação do

documento Representar o documento como um Centróide

Lista de termos com pesos associados ou não Problema: perda da semântica

Page 8: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

8Preparação dos documentos Duas Fases

Operações sobre o texto objetivo: criar a visão lógica do documento

Criação da representação do documento Utilizando algum modelo de RI

“Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.”

Sócrates

Doc original

desonesto / soubesse /vantagem / honesto /seria / honesto /menos/desonestidade/socrates

honesto 2desonesto 1soubesse 1vantagem 1seria 1menos 1desonestidade 1socrates 1

Operações de TextoRepresentação

Doc : www.filosofia.com Doc : www.filosofia.comDoc : www.filosofia.com

Page 9: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

9

Preparação dos documentos Operações sobre o texto

Lista de termos do documento pode ser reduzida através do uso de operadores de texto Análise léxica

Elimina dígitos, pontuação, etc Eliminação de stopwords

Artigos, pronomes, etc Operação de stemming

Redução da palavra ao seu radical Identificação de grupos nominais

Ex., Recuperação de Informação

Page 10: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

10Preparação dos documentos Operações sobre o texto

Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação

Cada sistema de RI implementa uma ou mais dessas fases A escolha depende do tipo de sistema

desejado

Page 11: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

11Preparação dos documentos Operações sobre o texto

documento

Acentos, espaços,.

..

stopwords

Grupos nominai

s

stemming

Indexação manual

ou automátic

a

Texto completo

Termosreduzidos

• Operadores reduzem progressivamente a visão lógica do documento

Page 12: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

12Operações sobre o textoAnálise léxica

Entrada O texto original

uma cadeia de caracteres

Objetivo Converter o texto original em uma lista de

palavras Identificando as palavras que ocorrem no texto

Procedimento padrão Utilizar espaços como sendo separadores de

palavras Tratar pontuação, hífens, dígitos, e letras

maiúsculas e minúsculas Cada caso pode requerer tratamentos diferenciados

Page 13: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

13Operações sobre o textoAnálise léxica

Eliminação de pontuação e hífens . , ! ? : ; - Geralmente, todos os caracteres de pontuação

são removidos

Porém, há casos onde eles são mantidos, por serem necessários Código de programa dentro do texto

Variável “x.id” xid URLs de Sites na Web Caso do hífen

Palavras compostas e prefixos Guarda-chuva, pré-processamento

Alguns termos state-of-the-art

Page 14: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

14Operações sobre o textoAnálise léxica

Eliminação de dígitos Geralmente, dígitos são removidos por

serem vagos Não terem uma semântica associada

quando aparecem isolados Ex. 1910 (ano, peso, tamanho???)

Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes 510dC

dC não significa nada em isolamento Windows95, X3PO,...

Page 15: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

15Operações sobre o textoAnálise léxica

Substituição de letras maiúsculas Objetivo principal

Tornar a representação homogênea Facilitar a recuperação do documento a

partir de consultas

Exceções Carneiro

Animal ou nome próprio? Banco – instituição financeira banco - assento

Page 16: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

16

Operações sobre o textoAnálise léxica

Como visto, existem diversas exceções a tratar Isso depende da aplicação, do domínio do

sistema, etc...

Sugestão Preparar lista de exceções e tratar caso a

caso

Engenhos de busca Geralmente, não eliminam nada

Funcionam em todos os domínios... Indexam o texto completo com sua

pontuação, dígitos, etc...

Page 17: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

17

Operações sobre o textoEliminação de stopwords

Algumas palavras não são bons discriminadores Palavras muito freqüentas na base de

documentos Palavras sem semântica associada

artigos, preposições, conjunções, alguns advérbios e adjetivos

Aqui também há exceções a considerar Em domínios específicos, podemos

precisar manter algumas dessas palavras Redes de computadores

Page 18: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

18

Operações sobre o textoEliminação de stopwords

Vantagens Diminuir a representação do texto Melhorar a ordenação na recuperação

Tf-idf

Desvantagens Diminuição da cobertura na recuperação Ex., “ser ou não ser”

Somente o termo “ser” será usado na indexação documento

Mais uma razão para os engenhos de busca utilizarem representação do texto completo

Page 19: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

19Operações sobre o texto Stemming

Problema Freqüentemente, o usuário especifica uma

palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes

Ex., plural, gerúndio, verbos flexionados, aumentativo...

Objetivo dessa operação: Substituir a palavra por seu radical (stem)

Porção da palavra que resta após a remoção de prefixos e sufixos

Possibilitar casamento entre variações de uma mesma palavra Ex.: engenheiro, engenharia,...

Page 20: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

20Operações sobre o texto Técnicas de stemming

Técnicas de stemming Table look-up

Mantém uma tabela de radicais de palavras Procedimento simples, porém necessita de

dados sobre os todos os radicais da língua Successor variety

Considera os morfemas da língua menin+o+s

Procedimento complexo e muito dependente da língua

Page 21: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

21Operações sobre o texto Técnicas de stemming

Remoção de afixos (prefixos e sufixos)

Algoritmo de Porter: Considera que a remoção de sufixos é mais

importante que a de prefixos A maioria das variações de palavras é gerada por

sufixos Usa uma regra de redução para cada sufixo

O livro texto traz o algoritmo completo para a língua inglesa

Procura pela maior seqüência de letras que casa com alguma regra Plural: “sses ss”, “ies i” , “ss ss”, “s

Page 22: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

22

Operações sobre o texto Técnicas de stemming

engineer engineer engineer

engineering engineered engineer

Termo Stem

Algoritmo de Porter: Outras regras de redução

ed -> 0 ing -> 0

Page 23: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

23

Operações sobre o texto Técnicas de stemming

Para o português, o problema é mais complexo Plural

existe um número muito maior de formas de fazer plural em português

Para substantivos, artigos e alguns adjetivos temos que ter regras para tratar

aumentativo, diminutivo, feminino, masculino,...

Número de regras para flexões verbais também aumenta consideravelmente

Page 24: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

24

Operações sobre o texto Stemming

Snowball Uma linguagem para processamento de

strings especifica para criar algoritmos de stemming para RI

http://snowball.tartarus.org/

Veja algoritmo disponível para Português em http://snowball.tartarus.org/portuguese/st

emmer.html O site também traz exemplo de stoplist

para Português

Page 25: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

25Stemming

Exemplo do Snowball para Português

word      

stem

quiloquilométricasquilométricosquilômetroquilômetrosquilosquímicaquímicasquímicoquímicosquimioterapiaquimioterápicos

   =>  

 

quil quilométrquilométrquilômetrquilômetrquilquímicquímicquímicquímicquimioterapquimioteráp

Page 26: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

26

Operações sobre o textoThesaurus

Dicionário de sinônimos de uma língua Eg., WordNet

Thesaurus podem ser também definidos para domínios específicos

Entradas contêm palavras isoladas ou termos compostos

Para cada entrada, o thesaurus pode trazer Sinônimos, antônimos, kind-of, part-of,... Classe gramatical E as vezes, uma definição do termo

Page 27: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

27

Operações sobre o textoThesaurus

Uso de thesaurus em sistemas de RI Auxiliar na seleção de termos relevantes

para indexar o documento Auxiliar no processamento da consulta

Expansão de termos

Objetivo principal de usar thesaurus de um domínio específico em sistemas de RI Restringir o sistema a um vocabulário

controlado para indexação e busca de documentos

Page 28: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

28

Operações sobre o textoThesaurus

Para sistemas na Web em inglês, usa-se o WordNet com freqüência http://www.cogsci.princeton.edu/~wn/

Page 29: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

29Operações sobre o texto Identificação de Grupos

Nominais

Objetivo Identificar grupos nominais (termos compostos) para

indexar o documento Ex., Recuperação de Informação, Inteligência Artificial

Procedimentos Selecionar substantivos do texto, eliminando

sistematicamente palavras de outras classes gramaticais Usando uma stoplist ou usando um etiquetador automático (parts-of- speech

tagger) para determinar a classe das palavras e/ou usando um thesaurus da língua ou do domínio

Agrupar substantivos para formar termos compostos

Page 30: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

30Operações sobre o texto Identificação de Grupos

Nominais

Como agrupar substantivos para formar termos compostos Considerando os grupos nominais identificados

pelo tagger Considerando a distância entre os termos no

texto Número de palavras entre os dois substantivos

Ex., Recuperação de Informação Apenas uma palavra (de)

Extraindo esses termos de um thesaurus do domínio Pode conter um vocabulário controlado de termos

em vez de palavras isoladas

Page 31: CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

CIn-UFPE

31Preparação dos documentos Criação da representação do

Documento

Entrada Visão lógica do documento Lista de termos representativos do

documento

Saída Representação final do documento

Termos representativos da base + peso associados a cada termo

Dependente do modelo de RI escolhido Booleano, vetorial, probabilista...