Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos...

12
09/05/2017 1 Técnicas de recuperação de informação: filtragem, agrupamento Filtragem

Transcript of Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos...

Page 1: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

1

Técnicas de recuperação de informação:filtragem, agrupamento

Filtragem

Page 2: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

2

Filtragem

� Nome usado para descrever uma variedade de

processos envolvendo a entrega de informação

para pessoas que precisam dela;

� Compreende um método para gerir grandes fluxos de informações, cujo objetivo é expor aos usuários apenas a informação relevante que atenda suas necessidades

� Consiste em analisar um fluxo de informações que

chega, comparar os documentos neste fluxo com

tópicos de interesse (perfil) do usuário e selecionar

os documentos pertinentes (BELKIN; CROFT,

1992)

Filtragem

� Sistema de filtragem

◦ Grande volume de informação não estruturada ou semiestruturada, geralmente textos;

◦ Baseado na preferências individuais ou de grupos (perfis).

◦ Tais perfis podem expressar o que tais indivíduos ou grupos querem, mas também o que não querem;

◦ Remove informação redundante ou não desejada de um fluxo (stream) de informações retornadas através de métodos computacionais automatizados ou semi-automatizados antes de sua apresentação ao usuário humano.

Page 3: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

3

Filtragem

� Os sistemas de filtragem de informação geralmente

dão uma maior ênfase na representação das

necessidades do usuário, isto é, na definição do perfil

do usuário, o que difere dos sistemas de recuperação

de informação.

� Além disso, um problema que parece alcançar maior

destaque em filtragem do que em recuperação de

informação é a representação de dados não textuais.

� Para Belkin e Croft (1992) “Filtragem de informação e

recuperação de informação são dois lados da mesma

moeda, trabalham para ajudar pessoas a obter

informações necessárias para executar suas tarefas”.

Filtragem

� Belkin e Croft (1992) veem a filtragem como um tipo especial de recuperação de informação, que herda alguns de seus problemas e resultados de pesquisa.

� Em comum está o objetivo de selecionar informações relevantes. Como diferenças citam:

◦ Frequência de uso

� Os sistemas de recuperação de informação são projetados para o uso ad-hoc, para satisfazer a necessidade de informação imediata e momentânea de um usuário;

� Os sistema de filtragem de informação são projetados para usuários de longo prazo com necessidades de informações de longo prazo e para uso repetitivo

◦ Representação das necessidade de informação

� Nos sistemas de recuperação de informação as necessidades dos usuários são expressadas por meio de expressões de busca (conclultas)

� Nos sistemas de filtragem as necessidades de informação de longo prazo são descritas por meio de perfis.

◦ Objetivo

� Os sistemas de recuperação de informação selecionam documentos relevantes a partir da especificação de uma expressão de busca;

� Os sistemas de filtragem eliminam dados irrelevantes de fluxos (stream) dados de entrada de acordo com o perfil do usuário

Page 4: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

4

Filtragem

◦ Base de dados

� Sistemas de recuperação de informação tratam com bases de dados

relativamente estáveis (ex.: artigos de periódicos)

� Sistemas de filtragem lidam com dados dinâmicos (ex.: mensagens de

e-mail.

◦ Tipo de usuários

� Sistemas de recuperação de informação atendem a usuários que não

são conhecidos pelo sistema; Qualquer pessoa que tenha acesso ao

sistema pode apresentar uma consulta.

� Usuário de sistemas de filtragem precisam ser conhecidos pelo

sistema; O sistema possui um modelo do usuário (perfil)

◦ Escopo do sistema

� Sistemas de filtragem se preocupam com questões sociais como a

modelagem de usuário e privacidade que são na maior parte do tempo

de nenhuma preocupação para os sistemas de IR

Filtragem

� Tipos

◦ Filtragem baseada em conteúdo;

◦ Filtragem colaborativa;

◦ Filtragem Híbrida.

Page 5: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

5

Filtragem

� Filtragem baseada em conteúdo

◦ Baseia-se na análise do conteúdo do item (documento) e no perfil do usuário.

◦ Envolve técnicas para:

� Representar os itens;

� Produzir o perfil de usuário;

� Comparar o perfil do usuário com a

representação do item.

Filtragem

� Baseada em conteúdo

◦ A filtragem é realizada por meio da comparação das representações dos documentos e o perfil do usuário;

◦ Cada documento é representado por um conjunto de descritores ou condições, tipicamente as palavras que ocorrem num documento ou metadados.

◦ Obtém-se o perfil do usuário através de Informações explícitas obtidas pelo próprio usuário, consultas,Aprendizagem dos itens que o usuário consome.

◦ Relevance feedback, algoritmos genéticos, redes neurais e classificadores bayesianos estão entre as técnicas de aprendizagem para detectar e aprender sobre o perfil do usuário.

Page 6: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

6

Filtragem

� Desvantagens da Filtragem Baseada em Conteúdo

◦ Limite na análise de conteúdo

� Só é eficaz se os itens tiveram a quantidade

considerável de informação armazenada de forma

textual.

◦ Superespecialização

� O usuário fica limitado a um grau especifico de

novidade, afetando a diversidade.

◦ Novos usuários

� Pois a avaliação do usuário é necessária para que o

sistema possa compreender e atender suas

preferências.

Filtragem

� Filtragem Colaborativa

◦ Complementa a filtragem baseada em conteúdo;

◦ Sistema específico no qual a filtragem da informação é auxiliada por um humano;

◦ Procuram predizer a pontuação de um item para um consumidor em particular, baseado em como outros usuários com gostos semelhantes ao usuário alvo que previamente pontuaram o mesmo item.

Page 7: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

7

Filtragem

� Filtragem Colaborativa

◦ Calcular o peso de cada usuário do sistema em relação à similaridade com o usuário alvo (métrica da similaridade)

◦ Selecionar um subconjunto de usuários com maiores similaridades para considerar predição.

◦ Normalizar as avaliações e computar as predições ponderando as avaliações dos vizinhos.

Filtragem

� Desvantagens da filtragem colaborativa

◦ Novos itens

� Novo item não será indicado até que tenha sido avaliado por um número considerável de usuários

◦ Novos usuários

� O insuficiente conhecimento do novo usuário afeta o estabelecimento de vizinhança.

◦ Dispersão

� Se um item for avaliado por poucas pessoas, este item raramente será recomendado.

◦ Escalabilidade

� Muitas avaliações pode ocasionar lentidão no calculo de similaridade..

(ADOMAVICIUS; TUZHILIN, 2005)

Page 8: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

8

Filtragem

� Filtragem Híbrida

◦ Combina os pontos fortes da filtragem baseada em

conteúdo e da filtragem colaborativa.

◦ Filtragem baseada em conteúdo

� Independência do usuário

� Indicação de itens ainda não avaliados por qualquer usuário

� Histórico de consumo

◦ Filtragem colaborativa

� Recomendação de itens diversos e inesperados

� Descoberta de novos relacionamentos entre usuários

� Histórico de avaliações em comum

Filtragem

� Método de hibridização

◦ Ponderada (Weighted)

� As pontuações das técnicas de filtragem são combinadas para produzir uma única

recomendação.

◦ Comutação (Switching)

� O sistema alterna entre as técnicas dependendo da situação atual.

◦ Misturada (Mixed)

� Recomendações de vários técnicas diferentes são apresentado ao mesmo tempo.

◦ Combinação de recurso (Feature combination)

� Características de diferentes técnicas são jogadas juntas em um único algoritmo de

recomendação.

◦ Cascata (Cascade)

� Uma técnica refina as recomendações dadas por outra.

◦ Aumento do recurso (Feature augmentation)

� A saída de uma técnica é utilizada como uma característica de entrada para outra.

(BURKE, 2002, p.7)

Page 9: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

9

Agrupamento(clustering)

Agrupamento

� Particionar objetos em grupos

(clusters)

◦ Agrupar por similaridades

◦ Separar por diferenças

� Descobrir categorias/classes maneira

não-supervisionada

◦ Classes não são fornecidas a priori

Page 10: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

10

Agrupamento

� Objetivo:

◦ Encontrar clusters em bases de documentos de texto

� Usos:

◦ Interfaces de resultados de busca

◦ Criar diretórios de documentos

◦ Reordenar resultados de busca

Algoritmo k-Means

� Algoritmo K-means

◦ Clusters definidos com base nos centróides: “centro de gravidade”, ou o ponto médio dos cluster

◦ Alocação dos objetos nos clusters feita com base na similaridade com o centróide

Page 11: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

11

x – documento

● - centróide

Agrupamento

� Algoritmo k-Means

1. Defina k centróides iniciais, escolhendo k documentos aleatórios da base;

2. Aloque cada documento para o cluster correspondente ao centróide mais similar;

3. Recalcule os centróides dos clusters.

4. Repita passo 2 e 3 até atingir um critério de parada

Page 12: Técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos sistemas de recuperação de informação. Além disso, um problema que parece

09/05/2017

12

Referências

Referências

� BELKIN, N.J.; CROFT, W.B. Information filtering and information

retrieval: Two sides of the same coin?. Communications of the ACM, v.35, n.12, p.29-38, dez., 1992.