Filtragem e recuperação da informação

38
Filtragem e recuperação da informação na web Vanessa Levati Biff Maio, 2016 UNIVERSIDADE FEDERAL DE SANTA CATARINA Departamento de Ciência da Informação Programa de Pós-Graduação em Ciência da Informação Disciplina: Recuperação Inteligente da Informação Profº: Dr. Angel Godoy Vieira

Transcript of Filtragem e recuperação da informação

Filtragem e recuperação da informação na web

Vanessa Levati Biff

Maio, 2016

UNIVERSIDADE FEDERAL DE SANTA CATARINA

Departamento de Ciência da Informação

Programa de Pós-Graduação em Ciência da Informação

Disciplina: Recuperação Inteligente da Informação

Profº: Dr. Angel Godoy Vieira

Motivações....

a explosão bibliográfica;

Motivações...

a sobrecarga da informação;

Motivações...

a falta de um método para comparar e processar

diferentes tipos de informações disponíveis na web!

ObjetivoAvaliar técnicas de filtragem e recuperação de informação e suas aplicações na otimização da busca de informação na web.

Recuperação da informação na web

Recuperação da informação na webA recuperação da informação (RI) abrange estudos voltados

aos processos relativos ao acesso à informação, propondo

modelos que solucionem a necessidade da informação de um

usuário em determinado conjunto de dados.

Problemas de RI na web- Quantidade de documentos não relevantes retornados;- Tempo dispendido pelo usuário para verificação das

buscas.

Os problemas estão relacionados ao modelo de recuperação adotado, que muitas vezes desconsideram o contexto da

consulta.

(BAEZA-YATES; RIBEIRO-NETO; 2013)

sISTEMAS DE RECUPERAÇÃO da informaçãoSRI são compostos por três processos básicos: a consulta de informação, a indexação e o cálculo de similaridade que basicamente verifica a ocorrência ou não dos termos da consulta na base de dados.

Atualmente são utilizadas técnicas de mineração de dados como indexação de termos, classificação de documentos mas a maioria dos modelos adotados não levam em consideração aspectos semânticos da consulta ou do perfil do usuário

problemas de sri - Coincidir a representação com as necessidades dos

usuários;

- Os usuários não conseguirem expressar suas necessidades;

- Necessidade de interagir com o sistema.

(XIE; 2008)

técnicas de recuperação da informaçãoEm recuperação da informação, há várias abordagens que tentam melhorar a formulação da consulta inicial afim de melhorar a recuperação de informações úteis. Dentre elas há processo de feedback de relevância e a expansão da consulta.

O primeiro ocorre quando o usuário fornece explicitamente informações sobre os documentos relevantes para uma consulta, e o segundo quando as informações relacionadas à consulta são utilizadas para expandi-la.

(BAEZA-YATES; RIBEIRO-NETO, 2013)

recuperação da informação interativaBelkin et al. (2004) conclui que embora haja uma boa quantidade de pesquisas sobre algorítimos de recuperação da informação que atendam essas características, pouco se tem focado em questões de recuperação interativa. Isso porque seres humanos são mais complexos do que algoritmos correspondentes, suas motivações e comportamentos são mais variados e difíceis de se medir.

Entretanto, sistemas de Informação que filtram informações relevantes para um determinado usuário baseado em seu perfil são conhecidos como Sistemas de Recomendação.

Sistemas de recomendaçãoSistemas de recomendação tem o efeito de orientar os usuários de forma personalizada para objetos interessantes em um grande espaço de opções possíveis.

(LOPS, GEMMIS; SEMERARO, 2004)

Os usuários precisam de um apoio personalizado em peneirar grande quantidades de informação disponíveis, de acordo com os seus interesses e gostos

Filtragem de informaçãoCompreende em um método para gerir grandes fluxos de informações, cujo objetivo é expor aos usuários apenas a informação relevante que atenda suas necessidades.

(HANANI; SHAPIRA; SHOVAL, 2001)

Filtragem de informaçãoCompreende em um método para gerir grandes fluxos de informações, cujo objetivo é expor aos usuários apenas a informação relevante que atenda suas necessidades.

(HANANI; SHAPIRA; SHOVAL, 2001)

exemplo de aplicações- Filtros para resultados de pesquisa na internet;

- Filtros de e-mails personalizados com base em perfis pessoais;

- Filtros para aplicações de e-commerce que tratam de produtos e promoções para apenas clientes potenciais.

(HANANI; SHAPIRA; SHOVAL, 2001)

técnicas de Filtragem de informaçãoCom o objetivo de gerir a sobrecarga de informação, a Filtragem de Informação faz uso dos vários métodos, conceitos e técnicas de diversas áreas de pesquisa, como: Recuperação de Informação, Inteligência Artificial e Ciência Comportamental.

- Filtragem baseada em conteúdo;- Filtragem colaborativa;- Filtragem Híbrida.

(HANANI; SHAPIRA; SHOVAL, 2001)

Filtragem baseada em conteúdoBaseia-se na análise do conteúdo do item e no perfil do usuário.

Técnicas para:

- Representar os itens;- Produzir o perfil de usuário; - Comparar o perfil do usuário com a representação do item.

Utiliza técnica de RI:- Modelo vetorial- Indexação semântica (métodos de aprendizagem)

Utiliza técnica de RI:- Aprendizado de máquina;- Algoritmos e redes neurais;- Feedback de relevância; (explicito e implicito)

Histórico de feedback do

usuário

Itens do sistema

Perfil do usuário

Cálculo de similaridade entre perfil do usuário e itens do

sistema

Lista de recomendações

Usuário interage com o sistema

Desvantagens DA FILTRAGEM BASEADA EM CONTEÚDO

Limite na análise de conteúdo Só é eficaz se os itens tiveram a quantidade considerável de

informação armazenada de forma textual.

Superespecialização O usuário fica limitado a um grau especifico de novidade,

afetando a diversidade.

Novos usuários Pois a avaliação do usuário é necessária para que o sistema

possa compreender e atender suas preferências.

(LOPS; GEMMIS; SEMERARO, 2004)

Filtragem colaborativaTenta prever a utilidade dos itens para um determinado usuário com base nos itens que foram previamente avaliados por outros usuários.

Filtragem colaborativa

Filtragem colaborativa

julgamento explicito

Filtragem colaborativa

julgamento implicito

desvantagens da filtragem colaborativa

Novos itens Novo item não será indicado até que tenha sido avaliado por

um número considerável de usuários

Novos usuários O insuficiente conhecimento do novo usuário afeta o

estabelecimento de vizinhança.

Dispersão Se um item for avaliado por poucas pessoas, este item

raramente será recomendado.

Escalabilidade Muitas avaliações pode ocasionar lentidão no calculo de

similaridade..

(ADOMAVICIUS; TUZHILIN, 2005)

Filtragem híbridaCombina os pontos fortes da filtragem baseada em conteúdo e da filtragem colaborativa.

Filtragem baseada em conteúdo

- Independência do usuário

- Indicação de itens ainda não avaliados por

qualquer usuário

- Histórico de consumo

Filtragem colaborativa

- Recomendação de itens diversos e

inesperados

- Descoberta de novos relacionamentos entre

usuários

- Histórico de avaliações em comum

Filtragem híbridaMétodo de hibridização Descrição

Ponderada (Weighted) As pontuações das técnicas de filtragem são combinadas para produzir uma única recomendação.

Comutação (Switching) O sistema alterna entre as técnicas dependendo da situação atual.

Misturada (Mixed) Recomendações de vários técnicas diferentes são apresentado ao mesmo tempo.

Combinação de recurso (Feature combination)

Características de diferentes técnicas são jogadas juntas em um único algoritmo de recomendação.

Cascata (Cascade) Uma técnica refina as recomendações dadas por outra.

Aumento do recurso(Feature augmentation)

A saída de uma técnica é utilizada como uma característica de entrada para outra.

Fonte: (BURKE, 2002, p.7, tradução nossa)

Considerações finais

1. 2. [...]

Recuperação

Filtragem

Considerações finaisRecuperação Filtragem

Frequência de uso Usuário singular, curto prazo Uso repetitivo, longo prazo

Representação da necessidade

de informação

Palavras de consulta Perfil de usuário

Preocupações Coleta e organização dos

itens

Distribuição dos itens

Escopo do sistema Relevância dos itens para a

necessidade de informação

pontual

Processamento de um fluxo

de informações para

corresponder a gostos e

preferências

Exemplos Science Direct, Google

Acadêmico, Yahoo!

Amazon, Google News,

Youtube, Netflix

Considerações finais“A recuperação da informação e filtragem de informação são realmente dois lados da mesma moeda. Eles trabalham em conjunto para ajudar as pessoas a obter as informações necessárias para suas tarefas.” (BELKIN; CROFT, 1995, p.9, tradução nossa)

A maior parte dos problemas que parecem ser exclusivos para filtragem de informação são especializações de problemas que aparecem na recuperação da informação, na medida em que, grande parte da experiência e pesquisa em RI é diretamente relevante para FI.

Considerações finaisPor outro lado, pesquisadores como Pariser (2011) argumentam que o uso de técnicas de filtragem de informação aplicados a recuperação da informação tem contribuído para o crescimento do que ele denomina de “Filtro Bolha”, uma consequência perigosa da personalização da web.

O emprego de tais tecnologias pode dificultar o acesso a novas informações que poderiam ampliar a visão de mundo, uma vez que tais técnicas adaptam a informação retornada a partir dos gostos pessoais e, desta forma, acabam tornando o ambiente da web um espelho unidirecional, tendo em vista que só refletirá seus próprios interesses.

referências bibliográficasADOMAVICIUS, G.; TUZHILIN, A. Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions. IEEE Transactions on Knowledge and Data Engineering, New York, v. 17, n. 6, p. 734-749, June. 2005.

BAEZA-YATES, R.; RIBEIRO-NETO, B.. Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. 2ª ed. Porto Alegre: Bookman, 2013.

BELKIN, N.J.; CROFT, W.B. Information filtering and information retrieval: Two sides of the same coin?. Communications of the ACM, v.35, n.12, p.29-38, dez., 1992.

BELKIN, N.J. et al. Evaluating interactive information retrieval systems: Opportunities and challenges. In: Proceedings of CHI'2004, 1594-1595, 2004.

HANANI, U.; SHAPIRA, B.; SHOVAL, P. Information filtering: Overview of issues, research and systems. User Modeling and User-Adapted Interaction, v. 11, n.3, p. 203-259, 2001.

referências bibliográficasINTERNET LIVE STATS. 2016 Disponível em: <http://www.internetlivestats.com/> Acesso em 30 abr. 2016.

LOPS, P.; GEMMIS, M.; SEMERARO, G.. Content-based Recommender Systems: State of the Art and Trends. In: RICCI, F. et al. Recommender Systems Handbook. New York: Springer, 2011. p. 73-105.http://facweb.cs.depaul.edu/mobasher/classes/ect584/Papers/ContentBasedRS.pdf

MANNING, C. D.; RAGHAVAN, P.; SCHUTZE, H. I. Web search basics. In:An introduction to information retrieval. Cambridge: Cambridge University Press, 2007, p. 385--408. SARWAR, B. et al. Item-based Collaborative Filtering Recommendation Algorithms. In: Proceedings of the 10th international conference on World Wide Web, ACM, New York, 2001. p. 285-295. Disponível em: http://www10.org/cdrom/papers/519/ . Acesso em 30 abr. 2016.

XIE, I. Interactive Information Retrieval in Digital Environments. New York: IGI Publishing, 2008.

Filtragem e recuperação da informação na web

Vanessa Levati Biff

Maio, 2016

UNIVERSIDADE FEDERAL DE SANTA CATARINA

Departamento de Ciência da Informação

Programa de Pós-Graduação em Ciência da Informação

Disciplina: Recuperação Inteligente da Informação

Profº: Dr. Angel Godoy Vieira