RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

50
RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING Flávio Henrique Moura Stakoviak Orientador: Edeílson Milhomem

description

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING. Flávio Henrique Moura Stakoviak Orientador: Edeílson Milhomem. Roteiro. Sistemas de Recomendação Recuperação da Informação Clustering de Documentos Considerações Finais. Roteiro. - PowerPoint PPT Presentation

Transcript of RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Page 1: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS

INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem

Page 2: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação

• Clustering de Documentos

• Considerações Finais

Page 3: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro

• Sistemas de Recomendação• Recuperação da Informação

• Clustering de Documentos

• Considerações Finais

Page 4: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Sistemas de Recomendação

• Sistemas de Recomendação

• Sistemas de recomendação (SR) são responsáveis

por identificar um usuário e lhe apresentar

conteúdo, produtos ou ofertas personalizadas

(REATEGUI, BOFF & VICCARI, 2005)

Page 5: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Sistemas de Recomendação (cont.)

Sistema de Recomendação

Page 6: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Sistemas de Recomendação (cont.)

• Filtragem Baseada em Conteúdo

– Perfil do Usuário

– Base de Itens

• Filtragem Colaborativa

– Perfil de Todos os Usuários

– Base de Itens

Page 7: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação• Clustering de Documentos

• Considerações Finais

Page 8: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Recuperação da Informação

• Recuperação da Informação

• A RI tem como objetivo auxiliar os usuários na

busca por informações que os interessam em uma

coleção de documentos. Tal auxílio se dá a partir

da representação, armazenamento, organização e

acesso a essas informações (RODRIGUES, 2009).

Page 9: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Recuperação da Informação (cont.)

• Modelos

– Modelo Vetorial

– Modelo Booleano

– Modelo Probabilístico

Page 10: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Recuperação da Informação (cont.)

• Etapas

– Aquisição

– Preparação

– Indexação

– Busca

– Ordenação

Page 11: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Recuperação da Informação (cont.)

• Aquisição de Documentos

– Web Crawler

Web Crawler

AgendadorURL

Base de Textos

Page 12: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Recuperação da Informação (cont.)

• Preparação de Documentos

– Case Folding

– Stop Words

– Stemming

Page 13: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Recuperação da Informação (cont.)

• Indexação de Documentos

– Tipos

– Campos

– Thesaurus

Page 14: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Recuperação da Informação (cont.)

• Armazenamento de Documentos

– Método duplo de acesso às informações

armazenadas

– Manipulação de grandes volumes atualizações

– Controle de páginas obsoletas

Page 15: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Recuperação da Informação (cont.)

• Recuperação de Documentos

– Palavras-chave

– Casamento de Padrão

– Estrutura

Page 16: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação

• Clustering de Documentos• Considerações Finais

Page 17: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos

• Clustering

• é um método de descoberta de conhecimento que

identifica agregações ou relações entre objetos,

sendo um método útil para o agrupamento de

documentos similares (WIVES, 1999)

Page 18: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

• Similaridade Padrão

– Métricas de Distância Convêncionais

• Similaridade Conceitual

– Hierarquia de assuntos

– Pesos

Page 19: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

• Edit Distance: Grau de similaridade entre

« Peter » e « Piotr » Peter

Pieter

Pioter

Piotr

Substituição 1pt

Inserção 1pt

Exclusão 1pt

D(Peter, Piotr) = 3

Page 20: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

Ferramenta de Clustering

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Cluster 5

Page 21: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

• Etapas de Clustering

– Representação de Padrões

– Mediação da Proximidade

– Indentificação do Clustering

– Abstração dos Dados

– Validação dos Clusters

Page 22: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

• Representação de Padrões

– Objeto

– Documentos Textuais

– Expansão dos Termos

– Melhor Performance ou Maior Eficiência

Page 23: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

• Mediação de Proximidade

– Qualitativos

– Quantitativos

Page 24: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

• Identificação de Clusters

– Clustering Hierárquico

– Algoritmo Particional

– Density-based

– Model Based

Page 25: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

Page 26: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro (Clustering)

• Clustering Hierárquico• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

Page 27: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de DocumentosHieráquico

• Hierarquia de partições simples

• Cada cluster é uma combinação de dois outro

clusters

• Dendograma

Page 28: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de DocumentosHierárquico (cont.)

• Ascendente (bottom-up)

– Começa com todos os clusters e combina pares

até a raiz;

Page 29: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de DocumentosHierárquico (cont.)

• Descendente (top-down)

– Começa com um único cluster e divide-se em dois

até alcançar o nível da árvore

Page 30: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

Page 31: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means• K-Means Biseccionado

• Density-Based

• Model-Based

Page 32: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentosk-means

• Cria um número fixo de K clusters

• Vetores-documento

• Centróides

Page 33: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3

Page 34: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3

Page 35: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3

Page 36: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3

Page 37: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado• Density-Based

• Model-Based

Page 38: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentosk-means biseccionado

Selecionar um cluster

Encontrar dois subgrupos Processo do k-means

Cluster produz maior

similaridade?

No de clusters desejado atingido?

Sim

Não

Sim

Não

Page 39: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based• Model-Based

Page 40: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de DocumentosDensity-Based

• Características

• Encontrar clusters de forma arbitrária

• Lidar com ruídos

• Tempo de execução baseado nos parâmetros de

entrada

Page 41: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

Page 42: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de DocumentosModel-Based

• Características

• Versão « probabilística » do k-means

• Pertence a um cluster conforme algum peso

• Capaz de lidar com incertezas associadas

Page 43: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

• Abstração dos Dados

– Visa a interoperabilidade

– Centróides

– Protótipos

Page 44: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Clustering de Documentos (cont.)

• Validação dos Clusters

– Comparação do resultado ideal com o resultado

alcançado

Page 45: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação

• Clustering de Documentos

• Considerações Finais

Page 46: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Considerações Finais

• Reduzir Sobrecarga de Informações com

Sistemas de Recomendação

• Recuperação eficiente de documentos com a

Recuperação de Dados

Page 47: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Considerações Finais

• Informações de importância dos textos

obtidas com a análise de dados

• Clustering mais utilizados

• Hierárquico

• K-means

Page 48: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Considerações Finais

• Clustering Hierárquico

• Prós: Melhor Qualidade

• Contra: Complexidade Quadrática

• K-means

• Prós: Complexidade Linear

• Contra: Pior qualidade

Page 49: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Considerações Finais

• K-means biseccionado

• Variante do k-means

• Mesmo tempo de execução

• Qualidade equivalente ao Hierárquico

• Trabalhos Futuros

Page 50: RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS

INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem