RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Post on 23-Feb-2016

22 views 4 download

description

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING. Flávio Henrique Moura Stakoviak Orientador: Edeílson Milhomem. Roteiro. Sistemas de Recomendação Recuperação da Informação Clustering de Documentos Considerações Finais. Roteiro. - PowerPoint PPT Presentation

Transcript of RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS

INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação

• Clustering de Documentos

• Considerações Finais

Roteiro

• Sistemas de Recomendação• Recuperação da Informação

• Clustering de Documentos

• Considerações Finais

Sistemas de Recomendação

• Sistemas de Recomendação

• Sistemas de recomendação (SR) são responsáveis

por identificar um usuário e lhe apresentar

conteúdo, produtos ou ofertas personalizadas

(REATEGUI, BOFF & VICCARI, 2005)

Sistemas de Recomendação (cont.)

Sistema de Recomendação

Sistemas de Recomendação (cont.)

• Filtragem Baseada em Conteúdo

– Perfil do Usuário

– Base de Itens

• Filtragem Colaborativa

– Perfil de Todos os Usuários

– Base de Itens

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação• Clustering de Documentos

• Considerações Finais

Recuperação da Informação

• Recuperação da Informação

• A RI tem como objetivo auxiliar os usuários na

busca por informações que os interessam em uma

coleção de documentos. Tal auxílio se dá a partir

da representação, armazenamento, organização e

acesso a essas informações (RODRIGUES, 2009).

Recuperação da Informação (cont.)

• Modelos

– Modelo Vetorial

– Modelo Booleano

– Modelo Probabilístico

Recuperação da Informação (cont.)

• Etapas

– Aquisição

– Preparação

– Indexação

– Busca

– Ordenação

Recuperação da Informação (cont.)

• Aquisição de Documentos

– Web Crawler

Web Crawler

AgendadorURL

Base de Textos

Recuperação da Informação (cont.)

• Preparação de Documentos

– Case Folding

– Stop Words

– Stemming

Recuperação da Informação (cont.)

• Indexação de Documentos

– Tipos

– Campos

– Thesaurus

Recuperação da Informação (cont.)

• Armazenamento de Documentos

– Método duplo de acesso às informações

armazenadas

– Manipulação de grandes volumes atualizações

– Controle de páginas obsoletas

Recuperação da Informação (cont.)

• Recuperação de Documentos

– Palavras-chave

– Casamento de Padrão

– Estrutura

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação

• Clustering de Documentos• Considerações Finais

Clustering de Documentos

• Clustering

• é um método de descoberta de conhecimento que

identifica agregações ou relações entre objetos,

sendo um método útil para o agrupamento de

documentos similares (WIVES, 1999)

Clustering de Documentos (cont.)

• Similaridade Padrão

– Métricas de Distância Convêncionais

• Similaridade Conceitual

– Hierarquia de assuntos

– Pesos

Clustering de Documentos (cont.)

• Edit Distance: Grau de similaridade entre

« Peter » e « Piotr » Peter

Pieter

Pioter

Piotr

Substituição 1pt

Inserção 1pt

Exclusão 1pt

D(Peter, Piotr) = 3

Clustering de Documentos (cont.)

Ferramenta de Clustering

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Cluster 5

Clustering de Documentos (cont.)

• Etapas de Clustering

– Representação de Padrões

– Mediação da Proximidade

– Indentificação do Clustering

– Abstração dos Dados

– Validação dos Clusters

Clustering de Documentos (cont.)

• Representação de Padrões

– Objeto

– Documentos Textuais

– Expansão dos Termos

– Melhor Performance ou Maior Eficiência

Clustering de Documentos (cont.)

• Mediação de Proximidade

– Qualitativos

– Quantitativos

Clustering de Documentos (cont.)

• Identificação de Clusters

– Clustering Hierárquico

– Algoritmo Particional

– Density-based

– Model Based

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

Roteiro (Clustering)

• Clustering Hierárquico• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

Clustering de DocumentosHieráquico

• Hierarquia de partições simples

• Cada cluster é uma combinação de dois outro

clusters

• Dendograma

Clustering de DocumentosHierárquico (cont.)

• Ascendente (bottom-up)

– Começa com todos os clusters e combina pares

até a raiz;

Clustering de DocumentosHierárquico (cont.)

• Descendente (top-down)

– Começa com um único cluster e divide-se em dois

até alcançar o nível da árvore

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means• K-Means Biseccionado

• Density-Based

• Model-Based

Clustering de Documentosk-means

• Cria um número fixo de K clusters

• Vetores-documento

• Centróides

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado• Density-Based

• Model-Based

Clustering de Documentosk-means biseccionado

Selecionar um cluster

Encontrar dois subgrupos Processo do k-means

Cluster produz maior

similaridade?

No de clusters desejado atingido?

Sim

Não

Sim

Não

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based• Model-Based

Clustering de DocumentosDensity-Based

• Características

• Encontrar clusters de forma arbitrária

• Lidar com ruídos

• Tempo de execução baseado nos parâmetros de

entrada

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

Clustering de DocumentosModel-Based

• Características

• Versão « probabilística » do k-means

• Pertence a um cluster conforme algum peso

• Capaz de lidar com incertezas associadas

Clustering de Documentos (cont.)

• Abstração dos Dados

– Visa a interoperabilidade

– Centróides

– Protótipos

Clustering de Documentos (cont.)

• Validação dos Clusters

– Comparação do resultado ideal com o resultado

alcançado

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação

• Clustering de Documentos

• Considerações Finais

Considerações Finais

• Reduzir Sobrecarga de Informações com

Sistemas de Recomendação

• Recuperação eficiente de documentos com a

Recuperação de Dados

Considerações Finais

• Informações de importância dos textos

obtidas com a análise de dados

• Clustering mais utilizados

• Hierárquico

• K-means

Considerações Finais

• Clustering Hierárquico

• Prós: Melhor Qualidade

• Contra: Complexidade Quadrática

• K-means

• Prós: Complexidade Linear

• Contra: Pior qualidade

Considerações Finais

• K-means biseccionado

• Variante do k-means

• Mesmo tempo de execução

• Qualidade equivalente ao Hierárquico

• Trabalhos Futuros

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS

INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem