RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS

INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação

• Clustering de Documentos

• Considerações Finais

Roteiro

• Sistemas de Recomendação• Recuperação da Informação

Sistemas de Recomendação

• Sistemas de recomendação (SR) são responsáveis

por identificar um usuário e lhe apresentar

conteúdo, produtos ou ofertas personalizadas

(REATEGUI, BOFF & VICCARI, 2005)

Sistemas de Recomendação (cont.)

Sistema de Recomendação

Sistemas de Recomendação (cont.)

• Filtragem Baseada em Conteúdo

– Perfil do Usuário

– Base de Itens

• Filtragem Colaborativa

– Perfil de Todos os Usuários

– Base de Itens

Roteiro

• Recuperação da Informação• Clustering de Documentos

Recuperação da Informação

• A RI tem como objetivo auxiliar os usuários na

busca por informações que os interessam em uma

coleção de documentos. Tal auxílio se dá a partir

da representação, armazenamento, organização e

acesso a essas informações (RODRIGUES, 2009).

Recuperação da Informação (cont.)

• Modelos

– Modelo Vetorial

– Modelo Booleano

– Modelo Probabilístico

• Etapas

– Aquisição

– Preparação

– Indexação

– Busca

– Ordenação

• Aquisição de Documentos

– Web Crawler

Web Crawler

AgendadorURL

Base de Textos

• Preparação de Documentos

– Case Folding

– Stop Words

– Stemming

• Indexação de Documentos

– Tipos

– Campos

– Thesaurus

• Armazenamento de Documentos

– Método duplo de acesso às informações

armazenadas

– Manipulação de grandes volumes atualizações

– Controle de páginas obsoletas

• Recuperação de Documentos

– Palavras-chave

– Casamento de Padrão

– Estrutura

Roteiro

• Clustering de Documentos• Considerações Finais

Clustering de Documentos

• Clustering

• é um método de descoberta de conhecimento que

identifica agregações ou relações entre objetos,

sendo um método útil para o agrupamento de

documentos similares (WIVES, 1999)

Clustering de Documentos (cont.)

• Similaridade Padrão

– Métricas de Distância Convêncionais

• Similaridade Conceitual

– Hierarquia de assuntos

– Pesos

• Edit Distance: Grau de similaridade entre

« Peter » e « Piotr » Peter

Pieter

Pioter

Substituição 1pt

Inserção 1pt

Exclusão 1pt

D(Peter, Piotr) = 3

Ferramenta de Clustering

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Cluster 5

• Etapas de Clustering

– Representação de Padrões

– Mediação da Proximidade

– Indentificação do Clustering

– Abstração dos Dados

– Validação dos Clusters

• Representação de Padrões

– Objeto

– Documentos Textuais

– Expansão dos Termos

– Melhor Performance ou Maior Eficiência

• Mediação de Proximidade

– Qualitativos

– Quantitativos

• Identificação de Clusters

– Clustering Hierárquico

– Algoritmo Particional

– Density-based

– Model Based

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based

• Clustering Hierárquico• Algoritmos Particionais

• K-Means

• Density-Based

• Model-Based

Clustering de DocumentosHieráquico

• Hierarquia de partições simples

• Cada cluster é uma combinação de dois outro

clusters

• Dendograma

Clustering de DocumentosHierárquico (cont.)

• Ascendente (bottom-up)

– Começa com todos os clusters e combina pares

até a raiz;

Clustering de DocumentosHierárquico (cont.)

• Descendente (top-down)

– Começa com um único cluster e divide-se em dois

até alcançar o nível da árvore

• Algoritmos Particionais• K-Means

• Density-Based

• Model-Based

• K-Means• K-Means Biseccionado

• Density-Based

• Model-Based

Clustering de Documentosk-means

• Cria um número fixo de K clusters

• Vetores-documento

• Centróides

Clustering de Documentosk-means (cont.)

0 1 2 3 4 5

• K-Means

• K-Means Biseccionado• Density-Based

• Model-Based

Clustering de Documentosk-means biseccionado

Selecionar um cluster

Encontrar dois subgrupos Processo do k-means

Cluster produz maior

similaridade?

No de clusters desejado atingido?

• K-Means

• Density-Based• Model-Based

Clustering de DocumentosDensity-Based

• Características

• Encontrar clusters de forma arbitrária

• Lidar com ruídos

• Tempo de execução baseado nos parâmetros de

entrada

• K-Means

• Density-Based

• Model-Based

Clustering de DocumentosModel-Based

• Características

• Versão « probabilística » do k-means

• Pertence a um cluster conforme algum peso

• Capaz de lidar com incertezas associadas

• Abstração dos Dados

– Visa a interoperabilidade

– Centróides

– Protótipos

• Validação dos Clusters

– Comparação do resultado ideal com o resultado

alcançado

Roteiro

Considerações Finais

• Reduzir Sobrecarga de Informações com

Sistemas de Recomendação

• Recuperação eficiente de documentos com a

Recuperação de Dados

• Informações de importância dos textos

obtidas com a análise de dados

• Clustering mais utilizados

• Hierárquico

• K-means

• Prós: Melhor Qualidade

• Contra: Complexidade Quadrática

• K-means

• Prós: Complexidade Linear

• Contra: Pior qualidade

• K-means biseccionado

• Variante do k-means

• Mesmo tempo de execução

• Qualidade equivalente ao Hierárquico

• Trabalhos Futuros

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS

INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Documents

Transcript of RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Data Mining - Clustering

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN.

K-Means / Clustering. Introdução A Análise de Agrupamentos (Clustering Analysis) por objetivo a separação de um conjunto de dados em grupos, de forma.

Spatial Clustering to Uncluttering Map Visualization in SOLAP

Ferramentas de Recomendação

Recomendação EMA

Sistemas de recomendação

Clustering 1

RECOMENDAÇÃO DE SEGURANÇA

Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.

Clustering Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br.

Clustering com numpy e cython

Clustering (Agrupamento)

RECOMENDAÇÃO TÉCNICA

Introdução aos Sistemas de Recomendação para Grupos · Introdução aos Sistemas de Recomendação para Grupos 1 Introdução Sistemas de recomendação tradicionais realizam

A Validity Measure for Hard and Fuzzy Clustering Derived from Fisher’s Linear Discriminant

Clustering Very Large Multi-dimensional Datasets with ...ukang/papers/BowKDD2011.pdf · Clustering Very Large Multi-dimensional Datasets with MapReduce Robson L. F. Cordeiro CS Department

recomendação adubos

Desenvolvimento e Implantação de um Sistema para Recomendação de Tags utilizando Clustering e Classificação Textual para o Konnen Flávio Henrique Moura.

Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane