Download - Clustering (Agrupamento)

Transcript

Introduction to Information RetrievalIntroduction to Information Retrieval

Aula 12: Agrupamento (Clustering)

Alexandre [email protected]

11111

Ordenação e Recuperação de Dados

Agenda1. Agrupamento: Introdução

2. Agrupamento em RI

3. K-means

4. Avaliação

5. Quantos grupos?

Agenda1. Agrupamento: Introdução

2. Agrupamento em RI

3. K-means

4. Avaliação

5. Quantos grupos?

Agrupamento: Definição

Agrupamento é o processo de agrupar um conjunto de documentos em subconjuntos de documentos similares.

Documentos em um subconjunto devem ser similares. Documentos de diferentes subconjuntos não devem ser

similares. Agrupamento é a forma mais comum de aprendizagem não-

supervisionada. Não-supervisionada = os dados não possuem qualquer tipo

de anotação.

Conjunto de dados com uma estrutura de grupos clara

Proponha um algoritmo para encontrar os subconjuntos nesse exemplo

Classificação vs. Agrupamento

Classificação: aprendizagem supervisionada Agrupamento: aprendizagem não-supervisionada Classificação: as classes são definidas por humanos e são

parte da entrada do algoritmo de aprendizagem. Agrupamento: os grupos são inferidos a partir dos dados sem

intervenção humana. No entanto, existem muitas maneiras de influenciar o resultado

de um agrupamento: número de grupos, medida de similaridade, representação dos documentos, ...

Agenda1. Agrupamento: Introdução

2. Agrupamento em RI

3. K-means

4. Avaliação

5. Quantos grupos?

A hipótese do agrupamento

Documentos em um mesmo grupo tem comportamento semelhante em relação a relevância para uma necessidade de informação. Todas as aplicações para agrupamento em RI são baseadas (de forma direta ou indireta) nesta hipótese. Proposição original (Van Rijsbergen) “documentos fortemente relacionados tendem a ser relevantes para as mesmas consultas”.

Aplicação de agrupamento em RI

Aplicação O que é agrupado? Benefício

Agrupamento de resultados de busca

Resultados e busca Apresentação mais efetiva dos resultados ao usuário

Agrupamento de coleção

coleção Apresentação efetiva da informação para navegação exploratória

Recuperação baseada em grupos

coleção Maior eficiência:Buscas mais rápidas

Agrupamento de resultados de busca para melhor navegação

Agrupamento para melhorar o recall

Para melhorar o recall de uma busca: Agrupar os documentos de uma coleção a priori Quando uma consulta casa com um documento d, retornar

também outros documentos no grupo que contém d Esperança: ao fazer isso uma consulta por “carro” retornaria

também documentos contendo “automóvel” O algoritmo de agrupamento colocaria documentos contendo

“carro” e “automóvel” no mesmo grupo. Os dois tipos de documentos conteriam palavras semelhantes

como “peça”, “concessionária”, “mercedes”, “viagem”.

Conjunto de dados com uma estrutura de grupos clara

Proponha um algoritmo para encontrar os subconjuntos nesse exemplo

Objetivos do agrupamento Objetivo geral: colocar documentos relacionados em um

mesmo grupo, colocar documentos não-relacionados em grupos diferentes. Como formalizamos isso?

O número de grupos deve ser apropriado para os dados que serão agrupados. Inicialmente, assumimos que o número de grupos K é

fornecido. Mais tarde: Métodos semiautomáticos para determinar K

Objetivos secundários Evitar grupos muito pequenos ou muito grandes Definir grupos que sejam fáceis de explicar ao usuário

Agrupamento Plano vs. Hierárquico Algoritmos planos

Geralmente iniciam como um particionamento aleatório dos documentos em grupos

Refinamentos iterativos Objetivo principal: K-means

Algoritmos Hierárquicos Criar uma hierarquia Bottom-up, aglomerativo Top-down, divisível

Agrupamento Hard vs. Soft

Agrupamento Hard: cada documento pertence a exatamente um grupo. Mais comum e fácil de fazer

Agrupamento Soft: um documento pode pertencer a mais de um grupo. Faz mais sentido para aplicações que desejam criar hierarquias

navegáveis Você pode desejar colocar tênis em dois grupos:

Equipamentos esportivos Calçados

Veremos apenas agrupamentos hard e planos nessa aula.

Algoritmos planos

Algoritmos planos particionam N documentos em um conjunto de K grupos.

Dados: um conjunto de documentos e um número K Encontrar: uma partição em K grupos que otimize algum

critério de particionamento Otimização global: enumerar exaustivamente todas as

partições, escolher a ótima Intratável

Heurística efetiva: algoritmo K-means

Agenda1. Agrupamento: Introdução

2. Agrupamento em RI

3. K-means

4. Avaliação

5. Quantos grupos?

K-means

Provavelmente o algoritmo de agrupamento mais

conhecido Simples, funciona em vários casos Usado como padrão para agrupamento de documentos

Representação de documentos para agrupamento

Modelo de espaço vetorial Como na classificação em espaço vetorial, medimos o

relacionamento entre dois vetores pela sua Distância euclidiana . . .

. . .que é praticamente equivalente a similaridade do cosseno.

Quase: centroides não são normalizados.

K-means Cada grupo no K-means é definido por um centroide. Objetivo/critério de particionamento: minimizar a média

dos quadrados das diferenças em relação ao centroide Relembrando a definição de centroide:

Onde usamos o ω para identificar um grupo. Tentamos encontrar o valor mínimo para a médias dos

quadrados das diferenças iterando em dois passos: redistribuição: atribuir cada vetor ao grupo com centroide

mais próximo recomputação: recalcular cada centroide como a média dos

vetores atribuídos ao grupo após a redistribuição 20

Algoritmo K-means

Exemplo: Conjunto para ser agrupado

Exemplo: Seleção inicial aleatória dos centroides

Exemplo: Atribuir os pontos aos centroides mais próximos