Medidas de avaliação de agrupamentos...

22
Medidas de avalia¸ ao de agrupamentos (Clustering) Sarajane M. Peres e Clodoaldo A. M. Lima 12 de novembro de 2015 Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avalia¸c˜ ao de agrupamentos (Clustering) 12 de novembro de 2015 1 / 22

Transcript of Medidas de avaliação de agrupamentos...

Page 1: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Medidas de avaliacao de agrupamentos(Clustering)

Sarajane M. Peres e Clodoaldo A. M. Lima

12 de novembro de 2015

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 1 / 22

Page 2: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

MotivacaoAvaliacao → Validacao

O processo de avaliacao do resultado obtido a partir de um algoritmo de agrupamento

e comumente chamado de validacao.

Objetivo

A pergunta a ser respondida e se o modelo de grupos descoberto e, de fato, a

organizacao em grupos dos dados sob analise. Porem, se nao conhecemos aorganizacao, como saber se o que descobrimos e o que deverıamos terdescoberto?

Estrategias

analisar a compacidade: encontramos grupos que maximizou a similaridadeintragrupo?

analisar a separabilidade: encontramos grupos que minimizou a similaridadeintergrupos?

analisar conhecimento a priori: usar informacoes que ja se tem sobre o

conjunto de dados sob analise para validar os grupos encontrados.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 2 / 22

Page 3: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Indices de validacao

Possibilidades

Ha dois principais tipos de ındices de validacao de agrupamentos

ındices externos: compara a estrutura de grupos descoberta com uma estrutura

de grupos previamente conhecida;

ındices internos: analisa a estrutura de grupos descoberta em relacao a alguma

criterio, como por exemplo, compacidade e/ou separabilidade.

Os ındices internos tambem podem ser encontrados sob a nomenclatura de “ındices

relativos”.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 3 / 22

Page 4: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Exemplos de organizacoes em grupos

Figura : Conjuntos de dados (http://cs.joensuu.fi/sipu/datasets/)

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 4 / 22

Page 5: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Indices Externos

Considere:

uma organizacao em grupos G , proveniente da execucao do algoritmo de agrupamento, com k

grupos: G1, ..., Gk ;

uma organizacao em particoes P, conhecida a priori, com c particoes: P1, ..., Pc .

todos os pares de dados {→x p,

→x q} do conjunto de dados submetido ao algoritmo de agrupamento,

sendo p 6= q e {→x p,

→x q} = {→

x q,→x p}

e calcule:

SOMA A: quantidade de pares de exemplares que pertencem a um mesmo grupo G e a uma

mesma particao P;

SOMA B: quatidade de pares de exemplares que pertencem a um mesmo grupo G e a particoes P

diferentes;

SOMA C: quantidade de pares de exemplares que pertencem a grupos G diferentes e a mesma

particao P;

SOMA D: quantidade de pares de exemplares que pertencem a grupos G diferentes e a particoes P

diferentes.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 5 / 22

Page 6: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Indices Externos

A partir dos calculos do slide anterior, os seguintes ındices podem ser aplicados:

Indice de Rand : (A+D)(A+B+C+D)

Indice de Jaccard : A(A+B+C)

Indice de Folkes e Mallows:√

AA+B∗ A

A+C

Esses ındices variam no intervalo [0, 1]. Valores altos para esses ındices indicam alto

grau de similaridade entre a organizacao em grupos e a organizacao das particoes.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 6 / 22

Page 7: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 7 / 22

Page 8: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 8 / 22

Page 9: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Figura : Com ruıdo - distribuicao normal - 500 pontos

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 9 / 22

Page 10: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Efeito do ruıdo sobre os ındices externosConsiderando cada ponto ruidoso com sendo um grupo diferente.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.818910 67.141 32.980 0 218.680 0.8965 0.6706 0.8189100 67.141 32.980 0 294.595 0.9164 0.6706 0.8189500 67.141 32.980 0 729.995 0.9603 0.6706 0.81891.000 67.141 32.980 0 1.499.245 0.9794 0.6706 0.818910.000 67.141 32.980 0 58.095.745 0.9994 0.6706 0.8189

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 10 / 22

Page 11: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Efeito do ruıdo sobre os ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente na particao

conhecida, mas um grupo unico identificado no agrupamento.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.818910 67.141 33.025 0 217.837 0.8961 0.6703 0.8187100 67.141 37.930 0 288.757 0.9037 0.6390 0.7994500 67.141 157.730 0 603.957 0.8097 0.2986 0.54641.000 67.141 532.480 0 997.957 0.6667 0.1120 0.334610.000 67.141 50.027.980 0 8.089.957 0.1402 0.0013 0.0366

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 11 / 22

Page 12: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Efeito do ruıdo sobre os ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente na particao conhecida,

mas fazendo parte de um dos grupos (reais) encontrados para o conjunto de dados.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189

.... perdi conexao com o servidor .... fiquei sem Matlab ... entao fica como

exercıcio!!!!!!

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 12 / 22

Page 13: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Outros ındices externos

Czekanowski-Dice Hubert Γ

Kulczinski McNemar

Phi Rogers-Tanimoto

Russel-Rao Sokal-Seneath

Tabela : Fonte: Desgraupes, 2013

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 13 / 22

Page 14: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Indices Internos

Indice Dunn

IDunn = min1≤p≤k{min1≤q≤k,p 6=q{dist(Gp,Gq)

maxdisp(Gk)}

em que k e o numero de grupos no agrupamento.

ou

Indice Dunn

IDunn =min1≤p≤q≤kdist(Gp,Gq)

maxdisp(Gk)

em que k e o numero de grupos no agrupamento.

Esse ındice compara as distancias intergrupos com o tamanho do grupo mais disperso.

Quanto MAIOR e o valor deste ındice MELHOR e a organizacao dos grupos em

termos de separabilidade (numerador) e compacidade (denominador).

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 14 / 22

Page 15: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Indices Internos

Indice Davies-Bouldin

IDB =1

k

k∑p=1

Rp

em que

Rp = maxp=1,..k,p 6=qRpq

para p, q = 1..k

Rpq =disp(Cp) + disp(Cq)

dist(Cp,Cq)

Quanto MENOR o valor do ındice MELHOR, pois isso significa baixas medidas de

dispersao intragrupo e grandes distancias intergrupos.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 15 / 22

Page 16: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Indices Internos

Indice Silhouette

ISIL =b(i)− a(i)

max{a(i), b(i)}em que

a(i) e a distancia media do dado i a todos os demais dados do seu grupo;

b(i) e a distancia mınima do dado i a todos os demais dados que nao

pertencem ao seu grupo;

O ISIL e calculado por dado e o ISIL de um grupo e a media dos ISIL de todos os dados

no grupo. E o ISIL do agrupamento e a media dos ISIL dos grupos.Quanto MAIOR o

valor do ındice MELHOR.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 16 / 22

Page 17: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Exemplos de organizacoes em grupos

Figura : Conjuntos de dados (http://cs.joensuu.fi/sipu/datasets/)

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 17 / 22

Page 18: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Indice Dunn nos conjuntos de dados

Considerando a distancias entre os pontos mais distantes dentro do grupo como

dispersao de um grupos e a distancia entre centroides como sendo a distancia entre

grupos, os seguintes valores para o Indice Dunn foram obtidos:

Sem normalizacao Com normalizacao

Conjunto Distancia Dispersao Indice Distancia Dispersao Indicede dados mınima maxima Dunn mınima maxima Dunncompound 0.5904 20.7966 0.0284 0.0166 0.9413 0.0176aggregation 8.3044 15.4144 0.5387 0.3049 0.4966 0.6139t4.8k – – – – – –flame 5.4437 13.7179 0.3968 0.4077 1.0014 0.4071jain 17.7020 27.2273 0.6502 0.5790 0.7101 0.8154pathbased 6.2617 29.2959 0.2137 0.2213 1.0408 0.2126R15 1.6584 1.8750 0.8750 0.1208 0.1378 0.8769D31 2.9889 6.0535 0.4937 0.1136 0.2278 0.4986spiral 3.1464 25.9993 0.1210 0.1094 0.8992 0.1217

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 18 / 22

Page 19: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Outros ındices internos

Ball-Hall Banfeld-Raftery C

Calinski-Harabasz Det-Ratio Baker-Hubert Gamma

GDI G-plus Ksq-Det-Ratio

Log-Det-Ratio McClain-Rao PBM

Point-Biserial Ratkowsky-Lance Ray-Turi

Scott-Symons SD S-Dbw

Tau Trace-W Trace-WiB

Wemmert-Gancarski Xie-Beni

Tabela : Fonte: Desgraupes, 2013

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 19 / 22

Page 20: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Escolha do melhor modelo deagrupamento

A melhor particao pode estar relacionada a qualidade dos grupos encontrados e/ou a

quantidade de grupos encontrados. Muito provavelmente, a melhor qualidade estara

relacionada com quantidade ideal.

Estrategia

crie varios modelos de agrupamento para o conjunto de dados sob analise,

variando, sistematicamente, o numero de grupos e os demais parametros do

algoritmo;

para cada modelo de agrupamento compute um ındice de qualidade;

selecione o modelo de agrupamento que gerou o MELHOR valor para o ındice

de qualidade.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 20 / 22

Page 21: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Comparando diferentes agrupamentos paraum mesmo conjunto de dados

Indice Dunn para o agrupamento com 7 grupos: 0.6139

Indice Dunn para o agrupamento com 4 grupos: 0.4034

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 21 / 22

Page 22: Medidas de avaliação de agrupamentos (Clustering)each.uspnet.usp.br/.../uploads/2015/11/avaliacao_clustering.pdf · Medidas de avalia˘c~ao de agrupamentos (Clustering) Sarajane

Referencias Bibliograficas

Davies, D. L.; Bouldin, D. W. A Cluster Separation Measure. In: IEEE

Transaction on Pattern Analysis and Machine Intelligence, v.1, no 2, p.

224-227, 1979.

Desgraupes, B. Clustering Indices. Package clusterCrit for R. University Paris

Ouest - Lab Modal’X, 2013.

Dunn, J. C. A Fuzzy Relative of the ISODATA Process and its Use in Detection

Compact Well-Separate Clusters. In. Journal of Cybernetics, v. 3, no 3, p.

32-57, 1973.

Halkidi, M.; Batistakis, Y.; Vazirgiannis, M. On Clustering Validation

Techniques. In: Journal of Intelligent Information Systems, v. 17, no 2-3, o

107-145, 2001.

Rousseeuw, P. J. Silhouettes: A Graphical Aid to the Interpretation and

Validation of Cluster Analysis. In: Journal of Computational and Applied

Mathematics, v.20, no 1, p. 53-65, 1986.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 22 / 22