Medidas de avaliação de agrupamentos...

Post on 23-Apr-2019

233 views 1 download

Transcript of Medidas de avaliação de agrupamentos...

Medidas de avaliacao de agrupamentos(Clustering)

Sarajane M. Peres e Clodoaldo A. M. Lima

12 de novembro de 2015

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 1 / 22

MotivacaoAvaliacao → Validacao

O processo de avaliacao do resultado obtido a partir de um algoritmo de agrupamento

e comumente chamado de validacao.

Objetivo

A pergunta a ser respondida e se o modelo de grupos descoberto e, de fato, a

organizacao em grupos dos dados sob analise. Porem, se nao conhecemos aorganizacao, como saber se o que descobrimos e o que deverıamos terdescoberto?

Estrategias

analisar a compacidade: encontramos grupos que maximizou a similaridadeintragrupo?

analisar a separabilidade: encontramos grupos que minimizou a similaridadeintergrupos?

analisar conhecimento a priori: usar informacoes que ja se tem sobre o

conjunto de dados sob analise para validar os grupos encontrados.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 2 / 22

Indices de validacao

Possibilidades

Ha dois principais tipos de ındices de validacao de agrupamentos

ındices externos: compara a estrutura de grupos descoberta com uma estrutura

de grupos previamente conhecida;

ındices internos: analisa a estrutura de grupos descoberta em relacao a alguma

criterio, como por exemplo, compacidade e/ou separabilidade.

Os ındices internos tambem podem ser encontrados sob a nomenclatura de “ındices

relativos”.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 3 / 22

Exemplos de organizacoes em grupos

Figura : Conjuntos de dados (http://cs.joensuu.fi/sipu/datasets/)

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 4 / 22

Indices Externos

Considere:

uma organizacao em grupos G , proveniente da execucao do algoritmo de agrupamento, com k

grupos: G1, ..., Gk ;

uma organizacao em particoes P, conhecida a priori, com c particoes: P1, ..., Pc .

todos os pares de dados {→x p,

→x q} do conjunto de dados submetido ao algoritmo de agrupamento,

sendo p 6= q e {→x p,

→x q} = {→

x q,→x p}

e calcule:

SOMA A: quantidade de pares de exemplares que pertencem a um mesmo grupo G e a uma

mesma particao P;

SOMA B: quatidade de pares de exemplares que pertencem a um mesmo grupo G e a particoes P

diferentes;

SOMA C: quantidade de pares de exemplares que pertencem a grupos G diferentes e a mesma

particao P;

SOMA D: quantidade de pares de exemplares que pertencem a grupos G diferentes e a particoes P

diferentes.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 5 / 22

Indices Externos

A partir dos calculos do slide anterior, os seguintes ındices podem ser aplicados:

Indice de Rand : (A+D)(A+B+C+D)

Indice de Jaccard : A(A+B+C)

Indice de Folkes e Mallows:√

AA+B∗ A

A+C

Esses ındices variam no intervalo [0, 1]. Valores altos para esses ındices indicam alto

grau de similaridade entre a organizacao em grupos e a organizacao das particoes.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 6 / 22

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 7 / 22

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 8 / 22

Figura : Com ruıdo - distribuicao normal - 500 pontos

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 9 / 22

Efeito do ruıdo sobre os ındices externosConsiderando cada ponto ruidoso com sendo um grupo diferente.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.818910 67.141 32.980 0 218.680 0.8965 0.6706 0.8189100 67.141 32.980 0 294.595 0.9164 0.6706 0.8189500 67.141 32.980 0 729.995 0.9603 0.6706 0.81891.000 67.141 32.980 0 1.499.245 0.9794 0.6706 0.818910.000 67.141 32.980 0 58.095.745 0.9994 0.6706 0.8189

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 10 / 22

Efeito do ruıdo sobre os ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente na particao

conhecida, mas um grupo unico identificado no agrupamento.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.818910 67.141 33.025 0 217.837 0.8961 0.6703 0.8187100 67.141 37.930 0 288.757 0.9037 0.6390 0.7994500 67.141 157.730 0 603.957 0.8097 0.2986 0.54641.000 67.141 532.480 0 997.957 0.6667 0.1120 0.334610.000 67.141 50.027.980 0 8.089.957 0.1402 0.0013 0.0366

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 11 / 22

Efeito do ruıdo sobre os ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente na particao conhecida,

mas fazendo parte de um dos grupos (reais) encontrados para o conjunto de dados.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189

.... perdi conexao com o servidor .... fiquei sem Matlab ... entao fica como

exercıcio!!!!!!

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 12 / 22

Outros ındices externos

Czekanowski-Dice Hubert Γ

Kulczinski McNemar

Phi Rogers-Tanimoto

Russel-Rao Sokal-Seneath

Tabela : Fonte: Desgraupes, 2013

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 13 / 22

Indices Internos

Indice Dunn

IDunn = min1≤p≤k{min1≤q≤k,p 6=q{dist(Gp,Gq)

maxdisp(Gk)}

em que k e o numero de grupos no agrupamento.

ou

Indice Dunn

IDunn =min1≤p≤q≤kdist(Gp,Gq)

maxdisp(Gk)

em que k e o numero de grupos no agrupamento.

Esse ındice compara as distancias intergrupos com o tamanho do grupo mais disperso.

Quanto MAIOR e o valor deste ındice MELHOR e a organizacao dos grupos em

termos de separabilidade (numerador) e compacidade (denominador).

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 14 / 22

Indices Internos

Indice Davies-Bouldin

IDB =1

k

k∑p=1

Rp

em que

Rp = maxp=1,..k,p 6=qRpq

para p, q = 1..k

Rpq =disp(Cp) + disp(Cq)

dist(Cp,Cq)

Quanto MENOR o valor do ındice MELHOR, pois isso significa baixas medidas de

dispersao intragrupo e grandes distancias intergrupos.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 15 / 22

Indices Internos

Indice Silhouette

ISIL =b(i)− a(i)

max{a(i), b(i)}em que

a(i) e a distancia media do dado i a todos os demais dados do seu grupo;

b(i) e a distancia mınima do dado i a todos os demais dados que nao

pertencem ao seu grupo;

O ISIL e calculado por dado e o ISIL de um grupo e a media dos ISIL de todos os dados

no grupo. E o ISIL do agrupamento e a media dos ISIL dos grupos.Quanto MAIOR o

valor do ındice MELHOR.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 16 / 22

Exemplos de organizacoes em grupos

Figura : Conjuntos de dados (http://cs.joensuu.fi/sipu/datasets/)

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 17 / 22

Indice Dunn nos conjuntos de dados

Considerando a distancias entre os pontos mais distantes dentro do grupo como

dispersao de um grupos e a distancia entre centroides como sendo a distancia entre

grupos, os seguintes valores para o Indice Dunn foram obtidos:

Sem normalizacao Com normalizacao

Conjunto Distancia Dispersao Indice Distancia Dispersao Indicede dados mınima maxima Dunn mınima maxima Dunncompound 0.5904 20.7966 0.0284 0.0166 0.9413 0.0176aggregation 8.3044 15.4144 0.5387 0.3049 0.4966 0.6139t4.8k – – – – – –flame 5.4437 13.7179 0.3968 0.4077 1.0014 0.4071jain 17.7020 27.2273 0.6502 0.5790 0.7101 0.8154pathbased 6.2617 29.2959 0.2137 0.2213 1.0408 0.2126R15 1.6584 1.8750 0.8750 0.1208 0.1378 0.8769D31 2.9889 6.0535 0.4937 0.1136 0.2278 0.4986spiral 3.1464 25.9993 0.1210 0.1094 0.8992 0.1217

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 18 / 22

Outros ındices internos

Ball-Hall Banfeld-Raftery C

Calinski-Harabasz Det-Ratio Baker-Hubert Gamma

GDI G-plus Ksq-Det-Ratio

Log-Det-Ratio McClain-Rao PBM

Point-Biserial Ratkowsky-Lance Ray-Turi

Scott-Symons SD S-Dbw

Tau Trace-W Trace-WiB

Wemmert-Gancarski Xie-Beni

Tabela : Fonte: Desgraupes, 2013

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 19 / 22

Escolha do melhor modelo deagrupamento

A melhor particao pode estar relacionada a qualidade dos grupos encontrados e/ou a

quantidade de grupos encontrados. Muito provavelmente, a melhor qualidade estara

relacionada com quantidade ideal.

Estrategia

crie varios modelos de agrupamento para o conjunto de dados sob analise,

variando, sistematicamente, o numero de grupos e os demais parametros do

algoritmo;

para cada modelo de agrupamento compute um ındice de qualidade;

selecione o modelo de agrupamento que gerou o MELHOR valor para o ındice

de qualidade.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 20 / 22

Comparando diferentes agrupamentos paraum mesmo conjunto de dados

Indice Dunn para o agrupamento com 7 grupos: 0.6139

Indice Dunn para o agrupamento com 4 grupos: 0.4034

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 21 / 22

Referencias Bibliograficas

Davies, D. L.; Bouldin, D. W. A Cluster Separation Measure. In: IEEE

Transaction on Pattern Analysis and Machine Intelligence, v.1, no 2, p.

224-227, 1979.

Desgraupes, B. Clustering Indices. Package clusterCrit for R. University Paris

Ouest - Lab Modal’X, 2013.

Dunn, J. C. A Fuzzy Relative of the ISODATA Process and its Use in Detection

Compact Well-Separate Clusters. In. Journal of Cybernetics, v. 3, no 3, p.

32-57, 1973.

Halkidi, M.; Batistakis, Y.; Vazirgiannis, M. On Clustering Validation

Techniques. In: Journal of Intelligent Information Systems, v. 17, no 2-3, o

107-145, 2001.

Rousseeuw, P. J. Silhouettes: A Graphical Aid to the Interpretation and

Validation of Cluster Analysis. In: Journal of Computational and Applied

Mathematics, v.20, no 1, p. 53-65, 1986.

Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 22 / 22