Prof. José Francisco Moreira Pessanha [email protected] Análise de agrupamentos.
Transcript of Prof. José Francisco Moreira Pessanha [email protected] Análise de agrupamentos.
Prof. José Francisco Moreira [email protected]
Análise de agrupamentosAnálise de agrupamentos
Análise de agrupamentosCluster Analysis
Abrange uma variedade de métodos que têm por objetivo fracionar um conjunto de objetos em um determinado nº de subconjuntos mutuamente exclusivos (agrupamentos ou clusters), de tal forma que os objetos em um mesmo cluster sejam semelhantes entre si, porém diferentes dos objetos dos outros clusters.
Os clusters devem exibir elevada homogeneidade interna (pequena variabilidade dentro de cada grupo) e elevada heterogeneidade externa (grande separação entre os grupos).
Os clusters não são conhecidos previamente, mas são obtidos pela análise das semelhanças ou diferenças entre os objetos do conjunto de dados.
Os métodos de análise de agrupamentos têm por objetivo determinar uma estrutura de grupos que se ajuste aos dados disponíveis, i.e., classificar os objetos de acordo com o agrupamento natural dos dados.
Análise de agrupamentosCluster Analysis
Clusters
Algoritmo de análise de
agrupamentos
Cada ponto representa uma empresa
Identificação dos Identificação dos clustersclusters a partir dos dados a partir dos dados
O que é possível fazer com a análise de agrupamentos ?O que é possível fazer com a análise de agrupamentos ?
Formar uma taxonomia das observações Identificar grupos naturais no interior dos dados, i.e., uma
classificação empírica dos objetos.
Simplificar os dados (compressão de dados) Descrever de forma compacta um razoável volume de
dados por meio dos elementos típicos dos clusters (médias ou medianas).
Identificar relações entre objetos• Revelar similaridades e diferenças entre objetos não
reveladas de outra maneira.• Identificar observações aberrantes.
Características da análise de agrupamentos
É descritiva, os métodos são exploratórios e a idéia é gerar hipóteses.
Cria grupos indiferentemente a existência de alguma estrutura nos dados.
Variedade de vias e critérios para definição dos grupos o que implica na possibilidade de obter soluções diferentes variando-se um ou mais critérios.
A solução da análise de agrupamentos não é generalizável por que ela é totalmente dependente tanto das variáveis usadas como dos critérios em que ela se baseia.
Medidas de similaridade e de dissimilaridade
Clusters são grupos de objetos semelhantes.Clusters são grupos de objetos semelhantes.
Para formar clusters é necessário ter uma medida do grau de similaridade Para formar clusters é necessário ter uma medida do grau de similaridade entre os objetos ou de diferença (dissimilaridade) entre eles.entre os objetos ou de diferença (dissimilaridade) entre eles.
Vamos trabalhar com medidas de dissimilaridade (distâncias), por exemplo, o Vamos trabalhar com medidas de dissimilaridade (distâncias), por exemplo, o quadrado da distância euclidiana. quadrado da distância euclidiana.
Distâncias pequenas indicam objetos próximos, ou seja, semelhantes em um Distâncias pequenas indicam objetos próximos, ou seja, semelhantes em um conjunto de atributos.conjunto de atributos.
Sejam os objetos X e Y caracterizados por p atributos quantitativos: X = Sejam os objetos X e Y caracterizados por p atributos quantitativos: X = (x(x11,x,x22,...,x,...,xpp) e Y = (y) e Y = (y11,y,y22,...,y,...,ypp).).
O quadrado da distância euclidiana entre X e Y é dado por:O quadrado da distância euclidiana entre X e Y é dado por:
||X-Y||||X-Y||22 = (x = (x11 – y – y11))22 + (x + (x22 – y – y22))22 +...+ (x +...+ (xpp - y - ypp))2 2 = =
p
iii yx
1
2
Centro de gravidade da nuvem de pontos
objetos atributo X atributo Y#1 1 1#2 1,5 1,5#3 5 5,5#4 6 7#5 1 3#6 1,5 3,5#7 5,5 1#8 6,5 2
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
Matriz de dadosMatriz de dados Nuvem de pontos com centro de gravidade CNuvem de pontos com centro de gravidade C
CC
As coordenadas do centro de gravidade C são as médias em cada atributo:As coordenadas do centro de gravidade C são as médias em cada atributo:
Abscissa de C = (1 + 1,5 + 5 + 6 + 1 + 1,5 + 5,5 + 6,5) / 8 = 3,5Abscissa de C = (1 + 1,5 + 5 + 6 + 1 + 1,5 + 5,5 + 6,5) / 8 = 3,5Ordenada de C = (1 + 1,5 + 5,5 + 7 + 3 + 3,5 + 1 + 2) / 8 = 3,06Ordenada de C = (1 + 1,5 + 5,5 + 7 + 3 + 3,5 + 1 + 2) / 8 = 3,06
Inércia total, medida de dispersão da nuvem de pontos ao redor do centro de gravidade da nuvem
8
1
2||||#i
Ci
Matriz de dadosMatriz de dadosNuvem de pontos com centro de gravidade CNuvem de pontos com centro de gravidade C
A inércia total é a soma dos quadrados das distâncias entre cada objeto e o A inércia total é a soma dos quadrados das distâncias entre cada objeto e o centro de gravidade da nuvem de pontos (ponto C):centro de gravidade da nuvem de pontos (ponto C):
Inércia total = ||#1 – C||Inércia total = ||#1 – C||2 2 + ||#2 – C||+ ||#2 – C||22 +...+ ||#8 – C|| +...+ ||#8 – C||22 = 75,72 = 75,72
Quadrado da distância entre o objeto #1 e o centro de gravidade C:Quadrado da distância entre o objeto #1 e o centro de gravidade C:||#1 – C||||#1 – C||22 = (1 – 3,5) = (1 – 3,5)22+ (1 - 3,06)+ (1 - 3,06)22 = 10,1 = 10,1
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
CC
#1#1
objetos atributo X atributo Y#1 1 1#2 1,5 1,5#3 5 5,5#4 6 7#5 1 3#6 1,5 3,5#7 5,5 1#8 6,5 2
Centro de gravidade 3,50 3,06
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
Centros de gravidade dos clusters (centróides)
objetos atributo X atributo Y#1 1 1#2 1,5 1,5#3 5 5,5#4 6 7#5 1 3#6 1,5 3,5#7 5,5 1#8 6,5 2
Matriz de dadosMatriz de dados Centros de gravidade dos clusters (centróides)Centros de gravidade dos clusters (centróides)
CC
Abscissa do centróide C1 = (1 + 1,5 + 1 + 1,5) / 4 = 1,25Abscissa do centróide C1 = (1 + 1,5 + 1 + 1,5) / 4 = 1,25Ordenada do centróide C1 = (1 + 1,5 + 3 + 3,5) / 4 = 2,25Ordenada do centróide C1 = (1 + 1,5 + 3 + 3,5) / 4 = 2,25
Abscissa do centróide C2 = (5 + 6 + 5,5 + 6,5) / 4 = 5,75Abscissa do centróide C2 = (5 + 6 + 5,5 + 6,5) / 4 = 5,75Ordenada do centróide C2 = (5,5 + 7 + 1 + 2) / 4 = 3,88Ordenada do centróide C2 = (5,5 + 7 + 1 + 2) / 4 = 3,88
O centro de gravidade de um cluster é a média dos seus objetos:O centro de gravidade de um cluster é a média dos seus objetos:
CC22CC11
Inércia inter-cluster medida de separação dos clusters
Contribuição do cluster 1 para a inércia inter-cluster = Contribuição do cluster 1 para a inércia inter-cluster = 4x||C4x||C11 – C|| – C||22
4x[(1,25 - 3,50)4x[(1,25 - 3,50)22 + (2,25 - 3,06) + (2,25 - 3,06)22] = 22,89] = 22,89Contribuição do cluster 2 para a inércia inter-cluster = Contribuição do cluster 2 para a inércia inter-cluster = 4x||C4x||C22 – C|| – C||22
4x[(5,75 - 3,50)4x[(5,75 - 3,50)22 + (3,88 - 3,06) + (3,88 - 3,06)22] = 22,89] = 22,89
Inércia inter-cluster = 22,89 + 22,89 = 45,78Inércia inter-cluster = 22,89 + 22,89 = 45,78
É a soma dos quadrados das É a soma dos quadrados das distâncias dos centróides dos distâncias dos centróides dos clusters ao centro de gravidade da clusters ao centro de gravidade da nuvem de pontos, ponderadas nuvem de pontos, ponderadas pelos respectivos tamanhos dos pelos respectivos tamanhos dos clusters.clusters.
4x||C4x||C11 – C|| – C||22 + 4x||C + 4x||C22 – C|| – C||220
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
CC CC22
CC11
Centro de gravidade abscissa (X) ordenada (Y)cluster 1 (C1) 1,25 2,25cluster 2 (C2) 5,75 3,88nuvem de pontos (C) 3,50 3,06
Inércia intra-clustermedida de heterogeneidade interna dos clusters
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
cluster 1 atributo X atributo Y#1 1 1#2 1,5 1,5#5 1 3#6 1,5 3,5
Centro de gravidade C1 1,25 2,25
CC
Inércia intra-cluster = 4,5 + 25,44 = 29,94Inércia intra-cluster = 4,5 + 25,44 = 29,94
É a soma dos quadrados das É a soma dos quadrados das distâncias dos objetos aos distâncias dos objetos aos centróides dos clusters onde estão centróides dos clusters onde estão alocados.alocados.
CC22
CC11
#1#1#2#2
#5#5#6#6
||#1 - C||#1 - C11||||22 + ||#2 - C + ||#2 - C11||||22+ ||#5 - C+ ||#5 - C11||||2 2 + ||#6 - C+ ||#6 - C11||||22 = 4,5 = 4,5
#3#3#4#4
#7#7 #8#8
||#3 - C||#3 - C22||||22+||#4 - C+||#4 - C22||||22+||#7 - C+||#7 - C22||||2 2 +||#8 - C+||#8 - C22||||22 = 25,44 = 25,44
Contribuição do cluster 1 para a inércia intra-clusterContribuição do cluster 1 para a inércia intra-cluster
Contribuição do cluster 2 para a inércia intra-clusterContribuição do cluster 2 para a inércia intra-clustercluster 2 atributo X atributo Y
#3 5 5,5#4 6 7#7 5,5 1#8 6,5 2
Cntro de gravidade C2 5,75 3,88
Decomposição da inércia
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
CC CC22
CC11
#1#1#2#2
#5#5#6#6
#3#3#4#4
#7#7 #8#8
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
CC CC22
CC11
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
CC
Inércia intra-clusterInércia intra-cluster
Inércia inter-clusterInércia inter-cluster
Inércia totalInércia total
29,9429,94
45,7845,78
75,7275,72
Inércia total =Inércia total =Inércia intra-cluster + Inércia inter-clusterInércia intra-cluster + Inércia inter-cluster
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
Há várias formas de dividir um conjunto em k clusters, a melhor é aquela que produz clusters mais homogêneos
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
Inércia Intra-cluster = 29,94Inércia Inter-cluster = 45,78Inércia Total = 75,72
Inércia Intra-cluster = 52,81Inércia Inter-cluster = 22,91Inércia Total = 75,72
Inércia Intra-cluster = 71,81Inércia Inter-cluster = 3,91Inérica Total = 75,72
Melhor solução Melhor solução com 2 clusterscom 2 clusters
2 clusters2 clusters
2 clusters2 clusters
Quanto menor a Quanto menor a inércia intra-cluster, inércia intra-cluster, mais homogêneos mais homogêneos são os clusters são os clusters formadosformados
Quanto maior a Quanto maior a inércia inter-cluster, inércia inter-cluster, maior é a separação maior é a separação dos clustersdos clusters
A inércia total A inércia total permanece constante e permanece constante e independe da forma independe da forma como os objetos são como os objetos são agrupadosagrupados
Inércias intra e inter variam com o número de clusters (k), porém a soma é constante e independe de k
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
Inércia Intra-cluster = 29,94Inércia Inter-cluster = 45,78Inércia Total = 75,72
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
Inércia Intra-cluster = 7,13Inércia Inter-cluster = 68,59Inércia Total = 75,72
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
Inércia Intra-cluster = 3,13Inércia Inter-cluster = 72,59Inérica Total = 75,72
2 clusters2 clusters
3 clusters3 clusters
4 clusters4 clusters
A inércia intra-cluster A inércia intra-cluster diminui a medida que diminui a medida que aumentamos o nº de aumentamos o nº de clustersclusters
A inércia inter-cluster A inércia inter-cluster aumenta a medida aumenta a medida que aumentamos o que aumentamos o nº de clustersnº de clusters
A inércia total A inércia total permanece constante permanece constante e independe do nº de e independe do nº de clustersclusters
Etapas da análise de agrupamentos
1) Seleção dos objetos a serem agrupados. (no caso da caracterização da carga são as curvas típicas dos dias úteis da amostra de clientes e redes)
2) Definição de um conjunto de variáveis que caracterizam os indivíduos.
(no caso da caracterização da carga são as demandas da curva de carga)
3) Seleção de uma medida de similaridade ou dissimilaridade entre objetos. (em geral é utilizada a distância euclidiana ou o seu quadrado)
4) Seleção de um algoritmo de agregação dos indivíduos. (há uma enorme variedade de métodos com esta finalidade)
5) Definição do nº de clusters ou tipologias.
6) Interpretação e validação dos clusters obtidos.
Métodos de análise de agrupamentos
Métodos não hierárquicos: k-Means , Nuvens dinâmicas
Métodos hierárquicos: métodos de encadeamento (linkage methods) e Método de Ward
Procuram diretamente uma partição de N objetos em um número pré-definido de k clusters que satisfaçam duas premissas básicas: coesão interna e isolamento dos clusters.
O número de agrupamentos deve ser especificado a priori
Métodos não hierárquicos Métodos hierárquicos
Particionam um conjunto com N objetos seqüencialmente em 1,2,3,4 até N clusters, obtendo no final uma estrutura em árvore, semelhante as classificações zoológicas (espécies, gêneros, famílias, ordem, etc.).
K-Means
Divide um conjunto de n objetos em k clusters (k é dado de entrada), de tal forma que a heterogeneidade interna dos clusters seja minimizada.
Dado um conjunto de k centróides, cada objeto xi, i=1,n, é alocado ao cluster com o centróide cj mais próximo.
2
ji cx é o quadrado da distância do objeto xi ao centróide do cluster j
Demanda pontaDemanda pontaDe
ma
nd
a f
ora
de
po
nta
De
ma
nd
a f
ora
de
po
nta
xxi
ccj
2
ji cx Distância Distância entre os dois entre os dois pontospontos
Em cada cluster j, j=1,k, a heterogeneidade interna é avaliada pela seguinte soma de quadrados ou WSS(j):
j clusterx
2
ji
i
cxjWSS
Acumulando ao longo dos k clusters temos a inércia intra-cluster ou WSS:
k
1j j clusterx
2
ji
k
1j i
cxjWSSWSS
K-Means
Logo, para minimizar a heterogeneidade interna dos clusters devemos minimizar a inércia intra-cluster (WSS).
k
1j j clusterx
2
ji
i
cxWSS
Quanto menor WSS(j), menor é a heterogeneidade do j-ésimo cluster.
Dado que o objetivo é dividir o conjunto de n objetos em k clusters tal que a heterogeneidade interna dos clusters seja mínima, devemos identificar os k centróides cj , j=1,k , que minimizem a inércia intra-cluster (WSS).
Menor heterogeneidade Menor heterogeneidade interna dos clustersinterna dos clusters
Menor Inércia Intra-cluster (WSS)Menor Inércia Intra-cluster (WSS)
K-Means
Passo 1 Especifique um conjunto de k centróides iniciais cj , j=1,K (escolhidos ou gerados aleatoriamente com base na amostra).
Passo 2 Percorra a lista de objetos, calcule o quadrado da distância de cada objeto em relação ao centróide de cada cluster e aloque cada objeto ao cluster cujo centróide é o mais próximo.
Passo 3 Calcule o valor da inércia intra-cluster (WSS). Pare se o valor da função objetivo estiver abaixo de uma tolerância ou se a melhoria em relação a iteração anterior for desprezível.
Passo 4 Atualize os centróides calculando a média dos objetos em cada cluster e volte para o passo 2.
Algoritmo do Método K MeansAlgoritmo do Método K Means
jk todo para cxcx2
ki
2
ji objeto i classificado no cluster j se
O algoritmo deve continuar até o momento que não haja realocação de objetos de um cluster para outro
k
1j j clusterx
2
ji
i
cxWSS
K-Means
Lebart, L., Piron, M, Morineau, A. Statistique exploratoire multidimensionnelle, Dunod, 2000 Lebart, L., Piron, M, Morineau, A. Statistique exploratoire multidimensionnelle, Dunod, 2000
K-Means
Objetos Coordenadas
X1 X2
A 5 3
B -1 1
C 1 -2
D -3 -2
-3
-2
-1
0
1
2
3
4
-4 -3 -2 -1 0 1 2 3 4 5 6
X1
X2A
B
CD
ExemploExemplo
Dado o conjunto de 4 objetos (Dado o conjunto de 4 objetos (nn=4), use o algoritmo k-Means =4), use o algoritmo k-Means para identificar 2 clusters (para identificar 2 clusters (kk=2)=2)
K-Means
Centróides iniciais (seleção aleatória)Centróide Coordenadas dos centróides dos clusters
X1 X2
C1 2 2
C2 -1 -2
||A - C1||2 = (5-2)2 + (3-2)2 = 10
||A - C2||2 = (5+1)2 + (3+2)2 =61
||B - C1||2 =(-1-2)2 + (1-2)2 = 10||B - C2||2 =(-1+1)2 + (1+2)2 = 9
A Cluster com centróide C1
ExemploExemplo
Objetos Coordenadas
X1 X2
A 5 3
B -1 1
C 1 -2
D -3 -2
||C - C1||2 =(1-2)2 + (-2-2)2 = 5||C – C2||2 =(1+1)2 + (-2+2)2 = 4
||D - C1||2 =(-3-2)2 + (-2-2)2 = 39||D – C2||2 =(-3+1)2 + (-2+2)2 = 4
B Cluster com centróide C2
C Cluster com centróide C2
D Cluster com centróide C2
Lista de objetos
Alocação dos objetos aos clusters
K-Means
Clusters Coordenadas dos centros de gravidade
X1 X2
A 5 3
BCD -1 -1
-3
-2
-1
0
1
2
3
4
-4 -2 0 2 4 6
X1
X2A
B
CDcentro de gravidade
ExemploExemplo
Atualiza os Atualiza os centróidescentróides
K-Means
-3
-2
-1
0
1
2
3
4
-4 -2 0 2 4 6
X1
X2A
B
CD
ExemploExemplo
||A - C1||2 = (5-5)2 + (3-3)2 = 0
||A - C2||2 = (5+1)2 + (3+1)2 =61
||B - C1||2 =(-1-5)2 + (1-3)2 = 40||B - C2||2 =(-1+1)2 + (1+1)2 = 4
A Cluster com centróide C1
||C - C1||2 =(1-5)2 + (-2-3)2 = 39||C – C2||2 =(1+1)2 + (-2+1)2 = 5
||D - C1||2 =(-3-2)2 + (-2-2)2 = 41||D – C2||2 =(-3+1)2 + (-2+1)2 = 5
B Cluster com centróide C2
C Cluster com centróide C2
D Cluster com centróide C2
Alocação dos objetos aos clusters
C1C1
C2C2
Não houve realocação de objetos, Não houve realocação de objetos, portanto, o algoritmo convergiu e dois portanto, o algoritmo convergiu e dois clusters foram identificados: A e B,C,Dclusters foram identificados: A e B,C,D
K-Means
Vantagens
Tendem a maximizar a dispersão entre os centros de gravidade dos clusters (clusters bem separados).
Simplicidade de cálculo, calcula somente as distâncias entre os objetos e os centros de gravidade dos clusters.
Desvantagens
A solução é dependente dos conjuntos de sementes iniciais, principalmente se a seleção das sementes é aleatória.
Não há garantias de um agrupamento ótimo dos objetos.
Exemplo: definição das metas de continuidade do fornecimento de energia elétrica com o K-Means
Formação dos clusters de conjuntos
semelhantespelo K-Means
Definição das metas de
DEC e FEC em cada cluster
Clusters Metas
Cerca de 6000 conjuntos de unidades consumidoras informados pelos sistema
GESTTOR/ANEEL
A Resolução ANEEL 024/2000: introduziu a análise comparativa (yardstick competition) dos desempenhos dos conjuntos de unidades consumidoras, como meio de definição das metas dos indicadores DEC e FEC.
A idéia é estabelecer metas diferenciadas que reconhecem a diversidade física e econômica das regiões atendidas pelas distribuidoras.
A análise comparativa e a definição das metas de continuidade está implementada no ANABENCH, um sistema computacional desenvolvido pelo CEPEL.
Atributos dos conjuntos: km de rede aérea primária – ERAP área do conjunto – AREA potência instalada – PNI número de consumidores - NUC consumo médio - CMM Isolado ou interligado
PESSANHA, J.F.M., CASTELLANI, V.L.O., HASSIN, E.S., CHEBERLE, LA.D. ANABENCH – Sistema Computacional para Estabelecimento de Metas de Continuidade, XVI Seminário Nacional de Distribuição de Energia Elétrica, Brasília, 2004.
85,8
90,0
91,091,7
92,292,7
93,1
79,5
88,2
75
77,5
80
82,5
85
87,5
90
92,5
95
10 20 30 40 50 60 70 80 90
Número de clusters
SQ
Inte
r %
Inércia Inter-cluster (SQInter) para diferentes níveis de agregaçãoInércia Inter-cluster (SQInter) para diferentes níveis de agregação
A inércia inter-cluster cresce com o nº de clusters.A inércia inter-cluster cresce com o nº de clusters.
Quantos clusters devem ser formados ?Quantos clusters devem ser formados ?
Uma partição em 30 cluster é razoável, pois:Uma partição em 30 cluster é razoável, pois:
• concentra mais de 80% da inércia inter-cluster (SQInter)concentra mais de 80% da inércia inter-cluster (SQInter)
• a partir deste ponto o ganho de SQInter com a adição de a partir deste ponto o ganho de SQInter com a adição de mais clusters torna-se muito pequenomais clusters torna-se muito pequeno
Exemplo: definição das metas de continuidade do fornecimento de energia elétrica com o K-Means
Métodos hierárquicos
Particionam um conjunto com N objetos seqüencialmente em 1,2,3,4 até N clusters, obtendo no final uma estrutura em árvore, semelhante as classificações zoológicas (reino, espécies, gêneros, famílias, ordem, etc.).
Produzem uma série de partições encaixadas: o grupo formado em um determinado passo corresponde a união de grupos formados em passos anteriores.
O resultado é apresentado na forma de uma árvore de classificação conhecidapor dendrograma
Dois tipos de procedimentos hierárquicosde agrupamento: aglomerativo e divisivo
objetosobjetos
dendrogramadendrograma
distânciadistânciaO O
dendograma dendograma mostra a mostra a
sequência de sequência de agregação dos agregação dos
objetosobjetos
Métodos hierárquicos
Aglomerativo (método mais comum) No início cada objeto forma um cluster que sucessivamente sofre uma série de fusões com outros clusters até que no final todos os objetos estejam em um único agrupamento. Um cluster formado em uma dada interação corresponde a união de clusters formados em passos anteriores.
Divisivo No início há apenas um cluster formado pelo conjunto de objetos que é dividido sucessivamente até que no final cada cluster contenha apenas um objeto. Clusters formados em uma dada interação correspondem a fragmentação de um cluster formado no passo anterior.
Exemplo:Considere 5 veículos caracterizados pelos seguintes atributos: n° de portas, autonomia (km/l), preço, cilindrada, conforto, tamanho.
Métodos hierárquicos divisivos
Métodos hierárquicos aglomerativos
Métodos hierárquicos: matriz de distância
Os métodos hierárquicos dependem de uma matriz de distância entre
os objetos.
npnn
p
p
xxx
xxx
xxx
X
21
22221
11211Matriz de dados Objeto 1
Objeto n
Variável 1 Variável p
0
0
0
21
221
112
nn
n
n
dd
dd
dd
D
Matriz de distãncias
Métodos hierárquicos: matriz de distância (Reis, 2001)
Empresasnº de lojas
dimensão média das lojas m2
% da área alimentar no
total das vendas
montante da área almentar no total de
caixa ($ 1000)
Modelo 42 830 95 12.000
Pingo Doce 33 1215 92 11.500
Feira Nova 1 6000 70 18.500
Supa / Jumbo 6 5675 63 21.400
Minipreço 31 288 98 870
Continente 4 885 65 23.100
Com o objetivo de encontrar grupos estratégicos, pretende-se aplicar a análise de agrupamentos a uma amostra de seis grandes empresas comerciais portuguesas, para as quais foram medidas as seguintes dimensões estratégicas:
X1 = nº de lojasX2 = dimensão média das lojas (m)X3 = % da área alimentar no total das vendasX4 = montante da área alimentar no total de caixa ($ 1000)
Matriz de dados
Métodos hierárquicos: matriz de distância (Reis, 2001)
j
jijij s
xxz
Valor padronizado da variável j na i-ésima empresa
Empresasnº de lojas
dimensão média das lojas m2
% da área alimentar no
total das vendas
montante da área almentar no total de caixa ($ 1000)
Modelo 1,26 -0,63 0,90 -0,31
Pingo Doce 0,76 -0,48 0,71 -0,37
Feira Nova -1,04 1,34 -0,65 0,48
Supa / Jumbo -0,76 1,22 -1,08 0,83
Minipreço 0,65 -0,84 1,08 -1,66
Continente -0,87 -0,61 -0,96 1,04
Dados padronizados
Variáveis em escalas diferentes padronização
Métodos hierárquicos: matriz de distância (Reis, 2001)
Empresasnº de lojas (X1)
dimensão média das lojas m2
(X2)
% da área alimentar no
total das vendas (X3)
montante da área almentar no total
de caixa (1000 contos) (X4)
Modelo (1) 1,26 -0,63 0,90 -0,31
Pingo Doce (2) 0,76 -0,48 0,71 -0,37
Feira Nova (3) -1,04 1,34 -0,65 0,48
Supa / Jumbo (4) -0,76 1,22 -1,08 0,83
Minipreço (5) 0,65 -0,84 1,08 -1,66
Continente (6) -0,87 -0,61 -0,96 1,04
3,037,031,071,09,048,063,076,026,1 222212 d
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
0 Feira Nova (3)
0 Supa / Jumbo (4)
0 Minipreço (5)
0 Continente (6)
D =
Métodos hierárquicos: matriz de distância (Reis, 2001)
Empresasnº de lojas (X1)
dimensão média das lojas m2
(X2)
% da área alimentar no
total das vendas (X3)
montante da área almentar no total
de caixa (1000 contos) (X4)
Modelo (1) 1,26 -0,63 0,90 -0,31
Pingo Doce (2) 0,76 -0,48 0,71 -0,37
Feira Nova (3) -1,04 1,34 -0,65 0,48
Supa / Jumbo (4) -0,76 1,22 -1,08 0,83
Minipreço (5) 0,65 -0,84 1,08 -1,66
Continente (6) -0,87 -0,61 -0,96 1,04
2,1248,031,065.09,034,163,004,126,1 222213 d
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 0 Feira Nova (3)
0 Supa / Jumbo (4)
0 Minipreço (5)
0 Continente (6)
D =
Métodos hierárquicos: matriz de distância (Reis, 2001)
Empresasnº de lojas (X1)
dimensão média das lojas m2
(X2)
% da área alimentar no
total das vendas (X3)
montante da área almentar no total
de caixa (1000 contos) (X4)
Modelo (1) 1,26 -0,63 0,90 -0,31
Pingo Doce (2) 0,76 -0,48 0,71 -0,37
Feira Nova (3) -1,04 1,34 -0,65 0,48
Supa/ Jumbo (4) -0,76 1,22 -1,08 0,83
Minipreço (5) 0,65 -0,84 1,08 -1,66
Continente (6) -0,87 -0,61 -0,96 1,04
7,1283,031,008.19,022,163,076,026,1 222214 d
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 0 Feira Nova (3)
12,7 0 Supa / Jumbo (4)
0 Minipreço (5)
0 Continente (6)
D =
Métodos hierárquicos: matriz de distância (Reis, 2001)
Empresasnº de lojas (X1)
dimensão média das lojas m2
(X2)
% da área alimentar no
total das vendas (X3)
montante da área almentar no total de caixa (1000 contos)
(X4)
Modelo (1) 1,26 -0,63 0,90 -0,31
Pingo Doce (2) 0,76 -0,48 0,71 -0,37
Feira Nova (3) -1,04 1,34 -0,65 0,48
Supa/ Jumbo (4) -0,76 1,22 -1,08 0,83
Minipreço (5) 0,65 -0,84 1,08 -1,66
Continente (6) -0,87 -0,61 -0,96 1,04
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 9,2 0 Feira Nova (3)
12,7 9,9 0,4 0 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Métodos hierárquicos aglomerativos
Vários métodos:
Encadeamento Simples ou vizinho mais próximo (Single linkage ou nearest neighbor)
Encadeamento Completo ou vizinho mais longe (Complete linkage ou furthest neighbor)
Encadeamento Médio (Average linkage)
Método de Ward (Ward´s method) MELHOR MÉTODO HIERÁRQUICO
Método do Centróide (Centroid method)
Todos estes métodos partem de uma matriz de distâncias entre os objetos.
Os métodos diferem na maneira de como calculam as distâncias entre os objetos e clusters.
Métodos hierárquicos aglomerativos
ObjetosObjetos
Qual o par de objetos mais Qual o par de objetos mais próximos, ou seja, próximos, ou seja, parecidos?parecidos?
É o par E,F, logo estes É o par E,F, logo estes objetos são os primeiros a objetos são os primeiros a serem agrupadosserem agrupados
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
AABB
CC
DD
EEFF
Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)
Solução inicial Solução inicial com 6 clusters, com 6 clusters, cada um com 1 cada um com 1
objetoobjeto
Métodos hierárquicos aglomerativos
Solução intermediária com 5 clusters.Solução intermediária com 5 clusters.
As distâncias passam a ser calculadas em As distâncias passam a ser calculadas em relação ao cluster e não mais em relação relação ao cluster e não mais em relação aos seus objetosaos seus objetos
Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
AABB
CC
DD
EEFF
Atualiza matriz de distânciasAtualiza matriz de distâncias
Qual o par de objetos mais Qual o par de objetos mais próximos?próximos?
É o par A,B, logo estes É o par A,B, logo estes objetos são os próximos a objetos são os próximos a serem agrupadosserem agrupados
Métodos hierárquicos aglomerativos
Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
AABB
CC
DD
EEFF
Atualiza matriz de distânciasAtualiza matriz de distâncias
Qual o par de objetos mais Qual o par de objetos mais próximos?próximos?
É o par (E,F),D logo estes É o par (E,F),D logo estes objetos são os próximos a objetos são os próximos a serem agrupadosserem agrupados
Solução Solução intermediária com intermediária com
4 clusters4 clusters
Métodos hierárquicos aglomerativos
Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
AABB
CC
DD
EEFF
Atualiza matriz de distânciasAtualiza matriz de distâncias
Qual o par de objetos mais Qual o par de objetos mais próximos?próximos?
É o par (E,F,D),C logo estes É o par (E,F,D),C logo estes objetos são os próximos a objetos são os próximos a serem agrupadosserem agrupados
Solução Solução intermediária com intermediária com
3 clusters3 clusters
Métodos hierárquicos aglomerativos
Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
AABB
CC
DD
EEFF
Atualiza matriz de distânciasAtualiza matriz de distâncias
O próximo passo seria agrupar O próximo passo seria agrupar todos os objetos em um único todos os objetos em um único cluster (solução trivial).cluster (solução trivial).
27,35 é a distância entre os dois 27,35 é a distância entre os dois clustersclusters
Solução Solução intermediária com intermediária com
2 clusters2 clusters
Métodos hierárquicos aglomerativos
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
6 objetos = 6 clusters 5 clusters 4 clusters
1 cluster
Matriz de distâncias 6x6Menor distância = 0,5
Matriz de distâncias 5x5Menor distância = 1
Matriz de distâncias 4x4Menor distância = 2,667
2 clusters
Matriz de distâncias 2x2Menor distância = 27,35
3 clusters
Matriz de distâncias 3x3Menor distância = 3,02
A cada iteração o número de clusters diminui de uma unidade e os novos agrupamentos tornam-se mais heterogêneos internamente.
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
Métodos hierárquicos: dendrograma
A sequência das agregações e as distâncias em que elas ocorrem são descritas no dendrograma, um gráfico útil na definição do número de agrupamentos.
Melhor solução Melhor solução tem 2 clusters:tem 2 clusters:• Cluster ABCluster AB• Cluster CDEFCluster CDEF
Métodos hierárquicos aglomerativos
1) Inicie com N clusters, cada um contendo apenas um objeto e construa a matriz de distâncias de ordem N.
2) Identifique o menor elemento da matriz de distâncias para encontrar o par de clusters mais similares.
3) Reúna os dois clusters identificados na etapa 2 em um único cluster e atualiza a matriz de distâncias, retirando as linhas e colunas relativas aos dois clusters identificados em 2 e incluindo a linha e coluna com as distâncias entre os demais clusters e o novo cluster formado. Note que a ordem da matriz de distâncias diminui de uma unidade a cada vez que a etapa 3 é executada
4) Repita os passos 2 e 3 até que reste apenas um cluster. A cada iteração guarde a identificação dos clusters que foram fundidos e também a distância entre eles, estas informações serão utilizadas na montagem do dendrograma.
AlgoritmoAlgoritmo
Em qualquer estágio, a fusão de dois clusters baseia-se na menor distância individual entre os seus elementos.
Utiliza a distância mínima entre dois objetos para definir a distância entre dois clusters.
Quando os objetos estão pobremente estruturados, o single linkage pode reunir em um cluster elementos bastante diferentes, desde que haja entre eles uma cadeia de outros elementos que sejam semelhantes entre si (efeito de cadeia).
AABB
Exemplo de como a ligação individual Exemplo de como a ligação individual pode agregar pontos distintos A e Bpode agregar pontos distintos A e B
Tende a concentrar a maior parte dos objetos em um pequeno número de clusters e formar muitos clusters com poucos objetos.
Métodos hierárquicos: encadeamento simples (single linkage)
Menor distância = d12 = 0,3 entre Modelo e Pingo Doce
5 clusters
ModeloPingo Doce
Feira Nova
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 9,2 0 Feira Nova (3)
12,7 9,9 0,4 0 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Continente
Supa/Jumbo
Minipreço
1ª iteração
Exemplo encadeamento simples (Reis, 2001)
ModeloPingo Doce
Feira Nova
Continente
Supa/Jumbo
Minipreço
Qual a distância entre Feira Nova e o cluster Modelo/Pingo Doce ?d12,3 = ?
d13 = 12,2
d23 = 9,2
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 9,2 0 Feira Nova (3)
12,7 9,9 0,4 0 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Pelo encademaneto simples = d12,3 = min(12,2 ; 9,2) = 9,2
Atualização da matriz de distâncias
Exemplo encadeamento simples (Reis, 2001)
Atualização
Modelo (1) Pingo Doce (2)Feira Nova
(3)Supa / Jumbo
(4)Minipreço (5) Continente (6)
0 0,3 12,2 12,7 2,3 9,8 Modelo (1)
0,3 0 9,2 9,9 1,9 7,4 Pingo Doce (2)
12,2 9,2 0 0,4 15,2 4,3 Feira Nova (3)
12,7 9,9 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 13,8 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 9,2 9.9 1,9 7,4 Modelo, Pingo Doce (1,2)
9,2 0 0,4 15,2 4,3 Feira Nova (3)
9.9 0,4 0 17,1 3,4 Supa / Jumbo (4)
1,9 15,2 17,1 0 13,8 Minipreço (5)
7,4 4,3 3,4 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento simples (Reis, 2001)
Pingo Doce
Modelo (1,2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço
(5)Continente (6)
0 Modelo, Pingo Doce (1,2)
9,2 0 Feira Nova (3)
9.9 0,4 0 Supa / Jumbo (4)
1,9 15,2 17,1 0 Minipreço (5)
7,4 4,3 3,4 13,8 0 Continente (6)
D =
Menor distância = d34 = 0,4 entre Feira Nova e Supa/Jumbo
4 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
2ª iteração
Exemplo encadeamento simples (Reis, 2001)
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
Pingo Doce
Modelo (1,2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço
(5)Continente (6)
0 Modelo, Pingo Doce (1,2)
9,2 0 Feira Nova (3)
9.9 0,4 0 Supa / Jumbo (4)
1,9 15,2 17,1 0 Minipreço (5)
7,4 4,3 3,4 13,8 0 Continente (6)
D =
d12,3 = 9,2
d12,4=9,9
Qual a distância entre os clusters Feira Nova/Supa/Jumbo e Modelo/Pingo Doce ?d12,34 = ?
Pelo encademaneto simples = d12,34 = min(9,2 ; 9,9) = 9,2
Atualização da matriz de distâncias
Exemplo encadeamento simples (Reis, 2001)
Atualização
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 9,2 9.9 1,9 7,4 Modelo, Pingo Doce (1,2)
9,2 0 0,4 15,2 4,3 Feira Nova (3)
9.9 0,4 0 17,1 3,4 Supa / Jumbo (4)
1,9 15,2 17,1 0 13,8 Minipreço (5)
7,4 4,3 3,4 13,8 0 Continente (6)
D =
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente (6)
0 9,2 1,9 7,4 Modelo, Pingo Doce (1,2)
9,2 0 15,2 3,4 Feira Nova, Supa/Jumbo (3,4)
1,9 15,2 0 13,8 Minipreço (5)
7,4 3,4 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento simples (Reis, 2001)
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente
(6)
0 Modelo, Pingo Doce (1,2)
9,2 0 Feira Nova, Supa/Jumbo (3,4)
1,9 15,2 0 Minipreço (5)
7,4 3,4 13,8 0 Continente (6)
D =
Menor distância = d12,5 = 1,9 entre Minipreço e o cluster Modelo/Pingo Doce
3 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
3ª iteração
Exemplo encadeamento simples (Reis, 2001)
Atualização
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente (6)
0 9,2 1,9 7,4 Modelo, Pingo Doce (1,2)
9,2 0 15,2 3,4 Feira Nova, Supa/Jumbo (3,4)
1,9 15,2 0 13,8 Minipreço (5)
7,4 3,4 13,8 0 Continente (6)
D =
Minipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 9,2 7,4 Modelo, Pingo Doce, Minipreço (1,2,5)
9,2 0 3,4 Feira Nova, Supa/Jumbo (3,4)
7,4 3,4 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento simples (Reis, 2001)
Minipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 Modelo, Pingo Doce, Minipreço (1,2,5)
9,2 0 Feira Nova, Supa/Jumbo (3,4)
7,4 3,4 0 Continente (6)
D =
Menor distância = d34,6 = 3,4 entre Continente e o cluster Feira Nova/Supa/Jumbo
2 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
4ª iteração
Exemplo encadeamento simples (Reis, 2001)
Atualização
Minipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 9,2 7,4 Modelo, Pingo Doce, Minipreço (1,2,5)
9,2 0 3,4 Feira Nova, Supa/Jumbo (3,4)
7,4 3,4 0 Continente (6)
D =
Minipreço Continente
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4,6)
0 7,4 Modelo, Pingo Doce, Minipreço (1,2,5)
7,4 0 Feira Nova, Supa/Jumbo, Continente (3,4,6)D =
Atualização da matriz de distâncias
Exemplo encadeamento simples (Reis, 2001)
Passo Distâncias Nº de clusters Clusters
1 d1.2 = 0,3 5 12 / 3 / 4 / 5 / 6
2 d3,4 = 0,4 4 12 / 34 / 5 / 6
3 d12,,5 = 1,9 3 125 / 34 / 6
4 d34,,6 = 3,4 2 125 / 346
5 d125,,346 = 7,4 1 123456
Processo de agrupamento das seis empresas segundo o critério do encadeamento simples
Exemplo encadeamento simples (Reis, 2001)
A distância entre dois clusters é definida pela maior distância entre dois objetos, um em cada cluster.
Elimina a possibilidade do efeito de encadeamento.
MaisMais próximpróximoo Ligação Ligação
IndividualIndividualLigação Ligação CompletaCompleta
Mais Mais LongLongee
Métodos hierárquicos: encadeamento completo (complete linkage)
Menor distância = d12 = 0,3 entre Modelo e Pingo Doce
5 clusters
ModeloPingo Doce
Feira Nova
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 9,2 0 Feira Nova (3)
12,7 9,9 0,4 0 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Continente
Supa/Jumbo
Minipreço
1ª iteração
Exemplo encadeamento completo (Reis, 2001)
ModeloPingo Doce
Feira Nova
Continente
Supa/Jumbo
Minipreço
Qual a distância entre Feira Nova e o cluster Modelo/Pingo Doce ?d12,3 = ?
d13 = 12,2
d23 = 9,2
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 9,2 0 Feira Nova (3)
12,7 9,9 0,4 0 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Pelo encadeamento completo = d12,3 = max(12,2 ; 9,2) = 12,2
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Atualização
Modelo (1) Pingo Doce (2)Feira Nova
(3)Supa / Jumbo
(4)Minipreço (5) Continente (6)
0 0,3 12,2 12,7 2,3 9,8 Modelo (1)
0,3 0 9,2 9,9 1,9 7,4 Pingo Doce (2)
12,2 9,2 0 0,4 15,2 4,3 Feira Nova (3)
12,7 9,9 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 13,8 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 12,2 12,7 2,3 9,8 Modelo, Pingo Doce (1,2)
12,2 0 0,4 15,2 4,3 Feira Nova (3)
12,7 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,3 15,2 17,1 0 13,8 Minipreço (5)
9,8 4,3 3,4 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo, Pingo Doce (1,2)
12,2 0 Feira Nova (3)
12,7 0,4 0 Supa / Jumbo (4)
2,3 15,2 17,1 0 Minipreço (5)
9,8 4,3 3,4 13,8 0 Continente (6)
D =
Menor distância = d34 = 0,4 entre Feira Nova e Supa/Jumbo
4 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
2ª iteração
Exemplo encadeamento completo (Reis, 2001)
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
d12,3 = 12,2
d12,4=12,7
Qual a distância entre os clusters Feira Nova/Supa/Jumbo e Modelo/Pingo Doce ?d12,34 = ?
Pelo encadeamento completo = d12,34 = max(12,2 ; 12,7) = 12,7
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo, Pingo Doce (1,2)
12,2 0 Feira Nova (3)
12,7 0,4 0 Supa / Jumbo (4)
2,3 15,2 17,1 0 Minipreço (5)
9,8 4,3 3,4 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Atualização
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 12,2 12,7 2,3 9,8 Modelo, Pingo Doce (1,2)
12,2 0 0,4 15,2 4,3 Feira Nova (3)
12,7 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,3 15,2 17,1 0 13,8 Minipreço (5)
9,8 4,3 3,4 13,8 0 Continente (6)
D =
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente (6)
0 12,7 2,3 9,8 Modelo, Pingo Doce (1,2)
12,7 0 17,1 4,3 Feira Nova, Supa/Jumbo (3,4)
2,3 17,1 0 13,8 Minipreço (5)
9,8 4,3 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente (6)
0 Modelo, Pingo Doce (1,2)
12,7 0 Feira Nova, Supa/Jumbo (3,4)
2,3 17,1 0 Minipreço (5)
9,8 4,3 13,8 0 Continente (6)
D =
Menor distância = d12,5 = 2,3 entre Minipreço e o cluster Modelo/Pingo Doce
3 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
3ª iteração
Exemplo encadeamento completo (Reis, 2001)
AtualizaçãoMinipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 17,1 13,8 Modelo, Pingo Doce, Minipreço (1,2,5)
17,1 0 4,3 Feira Nova, Supa/Jumbo (3,4)
13,8 4,3 0 Continente (6)
D =
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente (6)
0 12,7 2,3 9,8 Modelo, Pingo Doce (1,2)
12,7 0 17,1 4,3 Feira Nova, Supa/Jumbo (3,4)
2,3 17,1 0 13,8 Minipreço (5)
9,8 4,3 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Minipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 17,1 13,8 Modelo, Pingo Doce, Minipreço (1,2,5)
17,1 0 4,3 Feira Nova, Supa/Jumbo (3,4)
13,8 4,3 0 Continente (6)
D =
Menor distância = d34,6 = 3,4 entre Continente e o cluster Feira Nova/Supa/Jumbo
2 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
4ª iteração
Exemplo encadeamento completo (Reis, 2001)
Minipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 17,1 13,8 Modelo, Pingo Doce, Minipreço (1,2,5)
17,1 0 4,3 Feira Nova, Supa/Jumbo (3,4)
13,8 4,3 0 Continente (6)
D =
Minipreço Continente
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4,6)
0 17,1 Modelo, Pingo Doce, Minipreço (1,2,5)
17,1 0 Feira Nova, Supa/Jumbo, Continente (3,4,6)D =
Atualização
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Passo Distâncias Nº de clusters Clusters
1 d1.2 = 0,3 5 12 / 3 / 4 / 5 / 6
2 d3,4 = 0,4 4 12 / 34 / 5 / 6
3 d12,,5 = 2,3 3 125 / 34 / 6
4 d34,,6 = 4,3 2 125 / 346
5 d125,,346 =17,1 1 123456
Processo de agrupamento das seis empresas segundo o critério do encadeamento completo
Exemplo encadeamento completo (Reis, 2001)
A distância entre dois clusters é definida como a média das distância entre os elementos dos dois grupos.
Tende a enviesar em direção à produção de grupos com aproximadamente a mesma variância
Métodos hierárquicos: encadeamento médio (average linkage)
Menor distância = d12 = 0,3 entre Modelo e Pingo Doce
5 clusters
ModeloPingo Doce
Feira Nova
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 9,2 0 Feira Nova (3)
12,7 9,9 0,4 0 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Continente
Supa/Jumbo
Minipreço
1ª iteração
Exemplo encadeamento médio (Reis, 2001)
ModeloPingo Doce
Feira Nova
Continente
Supa/Jumbo
Minipreço
Qual a distância entre Feira Nova e o cluster Modelo/Pingo Doce ?d12,3 = ?
d13 = 12,2
d23 = 9,2
Modelo (1)Pingo Doce
(2)Feira Nova
(3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 Modelo (1)
0,3 0 Pingo Doce (2)
12,2 9,2 0 Feira Nova (3)
12,7 9,9 0,4 0 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Pelo encadeamento médio = d12,3 = média(12,2 ; 9,2) = 10,7
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Atualização
Modelo (1) Pingo Doce (2)Feira Nova
(3)Supa / Jumbo
(4)Minipreço (5) Continente (6)
0 0,3 12,2 12,7 2,3 9,8 Modelo (1)
0,3 0 9,2 9,9 1,9 7,4 Pingo Doce (2)
12,2 9,2 0 0,4 15,2 4,3 Feira Nova (3)
12,7 9,9 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,3 1,9 15,2 17,1 0 13,8 Minipreço (5)
9,8 7,4 4,3 3,4 13,8 0 Continente (6)
D =
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 10,7 11,3 2,1 8,6 Modelo, Pingo Doce (1,2)
10,7 0 0,4 15,2 4,3 Feira Nova (3)
11,3 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,1 15,2 17,1 0 13,8 Minipreço (5)
8,6 4,3 3,4 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Menor distância = d34 = 0,4 entre Feira Nova e Supa/Jumbo
4 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 10,7 11,3 2,1 8,6 Modelo, Pingo Doce (1,2)
10,7 0 0,4 15,2 4,3 Feira Nova (3)
11,3 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,1 15,2 17,1 0 13,8 Minipreço (5)
8,6 4,3 3,4 13,8 0 Continente (6)
D =
2ª iteração
Exemplo encadeamento completo (Reis, 2001)
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
d12,3 = 10,7
d12,4=11,3
Qual a distância entre os clusters Feira Nova/Supa/Jumbo e Modelo/Pingo Doce ?d12,34 = ? Pelo encadeamento médio = d12,34 = média(10,7 ; 11,3) = 11
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 10,7 11,3 2,1 8,6 Modelo, Pingo Doce (1,2)
10,7 0 0,4 15,2 4,3 Feira Nova (3)
11,3 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,1 15,2 17,1 0 13,8 Minipreço (5)
8,6 4,3 3,4 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Atualização
Pingo Doce
Modelo (1,2) Feira Nova (3)Supa /
Jumbo (4)Minipreço (5) Continente (6)
0 10,7 11,3 2,1 8,6 Modelo, Pingo Doce (1,2)
10,7 0 0,4 15,2 4,3 Feira Nova (3)
11,3 0,4 0 17,1 3,4 Supa / Jumbo (4)
2,1 15,2 17,1 0 13,8 Minipreço (5)
8,6 4,3 3,4 13,8 0 Continente (6)
D =
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente (6)
0 11 2,1 8,6 Modelo, Pingo Doce (1,2)
11 0 16,15 3,85 Feira Nova, Supa/Jumbo (3,4)
2,1 16,15 0 13,8 Minipreço (5)
8,6 3,85 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Menor distância = d12,5 = 2,1 entre Minipreço e o cluster Modelo/Pingo Doce
3 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente (6)
0 11 2,1 8,6 Modelo, Pingo Doce (1,2)
11 0 16,15 3,85 Feira Nova, Supa/Jumbo (3,4)
2,1 16,15 0 13,8 Minipreço (5)
8,6 3,85 13,8 0 Continente (6)
D =
3ª iteração
Exemplo encadeamento completo (Reis, 2001)
AtualizaçãoMinipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 12,7 10,3 Modelo, Pingo Doce, Minipreço (1,2,5)
12,7 0 3,85 Feira Nova, Supa/Jumbo (3,4)
10,3 3,85 0 Continente (6)
D =
Pingo Doce Supa / Jumbo
Modelo (1,2)Feira Nova
(3,4)Minipreço
(5)Continente (6)
0 11 2,1 8,6 Modelo, Pingo Doce (1,2)
11 0 16,15 3,85 Feira Nova, Supa/Jumbo (3,4)
2,1 16,15 0 13,8 Minipreço (5)
8,6 3,85 13,8 0 Continente (6)
D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Menor distância = d34,6 = 3,85 entre Continente e o cluster Feira Nova/Supa/Jumbo
2 clusters
ModeloPingo Doce
Continente
Feira Nova
Supa/Jumbo
Minipreço
Minipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 12,7 10,3 Modelo, Pingo Doce, Minipreço (1,2,5)
12,7 0 3,85 Feira Nova, Supa/Jumbo (3,4)
10,3 3,85 0 Continente (6)
D =
4ª iteração
Exemplo encadeamento completo (Reis, 2001)
Atualização
Minipreço
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4)
Continente (6)
0 12,7 10,3 Modelo, Pingo Doce, Minipreço (1,2,5)
12,7 0 3,85 Feira Nova, Supa/Jumbo (3,4)
10,3 3,85 0 Continente (6)
D =
Minipreço Continente
Pingo Doce Supa / JumboModelo (1,2,5)
Feira Nova (3,4,6)
0 11.5 Modelo, Pingo Doce, Minipreço (1,2,5)
11.5 0 Feira Nova, Supa/Jumbo, Continente (3,4,6)D =
Atualização da matriz de distâncias
Exemplo encadeamento completo (Reis, 2001)
Passo Distâncias Nº de clusters Clusters
1 d1.2 = 0,3 5 12 / 3 / 4 / 5 / 6
2 d3,4 = 0,4 4 12 / 34 / 5 / 6
3 d12,,5 = 2,1 3 125 / 34 / 6
4 d34,,6 = 3,85 2 125 / 346
5 d125,,346 =11.5 1 123456
Processo de agrupamento das seis empresas segundo o critério do encadeamento médio
Exemplo encadeamento completo (Reis, 2001)
Métodos hierárquicos: Método de Ward
A cada iteração de um método hierárquico aglomerativo o número de clusters diminui de uma unidade.
Os novos agrupamentos formados agregam mais elementos diferentes e por isso tornam-se mais heterogêneos internamente
Durante a aglomeração dos clusters, a perda de qualidade da partição é inexorável.
O método de Ward atenua este efeito do processo de aglomeração, minimizando, a cada iteração, o incremento na heterogeneidade interna dos clusters.
Métodos hierárquicos: Método de Ward
Inicialmente, cada cluster é composto por apenas um objeto (N clusters).a inércia intra-cluster é nula e a inércia inter-cluster é igual a inércia total.
No final do processo de aglomeração, todos os objetos são agrupados em um único cluster. a inércia inter-cluster é nula e a inércia intra-cluster é igual a inércia total.
A cada iteração, a fusão de dois clusters transfere uma parcela da inércia inter-cluster para a inércia intra-cluster, aumentando a heterogeneidade interna dos agrupamentos, deteriorando a qualidade da partição:
O método de Ward agrupa os dois cluster que minimizam esta parcela .
2
,2
, jijjii GGjGGi dndn
Parcela resultante da agregação dos cluster i e jGij é o centro de gravidade da fusão dos clusters i e j
Inércia intra-cluster Inércia inter-clusterInércia intra-cluster Inércia inter-cluster
Métodos hierárquicos: Método de Ward
Para minimizar o incremento da inércia intra cluster a cada interação, o método de Ward trabalha com a seguinte métrica na matriz de distâncias.
ni = nº de elementos do cluster inj = nº de elementos do cluster jGi = centro de gravidade do cluster iGj = centro de gravidade do cluster jd2(Gi,Gj) = quadrado da distância euclidiana entre Gi e Gj
jiji
jiij GGd
nn
nnd ,2
DadosMatriz de distâncias
25,95,415,3111
11, 222
CACA
CAAC GGd
nn
nnd
Exemplo
Métodos hierárquicos: Método de Ward
Matriz de distâncias
167,241515,512
12, 222
,
AEFAEF
AEFAEF GGd
nn
nnd
Exemplo: 1ª iteração
Menor distância entre E e FForme cluster EFCentro de gravidade do cluster EF
Atualiza matriz
5;5,52
;2
FEFE
EF
yyxxG
Métodos hierárquicos: Método de Ward
Matriz de distâncias
250,285,155,15,522
22, 222
,
ABEFABEF
ABEFABEF GGd
nn
nnd
Exemplo: 2ª iteração
Menor distância entre A e BForme cluster ABCentro de gravidade do cluster AB
Atualiza matriz
5,1;5,12
;2
BABA
AB
yyxxG
Métodos hierárquicos: Método de Ward
Matriz de distâncias
02,35,433,45,35,513
13, 222
,
CEFDCEFD
CEFDCEFD GGd
nn
nnd
Exemplo: 3ª iteração
Menor distância entre EF e DForme cluster EFDCentro de gravidade do cluster EFD
Atualiza matriz
33,4;5,53
;3
DFEDFE
EFD
yyyxxxG
Métodos hierárquicos: Método de Ward
Matriz de distâncias
35,275,1375,45,1524
24, 222
,
ABEFDCABEFDC
ABEFDCABEFDC GGd
nn
nnd
Exemplo: 4ª iteração
Menor distância entre EFD e CForme cluster EFDCCentro de gravidade do cluster EFDC
Atualiza matriz
375,4;54
;4
CDFECDFE
EFDC
yyyyxxxxG
Métodos hierárquicos: Método de Ward
Vantagens:Vantagens: Rápidos e exigem menos tempo de processamento.
Apresentam resultados para diferentes níveis de agregação.
Desvantagens:Desvantagens: A alocação de um objeto em um cluster é irrevogável, ou seja, uma vez o objeto incluído em um cluster, ele nunca será removido e ligado a outro agrupamento. Combinações anteriores indesejáveis persistem no decorrer da análise e levam a resultados artificiais. Não existe a possibilidade de realocação de objetos que possam ter sido incorretamente agrupados nos estágios anteiores.
Impacto substancial dos outliers.
Não são apropriados para analisar uma amostra muita extensa, pois a medida que o tamanho da amostra aumenta, a necessidade de armazenamento da matris de distâncias cresce drasticamente.
Métodos hierárquicos
Métodos Hierárquicos são preferidos quando: Serão analisadas varias alternativas de agrupamento. O tamanho da amostra é moderado ( de 300 a 1000 objetos )
Métodos não-hierárquicos são preferidos quando: O número de grupos é conhecido. Presença dos outliers, desde que os métodos não-hierárquicos são
menos influenciados por outliers. Há um grande nº de objetos a serem agrupados.
Métodos hierárquicos x Métodos não hierárquicos
Método nãoHierárquico
dados
MétodoHierárquico
clusters
Perfis médios em cada clusters
MétodoHierárquico
dados
Método nãoHierárquico
clusters
Estabelece o nº de clusters e os centróides iniciais (perfis médios em cada cluster)
Aproveita as vantagens dos métodos hierárquicos e não hierárquicos.
Uso combinado de métodos hierárquico e não hierárquico
Quantos clusters devem ser formados ?
Não há um procedimento padrão e objetivo para determinar o “correto” número de agrupamentos.
1) O exame do dendrograma em busca de grandes alterações dos níveis de similaridade para as sucessivas fusões (só é possível nos métodos hierárquicos).
2) Análise gráfica das tipologias
3) Selecionar o número de clusters com base em um critério “a priori”, avaliação prática, senso comum e fundamentos teóricos. Por exemplo, o programa de revisão tarifária (PRT -1994) recomendava 8 tipologias
4) Escolher o menor número de clusters que satisfaça a desigualdade: inércia inter / inércia total 0,7
5) Escolher o número de cluster que minimize o coeficiente de compacidade e separação (CS)
BRASIL, Ministério das Minas e Energia, Secretaria de Energia, DNAEE; Programa de Revisão Tarifária - PRT, Projeto 1 - Caracterização da Carga, Dezembro de 1994.
2_2__min_º centróidesentredistânciaobjetosdenSQIntraCS
Análise de agrupamentos no SPSSAnálise de agrupamentos no SPSS
Exemplo: (Fávero et al, 2009)Exemplo: (Fávero et al, 2009)
Imagine que um analista de mercado está interessado em Imagine que um analista de mercado está interessado em segmentar um conjunto de empresas que atuam no setor de segmentar um conjunto de empresas que atuam no setor de siderúrgia e metalurgia, com base em informações siderúrgia e metalurgia, com base em informações financeiras publicadas.financeiras publicadas.
Foram selecionadas 25 empresas que atuam nestes setores.Foram selecionadas 25 empresas que atuam nestes setores.
Os dados foram obtidos na revista exame – Melhores e Os dados foram obtidos na revista exame – Melhores e Maiores de 2005.Maiores de 2005.
Foram escolhidos quatro indicadores: Faturamento (US$ Foram escolhidos quatro indicadores: Faturamento (US$ milhões), Rentabilidade do patrimônio líquido (%), milhões), Rentabilidade do patrimônio líquido (%), Endividamento geral da empresa (%) e número de Endividamento geral da empresa (%) e número de empregados.empregados.
Base de dadosBase de dados
Métodos hierárquicosMétodos hierárquicos
Escolha a opção Analyze/Classify/Hierarchical clusterEscolha a opção Analyze/Classify/Hierarchical cluster
Selecione as variáveisSelecione as variáveis
Selecione as outras opçõesSelecione as outras opções
ResultadosResultados
Um critério para Um critério para identificação do número identificação do número de clusters:de clusters:
Maior diferença (salto).Maior diferença (salto).O estágio anterior ao O estágio anterior ao salto indica o ponto de salto indica o ponto de parada para novos parada para novos agrupamentos.agrupamentos.No caso a maior No caso a maior diferença está entre 23 e diferença está entre 23 e 24, o que sugere a 24, o que sugere a escolha de dois clustersescolha de dois clusters
ResultadosResultados
ResultadosResultados
cluster membership com soluções de 3 clusters salvos na planilha com
dados originais:variáveis clu3_1
clu i_ j = cluster membership na solução com i clusters na j-ésima execução de algum método hierárquico
K-MeansK-Means
Escolha a opção Analyze/Classify/K-Means Escolha a opção Analyze/Classify/K-Means
Selecione as variáveisSelecione as variáveis
Selecione as variáveisSelecione as variáveis
ResultadosResultados
ResultadosResultados
As variáveis faturamento e empregados foram as que mais As variáveis faturamento e empregados foram as que mais discriminaram os gruposdiscriminaram os grupos
ResultadosResultados
cluster membership com soluções de 3 clusters salvos na
planilha com dados originais:
variáveis qcl_1
qcl i_ j = cluster membership na solução com i clusters na j-ésima execução de algum método hierárquico
Bibliografia
CORRAR, L.J.; PAULO, E.; DIAS FILHO, J.M. (coordenadores) Análise Multivariada para os cursos de administração, ciências contábeis e esconomia, Editora Atlas, São Paulo, 2007.
FÁVERO, L.P.; BELFIORE, P.; SILVA, F.L.; CHAN, B.L. Análise de dados: modelagem multivariada para tomada de decisões, Campus, Rio de Janeiro, 2009.
HAIR, J.F.; ANDERSON, R.E.; TATHAM R.L.; BLACK W.O. Análise Multivariada de Dados, Bookman, 2005.
JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 5th edition, Prentice Hall, New Jersey, 2002.
LEBART, L.; MORINEAU, A.; PIRON, M. Statistique Exploratoira Multidimensionnelle, 3e édition, Dunod, Paris, 2004.
MINGOTI, S.A. Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada, Editora UFMG, Belo Horizonte, 2005.
REIS, E. Estatística multivariada aplicada, 2ª edição, Edições Sílabo, Lisboa, 2001.