Analise de Clusters

41
Análise de Dados MEE, MEGI e MGRH ISLA 5. Análise de Clusters Ana Oliveira-Brochado Outubro 2011 1 Análise de Dados Análise de Dados 5. Análise de 5. Análise de clusters clusters 1. Segmentação de mercado 1.1. Conceito 1.2. Bases de segmentação 1.3. Métodos de classificação 2. Análise de clusters 2.1. Notas introdutórias 2.2. Métodos hierárquicos 2.3. Métodos não hierárquicos 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis 1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Transcript of Analise de Clusters

Page 1: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 1

Análise de DadosAnálise de Dados

5. Análise de 5. Análise de clustersclusters

1. Segmentação de mercado1.1. Conceito

1.2. Bases de segmentação

1.3. Métodos de classificação

2. Análise de clusters2.1. Notas introdutórias

2.2. Métodos hierárquicos

2.3. Métodos não hierárquicos

3. Casos3.1. Classificação de entidades

3.2. Classificação de variáveis

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 2: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 2

Segmentação de mercado...Segmentação de mercado...

• ‘”consists of viewing a heterogeneous market (one characterized by divergent demand) as a number of smaller homogeneous markets in response to differing product preferences among important market segments”

• “it is attributable to the desires of consumers or users for more precise satisfaction of their varying wants”

Smith, 1956

Smith, Wendell R. (1956). “Product Differentiation and Market Segmentation as Alternative Marketing Strategies”. The Journal of Marketing, Vol. XXI (1): 3-8.

1

1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos

Segmentação de mercado...Segmentação de mercado...• ‘a theoretical marketing concept partitioning a

market with heterogeneous demand into sub markets with homogeneous demand, with the propose of a more precise adjustment of brands, products, or services to consumer needs, to determine the potentially most profitable allocation of marketing efforts’.

Wedel e Kamakura, 2000

• ‘dividing the market into distinct groups of buyers with different needs, characteristics or behavior, who might require separate products or marketing mixes’.

Kotler,Amstrong, Saunders e Wong 2002

1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos

Page 3: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 3

Segmentação de MercadoSegmentação de Mercado

Bases de

Segmentação

Métodos de

Classificação

1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos

Bases de SegmentaçãoBases de Segmentação

•Natureza da variável

•Gerais •Específicas do produto

•Observáveis•Variáveis geográficas, demográficas e socioeconómicas

Ocasiões de uso, estatuto de uso, fidelidade (à loja, à marca), processo de difusão e processamento de informação

•Não observáveis

•Variáveis psicográficas, valores, personalidade e estilo de vida

Benefícios, percepções, elasticidades, preferências, intenções, psicográficas (específicas do produto)

1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos

Page 4: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 4

Métodos de ClassificaçãoMétodos de Classificação

À priori Post hoc

DescritivosTabelas cruzadas, modelos log-lineares

Métodos de classificação: métodos não sobrepostos, métodos sobrepostos e

métodos difusos; modelos mistura; redes neuronais

PreditivosRegressão, modelos logit/probit e análise

discriminante

AID, CART, clusterwise regression, redes

neuronais; modelos mistura de regressão; análise conjunta; modelos

hierárquicos bayesianos

1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos

• As técnicas numéricas para a derivação de classificaçõessão originárias das ciências naturais (início do século XX),nomeadamente a zoologia e biologia, desenvolvidas com opropósito de fornecer uma taxonomia de espécies animaise plantas. Na segunda metade do século XX assistiu-se aum acréscimo exponencial nos métodos de classificaçãodivulgados na literatura especializada, fenómeno suportadopela melhoria dos meios de cálculo automático disponíveis.Paralelamente, verificou-se uma expansão similar nas suasáreas de aplicação, sendo hoje abordagens populares emvários campos do conhecimento científico. Diferente, e porvezes conflituosa, é a terminologia empregue nasdiferentes disciplinas: Numerical Taxonomy, na Biologia, QAnalysis, na Psicologia, Unsupervised Pattern Recognition,na Inteligência Artificial, sendo os termos Clumping eGrouping também usados ocasionalmente. No entanto, otermo genérico mais comum na literatura anglosaxónica éCluster Analysis.

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 5: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 5

Análise de ClustersAnálise de Clusters

• Dado um conjunto de N objectos, caracterizados por um conjunto de K variáveis, derivar uma partição num número de grupos ou segmentos que sejam internamente homogéneos e externamente heterogéneos.

• Procedimento multivariado para a detecção de grupos homogéneos nos dados, podendo esses grupos ser constituídos por variáveis ou casos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Objectivos da Análise de Objectivos da Análise de ClustersClusters

• Formação e descrição de taxonomias – i.e.

classifcação de objectos

• Simplificação dos dados

– Agrupamento das observações ou variáveis

• Identificação de relações

– Estudo de relações entre os casos

– Estudo de relações entre variáveis

– Estudo das relações entre os grupos formados e

outras variáveis de interesse

Page 6: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 6

Métodos de Análise de ClustersMétodos de Análise de Clusters

Sobreposto Não Sobreposto Difuso

Métodos de Agrupamento

( )

=

=−

∑=

*kp

0p1pS

1sns

nsns( )

=

=−

∑=

S

1sns

nsns

1p

0p1p

≤≤

=∑=

1p0

1p

ns

S

1sns

* K (inteiro) define o grau de sobreposição (nº de grupos a que um objecto pode pertencer simultaneamente).

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Agrupamento não sobreposto Agrupamento sobreposto Agrupamento difuso

1 2 3 1 2 3 1 2 31 1 0 0 1 0 1 1 1 0.1 0.1 0.82 0 0 1 2 1 1 0 2 0.6 0.4 0.03 0 1 0 3 0 1 0 3 0.2 0.3 0.54 1 0 0 4 1 0 1 4 0.2 0.2 0.6

ObjectoGrupoGrupo

Objecto ObjectoGrupo

Estrutura da matriz de partição

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 7: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 7

FORMAS DOS GRUPOS

Análise de Clusters Análise de Clusters -- FasesFases

• Selecção dos objectos (amostra ou censo);

• Definição de um conjunto de variáveis a partirdas quais será obtida a informação necessáriapara o agrupamento dos objectos;

• Escolha de um método de agrupamento;

• Validação dos resultados e interpretação dasolução.

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 8: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 8

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 9: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 9

Métodos de agrupamento não sobrepostoMétodos de agrupamento não sobreposto

• Métodos Hierárquicos ‘Hierarchical Cluster’– Métodos Aglomerativos

– Métodos Divisivos

• Métodos Não Hierárquicos ‘K-means Cluster’

• Métodos bi-etápicos ‘Two Step Cluster’

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

SPSSSPSS

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 10: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 10

MÉTODOS MÉTODOS HIERÁRQUICOSHIERÁRQUICOS

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Notas GeraisNotas Gerais

• Dados– Variáveis métricas

– Variáveis binárias

– Count data

• Pressupostos– As medidas de distância ou semelhança são adequadas

para os dados em análise

– Todas as variáveis relevantes são incluídas na análise

• Os métodos hierárquicos aplicam-se no agrupamento de casos e de variáveis

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 11: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 11

Medidas de semelhança e de Medidas de semelhança e de distânciadistância

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Medidas de proximidade

Medidas de proximidade

• Os conceitos de semelhança e de dissemelhança (proximidades)estão na base do processo de construção de clusters.

• Dois objectos pertencem ao mesmo clusters se são semelhantes e pertencem a clusters diferentes se são dissemelhantes.– A dissemelhança reflecte o grau de diferença, afastamento ou divergência entre dois objectos; quanto mais distintos forem os objectos maior é a dissemelhança entre eles.

– A semelhança mede o grau de parecença ou proximidade entre dois objectos; quanto mais parecidos dois objectos maior é a semelhança entre eles.

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 12: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 12

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13

n 1 0 1 1 1 0 1 1 1 1 0 1 0

m 1 1 0 0 1 0 1 1 0 1 1 0 0

1 0 1 0

objecto m 1 5 2 objecto m 1 a b

0 4 2 0 c d

objecto n objecto n

( )1 213

2nm

n=1

nm

nm

. Euclidiana = 2,45

5. de Jaccard s 0,45

5 4 2a+d 5 2

. de Cocordância Simples s = 0,7a+b+c+d 5 4 2 2

nk mkDist x x

aCoef

a b c

Coef

− =

= = =+ + + +

+= =

+ + +

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 13: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 13

Coeficiente Descrição

Coeficiente de correlação de Pearson

( )( )

( ) ( )∑

=

=

−−

−−

K

1k

2mmk

2nnk

K

1kmmknnk

xxxx

xxxx

Medida de semelhança de fácil interpretação geométrica, insensível às diferenças de escala das variáveis (já que impõe a sua normalização) e muito sensível aos perfis dos dois objectos e ao paralelismo desses perfis.

Distância Euclideana

( )∑=

−=K

1k

2mknknm xxd

A distância entre dois casos é a raiz quadrada do somatório dos quadrados das diferenças entre valores de n e m para todas as variáveis.

Distância Euclideana ao quadrado

( )∑=

−=K

1k

2mknknm xxd

A distância entre dois casos é definida como o somatório dos quadrados das diferenças entre os valores das K variáveis para esses casos.

Distância City block ∑

=

−=K

1kmknknm xxd

A distância entre dois elementos é a soma dos valores absolutos das diferenças entre os valores das K variáveis para os dois casos.

Distância de Chebishev

mknkk

nm xxmaxd −= A distância entre dois casos é o valor máximo para todas as variáveis, das diferenças entre esses dois objectos.

Distância de Mahalanobis

( ) ( )mn1'

mnnm xxxxd −−= ∑ −

Considera a matriz de variância e co-

variância Σ no cálculo da distância entre dois objectos, sendo adequada quando as variáveis apresentam unidades de medida distintas e dispersões elevadas ou são fortemente correlacionadas.

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 14: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 14

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

• Normalização das variáveis

– A standardização é justificada

principalmente por três razões:

• As variáveis são medidas em unidades

diferentes

• As variáveis têm variâncias muito diferentes

• As variáveis são de diferentes tipos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 15: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 15

Variáveis Variáveis Variáveis Variáveis

OriginaisOriginaisOriginaisOriginais

Variáveis Variáveis Variáveis Variáveis NormalizadasNormalizadasNormalizadasNormalizadas

1596,52 1938,06

1763,97

−=

Concelho Variável

% População

residente

activa na

agricultura

Densidade

populacional

% População residente

em lugares com mais

de 100000 habitantes

Espinho -0,506 -0,19 0,14

Gondomar -0,519 -0,39 0,96

Maia -0,438 -0,28 0,80

Matosinhos -0,422 0,43 0,14

Porto -0,605 2,49 1,57

Póvoa de Varzim 0,855 -0,66 -0,84

Valongo -0,524 -0,46 -1,30

Vila do Conde 0,664 -0,82 -1,23

Vila Nova de Gaia -0,505 -0,13 -0,24

Concelho Variável% População residente activa empregada na

agricultura

Densidade populacional

% População residente em lugares com mais de 100000

habitantes

Espinho (E) 0,68 1596,52 66,75

Gondomar (G) 0,63 1248,54 85,81

Maia (M) 0,91 1443,17 81,99

Matosinhos (MT) 0,97 2698,04 66,73

Porto (P) 0,33 6337,42 100,00

Póvoa de Varzim (PV) 0,89 773,47 43,82

Valongo (V) 0,61 1134,36 33,12

Vila do Conde (VC) 0,23 499,20 34,59

Vila Nova de Gaia (VNG) 0,68 1711,81 57,77

Média 1938,06Desvio-padrão 1763,97

E G M MT P PV V VC VGE 0

G 0,839 0

M 0,661 0,213 0

MT 0,630 1,162 0,965 0

P 3,042 2,949 2,884 2,513 0

PV 2,599 2,989 2,840 2,708 4,666 0

V 1,462 2,255 2,099 1,692 4,110 2,431 0

VC 2,644 3,122 2,969 2,792 4,892 0,465 2,219 0

VG 0,390 1,228 1,049 0,683 3,186 2,492 1,104 2,482 0

MATRIZ DE

DISTÂNCIAS EUCLIDIANAS

Concelho Variável

% População

residente

activa na

agricultura

Densidade

populacional

% População residente

em lugares com mais

de 100000 habitantes

Espinho -0,506 -0,19 0,14

Gondomar -0,519 -0,39 0,96

Maia -0,438 -0,28 0,80

Matosinhos -0,422 0,43 0,14

Porto -0,605 2,49 1,57

Póvoa de Varzim 1,855 -0,66 -0,84

Valongo -0,524 -0,46 -1,30

Vila do Conde 1,664 -0,82 -1,23

Vila Nova de Gaia -0,505 -0,13 -0,24

VARIÁVEIS

NORMALIZADAS

( ) ( ) ( )2 2 20,506 0,519 0,19 0,39 0,14 0,96− + + − + + −

Page 16: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 16

Presenças Ausências

Presenças a b

Ausências c d

Objecto mObjecto mObjecto mObjecto m

Objecto nObjecto nObjecto nObjecto n

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Coeficiente Descrição

Jaccard cba

a

++

Medida de semelhança em que as ausências simultâneas são excluídas e as presenças simultâneas têm peso idêntico às restantes situações.

Czesanowski cba2

a2

++

Medida de semelhança onde as ausências simultâneas são excluídas e as presenças simultâneas têm peso duplo.

Sokal e Sneath 1

( )cbd2a2

da2

+++

+

Medida de semelhança que atribui um peso duplo às presenças e ausências simultâneas.

Sokal e Sneath 2 c2b2a

a

++

Medida de semelhança que atribui um peso duplo às características discordantes e exclui as ausências simultâneas.

Russel e Rao dcba

a

+++ Medida de semelhança com valor mínimo 0

e sem limite superior.

Hamann dcba

cbda

+++

−−+

Medida de semelhança que corresponde à diferença entre a probabilidade de uma característica ter igual valor nos objectos (estar presente ou ausente em ambos) e a probabilidade de ter diferentes valores nos dois objectos; varia entre –1 e 1.

Rogers e Tanimoto d2c2ba

da

++++

Medida de semelhança que inclui as ausências simultâneas e atribui peso duplo às situações discordantes.

Q de Yule bcad

bcad

+

Medida de semelhança função do rácio

cruzado de uma tabela 22× ; varia entre –1 e 1.

Kulczynski cb

a

+

Quociente entre presenças simultâneas e situações discordantes, exclusão das ausências simultâneas; medida de semelhança com valor mínimo 0 e sem limite superior.

Phi ( )( )( )( )dbcadcba

bcad

++++

Varia entre 0 e 1 e é equivalente ao coeficiente de Pearson para variáveis binárias.

( ) ( )a d a b c d+ + + +

Simple Matching

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 17: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 17

Estrutura de um algoritmo aglomerativoEstrutura de um algoritmo aglomerativo

• INICIAÇÃO

• Grupos S1, S2,..., Sn, cada um contendo apenas um objecto.

• ITERAÇÃO

• (1) Procurar o par mais próximo de classes (Ss e St);

• (2) Unir St a Ss;

• (3) Eliminar St e diminuir o número de grupos em 1;

• (4) Calcular a distância dos grupos formados aos restantes objectos;

• CRITÉRIO DE PARAGEM

• Se o número de grupos é igual a 1, parar; se não, realizar uma iteração.Tree Diagram for 7 Cases

Single Linkage

Euclidean distances

Linkage D

istance

0,5

1,0

1,5

2,0

2,5

3,0

3,5

E G F D C B A

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Agrupamento hierárquico: Agrupamento hierárquico: métodosmétodos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 18: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 18

Algoritmo(Referência)

Conceito de distância

Critério do vizinho mais próximo ‘Single-linkage’/ Nearest neighbor

(FLOREK et al. 1951, SNEATH 1957)

Menor distância entre dois elementos de dois segmentos.

Critério do vizinho mais afastado ‘Complete-linkage’ furthest neighbor

(MCQUITTY 1960)

Maior distância entre dois elementos de dois segmentos.

Distância média entre clusters ‘Average linkage between groups’

Após formado o primeiro grupo, a distância deste aos restantes objectos é a média das distâncias de cada um dos elementos contituintes deste grupo a cada um dos restantes elementos..

Distância média dentro do grupos ‘Average linkage between groups’

Os grupos são unidos de forma a que a soma de quadrados dos erros (variabilidade dentro dos grupos) seja a menor possível

Critério da soma de quadrados incremental‘Incremental sum of squares’ / Ward´s method(WARD 1963)

Acréscimo mínimo na soma dos quadrados dos desvios das observações individuais relativamente às médias dos grupos em que são classificadas.

Critério do centróide ‘Centroid’/ Centroid clustering

(SOKAL e MICHENER 1958, GOWER 1967)

Distância entre os centros dos grupos (média das variáveis para os membros desse grupo).

Critério da mediana ‘Median’/ Median clustering(LANCE e WILLIAMS 1966, GOWER 1967)

Distância entre as medianas das variáveis nos segmentos.

E G M MT P PV V VC VGE 0

G 0,839 0

M 0,661 0,213 0

MT 0,630 1,162 0,965 0

P 3,042 2,949 2,884 2,513 0

PV 2,599 2,989 2,840 2,708 4,666 0

V 1,462 2,255 2,099 1,692 4,110 2,431 0

VC 2,644 3,122 2,969 2,792 4,892 0,465 2,219 0

VG 0,390 1,228 1,049 0,683 3,186 2,492 1,104 2,482 0

MATRIZ DE DISTÂNCIAS EUCLIDIANAS

ITERAÇÂO 1 { } .min : , 0, 213nm nm G Md d n m d= = =

[ ] ( ) ( )

[ ] ( ) ( )

[ ] ( ) ( )

[ ] ( ) ( )

[ ] ( ) ( )

. ..

. ..

. ..

. ..

. ..

min ; min 0,839;0, 661 0,661

min ; min 1,162;0,965 0,965

min ; min 2,949;2,884 2,884

min ; min 2,989;2,840 2,840

min ; min 2, 255;2, 099 2,09

G E M EG M E

G MT M MTG M MT

G P M PG M P

G PV M PVG M PV

G V M VG M V

d d d

d d d

d d d

d d d

d d d

= = =

= = =

= = =

= = =

= = =

[ ] ( ) ( )

[ ] ( ) ( ). ..

. ..

9

min ; min 3,122;2,969 2,969

min ; min 1, 228;1,049 1, 049

G VC M VCG M VC

G VG M VGG M VG

d d d

d d d

= = =

= = =

E [G.M] MT P PV V VC VGE 0[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0PV 2,599 2,840 2,708 4,666 0V 1,462 2,099 1,692 4,110 2,431 0VC 2,644 2,969 2,792 4,892 0,465 2,219 0VG 0,390 1,049 0,683 3,186 2,492 1,104 2,482 0

D1D1D1D1

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 19: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 19

[ ] ( ) ( )

[ ] ( ) ( )

[ ] ( ) ( )

[ ] ( ) ( )

[ ]

.[ . ] .[ . ]. [ . ]

. ..

. ..

. ..

..

min ; min 0,661;1,049 0,661

min ; min 0,630;0,683 0,630

min ; min 3,042;3,186 3,042

min ; min 2,599;2, 492 2, 492

min ;

E G M VG G ME VG G M

E MT VG MTE VG MT

E P VG PE VG P

E PV VG PVE VG PV

E V VGE VG V

d d d

d d d

d d d

d d d

d d d

= = =

= = =

= = =

= = =

= ( ) ( )

[ ] ( ) ( ).

. ..

min 1, 462;1,104 1,104

min ; min 2,644;2, 482 2, 482

V

E VC VG VCE VG VCd d d

= =

= = =

E [G.M] MT P PV V VC VGE 0[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0PV 2,599 2,840 2,708 4,666 0V 1,462 2,099 1,692 4,110 2,431 0VC 2,644 2,969 2,792 4,892 0,465 2,219 0VG 0,390 1,049 0,683 3,186 2,492 1,104 2,482 0

D1D1D1D1

[E.VG] [G.M] MT P PV V VC

[E.VG] 0[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0PV 2,492 2,840 2,708 4,666 0V 1,104 2,099 1,692 4,110 2,431 0VC 2,482 2,969 2,792 4,892 0,465 2,219 0

D2D2D2D2

ITERAÇÃO 2

[E.VG] [G.M] MT P PV V VC

[E.VG] 0[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0PV 2,492 2,840 2,708 4,666 0V 1,104 2,099 1,692 4,110 2,431 0VC 2,482 2,969 2,792 4,892 0,465 2,219 0

D2D2D2D2

ITERAÇÃO 3

[ ] ( ) ( )

[ ] ( ) ( )

[ ] ( ) ( )

[ ] ( ) ( )

.[ . ] .[ . ]. .[ . ]

.[ . ] .[ . ]. .[ . ]

. .. .

. .. .

min ; min 2, 492;2, 482 2, 482

min ; min 2,840;2,969 2,840

min ; min 2,708;2,792 2,708

min ; min 4,666;4,892

PV E VG VC E VGPV VC E VG

PV G M VC G MPV VC G M

PV MT VC MTPV VC MT

PV P VC PPV VC P

d d d

d d d

d d d

d d d

= = =

= = =

= = =

= =

[ ] ( ) ( ). ..

4,666

min ; min 2, 431;2, 219 2,219PV V VC VPV VC Vd d d

=

= = =

[E.VG] [G.M] MT P [PV.VC] V

[E.VG] 0

[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0

[PV.VC] 2,482 2,840 2,708 4,666 0

V 1,104 2,099 1,692 4,110 2,219 0

D3D3D3D3

Page 20: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 20

D4D4D4D4[E.VG.MT] [G.M] P [PV.VC] V

[E.VG.MT] 0

[G.M] 0,661 0P 2,513 2,884 0

[PV.VC] 2,482 2,840 4,666 0V 1,104 2,099 4,110 2,219 0

[E.VG.MT.G.M] P [PV.VC] V

[E.VG.MT.G.M] 0

P 2,513 0[PV.VC] 2,482 4,666 0V 1,104 4,110 2,219 0

[E.VG.MT.G.M.V] P [PV.VC]

[E.VG.MT.G.M.V] 0

P 2,513 0

[PV.VC] 2,219 4,666 0

[E.VG.MT.G.M.V.PV.VC] P

[E.VG.MT.G.M.V.PV.VC] 0

P 2,219 0

D5D5D5D5

D6D6D6D6

D7D7D7D7

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Linkage Distance

0,0

0,5

1,0

1,5

2,0

2,5

3,0

P VC PV V M G MT VG E

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 21: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 21

Linkage Distance

0,0

0,5

1,0

1,5

2,0

2,5

3,0

P VC PV V M G MT VG E

Nº DE CLASSES

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Single linkageSingle linkage (critério do vizinho mais (critério do vizinho mais

próximo)próximo)

• Define como semelhança entre dois grupos a semelhança máxima entre quaisquer dois casos pertencentes a esses grupos

• Dois grupos são reagrupados num só de acordo com a distância entre os seus casos mais próximos

• Dados dois grupos (i,j) e k, a distância entre dois é a menor das distâncias entre os elementos dos dois grupos

( ) { }jkikkj,i d;d mind =

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 22: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 22

Exemplo

A B C D E F G

Lealdade a lojas 3 4 4 2 8 7 6

Lealdade a marcas 2 5 7 8 6 9 9

Matriz de distâncias euclideanas

A B C D E F G

A -

B 3,162 -

C 5,099 2,000 -

D 6,083 3,606 2,236 -

E 6,403 4,123 4,123 6,325 -

F 8,062 5,000 3,606 5,099 3,162 -

G 7,616 4,472 2,828 4,123 3,606 1,000 -

Consumidores

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

A B C D E F G

A -

B 3,162 -

C 5,099 2,000 -

D 6,083 3,606 2,236 -

E 6,403 4,123 4,123 6,325 -

F 8,062 5,000 3,606 5,099 3,162 -

G 7,616 4,472 2,828 4,123 3,606 1,000 -

A B C D E F-G

A -

B 3,162 -

C 5,099 2,000 -

D 6,083 3,606 2,236 -

E 6,403 4,123 4,123 6,325 -

F-G 7,616 4,472 2,828 4,123 3,162 -

A B-C D E F-G

A -

B-C 3,162 -

D 6,083 2,236 -

E 6,403 4,123 6,325 -

F-G 7,616 2,828 4,123 3,162 -

A B-C-D E F-G

A -

B-C-D 3,162 -

E 6,403 4,123 -

F-G 7,616 2,828 3,162 -

A B-C-D-F-G E

A -

B-C-D-F-G 3,162 -

E 6,403 3,162 -

A-B-C-D-F-G E

A-B-C-D-F-G -

E 3,162 -

Tree Diagram for 7 Cases

Single Linkage

Euclidean distances

Linkage D

istance

0,5

1,0

1,5

2,0

2,5

3,0

3,5

E G F D C B A

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 23: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 23

Complete linkageComplete linkage (critério do vizinho mais (critério do vizinho mais

afastado)afastado)

• A distância entre dois grupos é definida como sendo a distância entre os seus elementos mais afastados ou menos semelhantes

( ) { }jkikkj,i d;d maxd =

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

A B C D E F-G

A -

B 3,162 -

C 5,099 2,000 -

D 6,083 3,606 2,236 -

E 6,403 4,123 4,123 6,325 -

F-G 8,062 5,000 3,606 5,099 3,606 -

A B-C D E F-G

A -

B-C 5,099 -

D 6,083 3,606 -

E 6,403 4,123 6,325 -

F-G 8,062 5,000 5,099 3,606 -

A B-C-D E F-G

A -

B-C-D 6,083 -

E 6,403 6,325 -

F-G 8,062 5,099 3,606 -

A B-C-D E-F-G

A -

B-C-D 6,083 -

E-F-G 8,062 6,325 -

A-B-C-D E-F-G

A-B-C-D -

E-F-G 8,062 -

Complete Linkage

Euclidean distances

Linkage D

istance

0

1

2

3

4

5

6

7

8

9

G F E D C B A

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 24: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 24

PairPair--group averagegroup average (critério da (critério da

média dos grupos)média dos grupos)

• Estratégia de agrupamento que define a distância entre dois grupos como sendo a média das distâncias entre todos os pares de indivíduos constituídos por elementos dos dois grupos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

A B C D E F G

A -

B 3,162 -

C 5,099 2,000 -

D 6,083 3,606 2,236 -

E 6,403 4,123 4,123 6,325 -

F 8,062 5,000 3,606 5,099 3,162 -

G 7,616 4,472 2,828 4,123 3,606 1,000 -

A B C D E F-G

A -

B 3,162 -

C 5,099 2,000 -

D 6,083 3,606 2,236 -

E 6,403 4,123 4,123 6,325 -

F-G 7,839 4,736 3,217 4,611 3,384 -

A B-C D E F-G

A -

B-C 4,131 -

D 6,083 2,921 -

E 6,403 4,123 6,325 -

F-G 7,839 3,977 4,611 3,384 -

A B-C-D E F-G

A -

B-C-D 4,781 -

E 6,403 4,857 -

F-G 7,839 4,188 3,384 -

A B-C-D E-F-G

A -

B-C-D 4,781 -

E-F-G 7,360 4,411 -

A B-C-D-E-F-G

A -

B-C-D-E-F-G 6,071 -

Unweighted pair-group average

Euclidean distances

Linkage D

istance

0

1

2

3

4

5

6

7

C_7 C_6 C_5 C_4 C_3 C_2 C_1

Page 25: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 25

Critério de WardCritério de Ward

• Baseia-se na perda de informação resultante do agrupamento dos indivíduos medida através da soma dos quadrados dos desvios das observações individuais relativamente às médias dos grupos em que são classificadas

• Etapas:– Calculo das médias das variáveis para cada grupo– Calculo do quadrado da distância euclidiana entre essas médias e os valores das variáveis para cada indivíduo

– Soma das distâncias para todos os indivíduos– Optimização da variância mínima dentro dos grupos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Centroid/Median linkage

Complete linkage

Single linkage

Algoritmos Aglomerativos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 26: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 26

Selecção do número de Selecção do número de gruposgrupos

Quando é utilizado um método de agrupamento hierárquicosurge o problema de determinação do nível de proximidade parao ‘corte’ da árvore de agrupamento, por forma a obter o númerode grupos óptimo. Neste contexto, são frequentemente utilizadasduas abordagens:

- Inspecção visual do dendograma, procurando a identificação deramos relativamente densos e perfeitamente distinguíveis entresi;

- Comparação gráfica do coeficiente de fusão (valor numéricopara o qual vários indivíduos ou grupos se unem para formaruma nova classe) com o número de grupos; a escolha óptimapara o número de grupos coincidirá com uma marcadahorizontalidade na curva.

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Métodos de Agrupamento Não HierárquicoMétodos de Agrupamento Não Hierárquico

Dispersão intra-grupo

Dispersão inter-grupo

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 27: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 27

Estrutura de um algoritmo de Estrutura de um algoritmo de agrupamento não hierárquicoagrupamento não hierárquico

• (1) Procurar uma partição inicial dos objectos em S grupos.

• (2) Calcular as alterações no critério de agrupamento produzidaspelo movimento de cada objecto do seu grupo actual para outro.

• (3) Efectuar as alterações que conduzam ao melhor valor docritério de agrupamento.

• (4) Repetir os passos (2) e (3) até que nenhum movimento de umobjecto provoque uma melhoria no critério de agrupamento.

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos

Page 28: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 28

Exemplo 1Exemplo 1

Classificação de

Aeroportos

INFORMAÇÃO DA BASEINFORMAÇÃO DA BASE

• Rede Aeroportuária:– 39 aeroportos ibéricos: 36 em território espanhol e 3 em território português

#S

#S

#S

#S

#S

#S

#S

#S

#S

#S

#S

#S

#S

#S

#S

#S

#S#S

#S

#S

#S#S

#S

#S

#S

#S

#S

#S

#S #S#S

#S#S

#S

#S

#S#S

#S

#S

#S

#S

#S

FARO

LEON

REUS

VIGO

IBIZA

JEREZ

PORTO

BILBAO

GIRONA

LISBOA

MALAGA

MURCIA

ALMERIA

BADAJOZ

GRANADA

MELILLA

MENORCA

SEVILLA

VITORIA

ALICANTE

ASTURIAS

LA PALMA

PAMPLONASANTIAGO

VALENCIA

ZARAGOZA

A CORUNHA

BARCELONA

L HIERRO

LANZAROTE

SALAMANCA

VALLADOLID

GRAN CANARIA

FUERTEVENTURA

MADRID BARAJAS

MADRID TORREJON

NB: Em Portugal não foram considerados os aeroportos insulares, por dificuldade de obtenção da informação

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 29: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 29

• Atributos recolhidos para cada aeroporto– Tráfego de passageiros– Tráfego de passageiros internacionais– Nº Destinos Ibéricos (frequência Média superior a 2 movimentos/semana)

– Nº Destinos Não Ibéricos (frequência Média superior a 2 movimentos/semana)

– Comprimento da Pista– Taxa de Crescimento Média 1992-1999– Nº Companhias (mais do que uma ligação semanal)

– Tráfego de Carga– Tráfego Máximo Mensal– Tráfego Mínimo Mensal

(Todos os dados se referem a 1999)1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 30: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 30

Código Variável Média Mínimo MáximoDesvio-

Padrão

GINTERRelação Passageiros Internacionais/

Passageiros0.405 0.000 0.992 0.347

NDPENNº Destinos na Península com Freq. Média

Sup. a 2 movimentos/semana*8 0 35 8

DFPENNº Destinos Fora da Península com Freq.

Média Sup. a 2 movimentos/semana*22 0 94 28

Crescimento

TAXCESC Taxa Crescimento Média Anual (%) 6.222 -7.090 29.780 5.700

PASST Tráfego Anual de Passageiros 3661252 15634 27699324 5936070

PISTA Comprimento da Pista (m) 2695 1080 4100 673

NCOMPNNº de Companhias com Freq. Média Sup. a 2

Movimentos/Semana23 0 80 24

CARGA Carga Movimentada (ton) 18716 0 294398 50324

Sazonalidade

SAZONRatio trafego max mensal 99/trafego min

mensal 990.447 0.126 1.901 0.397

Grau de Internacionalização

Dimensão

* por cidade1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Distância

0

5

10

15

20

25

30

MAD

LIS

AGP

TFS

LPA

PMI

BCN

REU

BJZ

GRO

MAH

IBZ

FAO

MJV

XRY

LEI

ACE

FUE

OPO

ALC

ZAZ

TFN

VIT

SVQ

VLC

SCQ

BIO

SDR

VLL

GRX

SPC

VGO

OVD

MLN

VDE

SLM

PNA

EAS

LCG

Dendograma segundo o Método de Agrupamento de Ward

3 Grupos de Aeroportos

Cluster Membership

1

2

2

1

2

3

1

1

2

2

2

3

1

2

2

1

2

3

3

3

1

2

2

3

1

2

2

1

1

1

1

1

1

3

1

1

1

1

1

Case

1:LCG

2:ALC

3:LEI

4:OVD

5:BJZ

6:BCN

7:BIO

8:VDE

9:FAO

10:FUE

11:GRO

12:LPA

13:GRX

14:IBZ

15:XRY

16:SPC

17:ACE

18:LIS

19:MAD

20:AGP

21:MLN

22:MAH

23:MJV

24:PMI

25:PNA

26:OPO

27:REU

28:SLM

29:EAS

30:SDR

31:SCQ

32:SVQ

33:TFN

34:TFS

35:VLC

36:VLL

37:VGO

38:VIT

39:ZAZ

3 Clusters

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 31: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 31

Agglomeration Schedule

8 21 ,173 0 0 29

4 37 ,400 0 0 13

25 28 ,669 0 0 20

13 36 ,970 0 0 12

1 29 1,308 0 0 20

15 23 1,694 0 0 9

7 31 2,115 0 0 16

32 38 2,584 0 0 26

3 15 3,057 0 6 30

10 17 3,549 0 0 23

12 34 4,090 0 0 18

13 30 4,641 4 0 21

4 16 5,234 2 0 21

33 39 5,857 0 0 26

14 22 6,496 0 0 19

7 35 7,162 7 0 27

2 26 7,882 0 0 23

12 20 8,644 11 0 24

9 14 9,489 0 15 25

1 25 10,557 5 3 29

4 13 11,643 13 12 27

6 24 12,765 0 0 28

2 10 14,001 17 10 31

12 18 15,286 18 0 28

9 11 16,658 19 0 30

32 33 18,094 8 14 35

4 7 19,788 21 16 32

6 12 21,973 22 24 36

1 8 24,286 20 1 32

3 9 26,684 9 25 31

2 3 29,270 23 30 34

1 4 32,172 29 27 35

5 27 35,188 0 0 34

2 5 38,582 31 33 37

1 32 42,912 32 26 37

6 19 47,520 28 0 38

1 2 56,631 35 34 38

1 6 71,582 37 36 0

Stage

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

Cluster 1 Cluster 2

Cluster Combined

Coefficients Cluster 1 Cluster 2

Stage Cluster First

Appears

Next Stage

Indica os casos que são unidos em cada passo da análise de clusters

- os casos 8 e 21 são agrupados no passo 1

- os casos 4 e 37 são agrupados no passo 2

Agglomeration Schedule

8 21 ,173 0 0 29

4 37 ,400 0 0 13

25 28 ,669 0 0 20

13 36 ,970 0 0 12

1 29 1,308 0 0 20

15 23 1,694 0 0 9

7 31 2,115 0 0 16

32 38 2,584 0 0 26

3 15 3,057 0 6 30

10 17 3,549 0 0 23

12 34 4,090 0 0 18

13 30 4,641 4 0 21

4 16 5,234 2 0 21

33 39 5,857 0 0 26

14 22 6,496 0 0 19

7 35 7,162 7 0 27

2 26 7,882 0 0 23

12 20 8,644 11 0 24

9 14 9,489 0 15 25

1 25 10,557 5 3 29

4 13 11,643 13 12 27

6 24 12,765 0 0 28

2 10 14,001 17 10 31

12 18 15,286 18 0 28

9 11 16,658 19 0 30

32 33 18,094 8 14 35

4 7 19,788 21 16 32

6 12 21,973 22 24 36

1 8 24,286 20 1 32

3 9 26,684 9 25 31

2 3 29,270 23 30 34

1 4 32,172 29 27 35

5 27 35,188 0 0 34

2 5 38,582 31 33 37

1 32 42,912 32 26 37

6 19 47,520 28 0 38

1 2 56,631 35 34 38

1 6 71,582 37 36 0

Stage

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

Cluster 1 Cluster 2

Cluster Combined

Coefficients Cluster 1 Cluster 2

Stage Cluster First

Appears

Next Stage

Quando grupos os casos são unidos, recebem um ‘label’ com o menor valor dos membros do grupo.

- por exemplo o grupo formado pelos casos 4 e 37 foi unido ao caso 16.

Page 32: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 32

Agglomeration Schedule

8 21 ,173 0 0 29

4 37 ,400 0 0 13

25 28 ,669 0 0 20

13 36 ,970 0 0 12

1 29 1,308 0 0 20

15 23 1,694 0 0 9

7 31 2,115 0 0 16

32 38 2,584 0 0 26

3 15 3,057 0 6 30

10 17 3,549 0 0 23

12 34 4,090 0 0 18

13 30 4,641 4 0 21

4 16 5,234 2 0 21

33 39 5,857 0 0 26

14 22 6,496 0 0 19

7 35 7,162 7 0 27

2 26 7,882 0 0 23

12 20 8,644 11 0 24

9 14 9,489 0 15 25

1 25 10,557 5 3 29

4 13 11,643 13 12 27

6 24 12,765 0 0 28

2 10 14,001 17 10 31

12 18 15,286 18 0 28

9 11 16,658 19 0 30

32 33 18,094 8 14 35

4 7 19,788 21 16 32

6 12 21,973 22 24 36

1 8 24,286 20 1 32

3 9 26,684 9 25 31

2 3 29,270 23 30 34

1 4 32,172 29 27 35

5 27 35,188 0 0 34

2 5 38,582 31 33 37

1 32 42,912 32 26 37

6 19 47,520 28 0 38

1 2 56,631 35 34 38

1 6 71,582 37 36 0

Stage

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

Cluster 1 Cluster 2

Cluster Combined

Coefficients Cluster 1 Cluster 2

Stage Cluster First

Appears

Next Stage

- Indica a distância entre dois grupos (ou casos) que são unidos em cada passo

- Os valores destes coeficientes dependem da medida de proximidade e do método aglomerativo usado na análise.

Etapa Coeficiente Variação

1 0,17344754

2 0,40019944 131%

3 0,66911419 67%

4 0,96953072 45%

5 1,30824669 35%

6 1,69433937 30%

7 2,11521677 25%

8 2,58404534 22%

9 3,05684994 18%

10 3,54929663 16%

27 19,7884748 9%

28 21,9734411 11%

29 24,2861574 11%

30 26,6844578 10%

31 29,2697334 10%

32 32,1721799 10%

33 35,1883892 9%

34 38,5818199 10%

35 42,9115011 11%

36 47,5195781 11%

37 56,6309901 19%

38 71,5821704 26%

0

10

20

30

40

50

60

70

80

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37

Passo

Coeficiente de fusão

1. Numa boa solução de agrupamento verifica-se um ‘salto’ no coeficiente de fusão.

2. O passo antes desse ´salto’ indica o ponto de paragem

Após o passo 36 existem 3 grupos.

Page 33: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 33

Agglomeration Schedule

8 21 ,173 0 0 29

4 37 ,400 0 0 13

25 28 ,669 0 0 20

13 36 ,970 0 0 12

1 29 1,308 0 0 20

15 23 1,694 0 0 9

7 31 2,115 0 0 16

32 38 2,584 0 0 26

3 15 3,057 0 6 30

10 17 3,549 0 0 23

12 34 4,090 0 0 18

13 30 4,641 4 0 21

4 16 5,234 2 0 21

33 39 5,857 0 0 26

14 22 6,496 0 0 19

7 35 7,162 7 0 27

2 26 7,882 0 0 23

12 20 8,644 11 0 24

9 14 9,489 0 15 25

1 25 10,557 5 3 29

4 13 11,643 13 12 27

6 24 12,765 0 0 28

2 10 14,001 17 10 31

12 18 15,286 18 0 28

9 11 16,658 19 0 30

32 33 18,094 8 14 35

4 7 19,788 21 16 32

6 12 21,973 22 24 36

1 8 24,286 20 1 32

3 9 26,684 9 25 31

2 3 29,270 23 30 34

1 4 32,172 29 27 35

5 27 35,188 0 0 34

2 5 38,582 31 33 37

1 32 42,912 32 26 37

6 19 47,520 28 0 38

1 2 56,631 35 34 38

1 6 71,582 37 36 0

Stage

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

Cluster 1 Cluster 2

Cluster Combined

Coefficients Cluster 1 Cluster 2

Stage Cluster First

Appears

Next Stage

Indica o passo em que cada grupo aparece em primeiro lugar;

Quando se inicia a análise esistem casos isolados, denotados por 0.

Mostra a etapa posterior em que um novo grupo é formado.

No passo 12, o grupo 13 é o grupo que se formou no passo 4

No estado 12, o grupo que se formou no passo 4 é unido com outro grupo ou caso

Métodos Não Métodos Não HierárquicosHierárquicos

K-Means

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 34: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 34

Como as variáveis estão definidas em escalas de medida com amplitudes muito distintas, é necessária a sua normalização.

ANALYSE

DESCRIPTIVE STATISTICS

DESCRIPRIVES

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

• O grupo 2 isolou o aeroporto de Madrid,sugerindo que este é um outlier na amostra

• Deve ser efectuado um agrupamento com 4 grupos

Number of Cases in each Cluster

12,000

1,000

26,000

39,000

,000

1

2

3

Cluster

Valid

Missing

SoluçãoSolução11 KK--means com 3 means com 3 gruposgrupos

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 35: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 35

Iteration Historya

2,291 2,347 ,000 2,418

,179 ,335 ,000 ,951

,178 ,233 ,000 ,784

,000 ,000 ,000 ,000

Iteration

1

2

3

4

1 2 3 4

Change in Cluster Centers

Convergence achieved due to no or small change in

cluster centers. The maximum absolute coordinate

change for any center is ,000. The current iteration is 4.

The minimum distance between initial centers is 6,000.

a.

Progresso da estimação em cada iteração

0,179

Em cada iteração, à medida que novos casos são reafectados em grupos diferentes, os centroides de cada grupo alteram-se;

Cada número no quadro indica a distância do centroide numa dada iteração do seu valor na iteração anterior

Iteração 1 Iteração 2

Quando a variação nos centroides é suficientemente pequena para todos os grupos, o algoritmo alcança o critério de paragem

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Quando o algoritmo utiliza muitos passos até convergir pode ser um sinal de:

Selecção inadequada do número de grupos

Inclusão de variáveis desestabilizadoras

Utilização de centroides iniciais fracos

12

3

4 Complexidade do problema

(pode ser necessário alterar neste caso o número máximo de iterações)

Page 36: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 36

Final Cluster Centers

-,38060 -,21816 -,63907 2,28240

-,49686 ,78345 4,04949 -,34733

-,68070 ,96783 ,26700 ,81246

-,31239 ,67760 3,34426 -,78506

-,65485 1,14681 2,59664 -,16099

-,35098 ,53560 2,08709 -,05141

-,27665 ,16244 ,00661 ,85858

-,64346 1,16759 2,27351 -,19218

-,28389 ,22128 5,47816 -,33333

Zscore: Rácio Tráfego

Máximo Mensal Trafego

Mínimo Mensal

Zscore: Tráfego Anual de

Passageiros

Zscore: Rácio

Passageiros

Internacionais

Passageiros Totais

Zscore: Nº de Destinos

na Península com Freq.

Média Superior a 2

Movimentos por Semana

Zscore: Nº de Destinos

Fora da Península com

Freq. Média Superior a 2

Movimentos por Semana

Zscore: Comprimento da

Pista

Zscore: Taxa de

Crescimento Média Anual

[nº passageiros]

Zscore: Nº de

Companhias com

Frequência Média

Superior a 2 Movimentos

por Semana

Zscore: Carga

Movimentada [ton]

1 2 3 4

Cluster

Valores para os centros dos grupos na solução final

Centroide – média de todas as variáveis para cada grupo

Os centroides refletem os atributos de uma caso típico para cada grupo

Cada grupo é representado pelo respectivo centroíde

-3

-2

-1

0

1

2

3

4

5

6

SAZON PASST GINTER NDP NDFP PISTA TAXA NC CARGA

Cluster 1

Cluster 2

Cluster 3

Cluster 4

MADRID

GRANDES AEROPORTOS

PEQUENOS AEROPORTOS DOMÈSTICOS

AEROPORTOS INTERNACIONAIS DINÂMICOS

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 37: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 37

• O Grupo 4 reúne os‘Aeroportos Internacionais Dinâmicos’: apresentam o maior grau de internacionalização (variável GINTER), a maior taxa de crescimento, o maior índice de sazonalidade e, em termos dimensionais, situam-se numa posição intermédia. Os aeroportos de Reus e Badajoz apresentam a maior distância ao centroide representativo: Reus exibe uma taxa de crescimento superior à média e Badajoz um índice de sazonalidade superior à média e um grau de internacionalização inferior à média da classe.

• O Grupo 2 é constituído pelos ‘Grandes Aeroportos’ ibéricos. Estes 7 aeroportos apresentam o maior volume de tráfego de passageiros e de carga, oferecem o maior número de destinos fora e dentro da península, registam a maior capacidade de atracção de companhias aéreas e as maiores infra-estruturas físicas. Revelam valores moderados em termos de taxas de crescimento e graus de internacionalização e valores baixos no índice de sazonalidade.

• O aeroporto de Madrid apresenta o maior tráfego de passageiros, volume de carga e oferta interna na amostra, sendo isolado no grupo 3.No entanto dada a sua distânia ao centroíde do grupo 2 é fraca.

• O grupo 1 representa os 20 ‘Pequenos Aeroportos Domésticos’. Trata-se de aeroportos de pequena dimensão, frequentados essencialmente por passageiros nacionais, com taxas de crescimento reduzidas e índices de sazonalidade baixos.

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Distances between Final Cluster Centers

3,623 9,660 3,376

3,623 7,200 3,794

9,660 7,200 9,898

3,376 3,794 9,898

Cluster

1

2

3

4

1 2 3 4

• Distância Euclideana entre os centros dos grupos finais:

– valores elevados indicam que os grupos são bastante

diferentes entre si

– valores reduzidos indicam que os grupos não são muito

diferentes etre si

– a tabela é simétrica

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 38: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 38

ANOVA

10,055 3 ,224 35 44,922 ,000

9,728 3 ,252 35 38,623 ,000

7,956 3 ,404 35 19,707 ,000

7,154 3 ,472 35 15,142 ,000

10,258 3 ,206 35 49,679 ,000

3,412 3 ,793 35 4,301 ,011

1,887 3 ,924 35 2,042 ,126

9,819 3 ,244 35 40,235 ,000

10,959 3 ,146 35 74,879 ,000

Zscore: Rácio Tráfego

Máximo Mensal Trafego

Mínimo Mensal

Zscore: Tráfego Anual de

Passageiros

Zscore: Rácio

Passageiros

Internacionais

Passageiros Totais

Zscore: Nº de Destinos

na Península com Freq.

Média Superior a 2

Movimentos por Semana

Zscore: Nº de Destinos

Fora da Península com

Freq. Média Superior a 2

Movimentos por Semana

Zscore: Comprimento da

Pista

Zscore: Taxa de

Crescimento Média Anual

[nº passageiros]

Zscore: Nº de

Companhias com

Frequência Média

Superior a 2 Movimentos

por Semana

Zscore: Carga

Movimentada [ton]

Mean Square df

Cluster

Mean Square df

Error

F Sig.

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize

the differences among cases in different clusters. The observed significance levels are not corrected for this and

thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

A tabela ANOVA indica quais as varíáveis que mais contribuem para a solução final.

As variáveis às quais se associam os maiores valores para F fornecem o maior grau de separação entre os grupos

Os grupos formados não se distinguem na variável taxa média de crescimento

Para analisar a diferença entre as médias dos grupos é necessária a verificação dos pressupostos de aplicação da ANOVA e se adequada, a aplicação alternativa do teste não paramétrico equivalente.

• Utilização dos centróides obtidos a partir dos métodos hierárquicos como inicialização

SoluçãoSolução22 KK--means com 3 means com 3 gruposgrupos

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 39: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 39

Exemplo 2Exemplo 2

• Aplicação de Métodos Hierárquicos no agrupamento de variáveis

• Uma empresa de telecomunicações pretende melhor compreender os padrões de uso dos seus serviços pelos consumidores actuais.

• Se os serviços puderem ser agrupados pelo uso, então a empresa poderá oferecer packages mais atractivos aos compradores

• File: telco.sav (tutorial do SPSS)

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

• Variáveis– Tollfree

– Equip

– Callcard

– Wireless

– Multiline

– Voice

– Pager

– Internet

– Callid

– Callwait

– Confer

– ebill

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Page 40: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 40

Ward Ward –– Squared Euclidian DistanceSquared Euclidian Distance

1

2

3

O grupo 1 está mais próximo do grupo 2 do que do grupo 3

Between Groups Between Groups –– Simple Simple MatchingMatching

Page 41: Analise de Clusters

Análise de Dados

MEE, MEGI e MGRH

ISLA

5. Análise de Clusters

Ana Oliveira-Brochado

Outubro 2011 41

Between Groups Between Groups –– JaccardJaccard

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis

Presenças Ausências

Presenças a b

Ausências c d

Objecto mObjecto mObjecto mObjecto m

Objecto nObjecto nObjecto nObjecto n

cba

aJaccard

dcba

dasimplesiaconcordânc

++=

++++

=

A medida de Jaccard não considera 2 serviços para os quais 2 indivíduos são são subscritores na definição de semelhança entre dois indivíduos.

O simple matching considera dois consumidores semelhantes quando possuem ambos os dois serviços ou quando ambos são possuem os 2 serviços

A medida a usar depende da definição do ‘semelhante’ que se aplica à situação.

1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis