Análise de Cluster aplicado à dados ecológicos

29
Análise de Agrupamentos Valério De Patta Pillar Departamento de Ecologia Universidade Federal do Rio Grande do Sul Porto Alegre [email protected] http://ecoqua.ecologia.ufrgs.br

description

Uso da análise de agrupamentos (cluster) à dados ecológicos. Apresentação animado com detalhes e exemplos de análise

Transcript of Análise de Cluster aplicado à dados ecológicos

Page 1: Análise de Cluster aplicado à dados ecológicos

Análise de Agrupamentos

Valério De Patta PillarDepartamento de Ecologia

Universidade Federal do Rio Grande do SulPorto Alegre

[email protected]://ecoqua.ecologia.ufrgs.br

Page 2: Análise de Cluster aplicado à dados ecológicos

Análise de dados com MULTIVData

quantitative, qualitative, binary, mixed

Ordination

Transformation

Resemblancebetween variables or sampling units

Cluster analysis

Randomization tests

to compare groups of sampling units

(analysis of variance) or to compare variables

Descriptive attributes and

bootstrap

Bootstrap BootstrapDisponível em http://ecoqua.ecologia.ufrgs.br

Page 3: Análise de Cluster aplicado à dados ecológicos

Análise de Agrupamentos(método de ligação simples)

5

4

76

32

1

20

30

40

20 40Species A

Species B

234

15

67

0 4 8

1 02 5.83 03 6.56 1.00 04 7.68 2.24 2.00 05 4.24 6.48 7.28 8.54 06 13.78 9.27 9.43 8.06 12.73 07 15.56 11.23 11.36 10.63 13.34 4.47 0

1 2 3 4 5 6 7

Sp.A Sp.B Sp.C1 26 28 182 28 30 143 29 31 134 29 33 135 30 27 196 35 38 157 39 36 15

Page 4: Análise de Cluster aplicado à dados ecológicos

Análise de Agrupamentos• Agrupamento hierárquico

– Algoritmos podem ser aglomerativos ou divisivos– Processo de agrupamento representado por um dendrograma – Não produz uma classificação mas n-1 possibilidades de

classificação, pois o número de grupos é definido a posteriori– Alguns algoritmos aglomerativos: Ligação simples, ligação

completa, ligação média (UPGMA, WPGMA), soma de quadrados (Ward)

• Agrupamento não-hierárquico– Número de grupos é especificado a priori e o resultado é uma

classificação.

Referências: Legendre, P. ; Legendre, L. 1998. Numerical Ecology. Elsevier, N. Yo rk. Orlóci, L.; Kenkel, N.C.; Orlóci, M. 1987. Data Analysis in Population and Community Ecology. University

of Hawaii, Honolulu / New Mexico State University, Las Cruces. p 175-182. Pielou, E. C. 1984. The Interpretation of Ecological Data; a Primer on Classification and Ordination. New

York, J. Wiley. p. 13-40 e 63-81. Pillar, V. D. 1999. How sharp are classifications? Ecology 80: 2508-2516 Podani, J. 2000. Introduction to the Exploration of Multivariate Biological Data. Leiden, Backhuys. p.

135-174.

Page 5: Análise de Cluster aplicado à dados ecológicos

Algoritmo de agrupamento aglomerativo hierárquico

(1) São agrupados os dois objetos (ou dois grupos de objetos) que forem mais semelhantes na matriz de semelhança.(2) A matriz de semelhança é redefinida de acordo com o grupo que foi formado. (3) Repete-se o processo até que todos os objetos formem um único grupo (n-1 passos de agrupamentos).

Baseado em uma matriz de semelhança comparando n objetos (unidades amostrais ou variáveis) aos pares:

Page 6: Análise de Cluster aplicado à dados ecológicos

Alguns critérios para a redefinição da matriz de semelhança após cada passo aglomerativo (Extraído de Podani 1994:82)

Page 7: Análise de Cluster aplicado à dados ecológicos

Ligação Simples• Quando a matriz contém dissimilaridades, a

dissimilaridade entre os grupos P e Q é:– dPQ = INF [ djk, para j=1, ..., n-1 e k=j+1, ..., n

objetos, desde que j pertença ao grupo P e k ao grupo Q ]

onde:• djk é um elemento da matriz de dissimilaridades• INF é valor mínimo no conjunto entre []

• Quando a matriz contém similaridades, SUP (máximo) é usado ao invés de INF.

Page 8: Análise de Cluster aplicado à dados ecológicos

Ligação Simples

Page 9: Análise de Cluster aplicado à dados ecológicos

Ligação Completa• Quando a matriz contém dissimilaridades,

a dissimilaridade entre os grupos P e Q é– dPQ = SUP [ djk, para j=1, ..., n-1 and k=j+1, ...,

n objetos, desde que j pertença ao grupo P e k ao grupo Q ]

onde:– djk é um elemento da matrizx de dissimilaridades– SUP é o valor máximo no conjunto entre []

• Quando a matriz contém similaridades, INF é usado aon invés de SUP.

Page 10: Análise de Cluster aplicado à dados ecológicos

Ligação Completa

Page 11: Análise de Cluster aplicado à dados ecológicos

Ligação Média (UPGMA)Rohlf (1963)

• UPGMA: Unweighted Pair Group Method using Arithmetic Averages

• A distância entre dois objetos ou grupos M e N é dada pela média aritmética das distâncias entre os elementos dos dois grupos.

Page 12: Análise de Cluster aplicado à dados ecológicos

Soma de quadrados progressiva(Ward 1963, Orlóci 1967)

O critério de agrupamento minimiza o aumento na soma de quadrados dentro do grupo formado a cada passo de agrupamento, i.e. QPQ = QP+Q - QP - QQ

Onde QP+Q é a soma de quadrados total no grupo P+Q e QP e QQ são as somas de quadrados dentro dos grupos P e Q.QP+Q =

1np+nq h

∑ dhi2i∑

para h=1, ..., n-1 e i=h+1, ..., n objetos, desde que h e i pertençam ao grupo P ou Q

QP =

1np h∑ dhi2

i∑

para h=1, ..., n-1 and i=h+1, ..., n objetos, desde que h e i pertençam ao grupo P

QQ =

1nq h∑ dhi2

i∑

para h=1, ..., n-1 and i=h+1, ..., n objetos, desde que h e i pertençam ao grupo Q

Page 13: Análise de Cluster aplicado à dados ecológicos

Soma de quadrados progressiva

Page 14: Análise de Cluster aplicado à dados ecológicos
Page 15: Análise de Cluster aplicado à dados ecológicos

Nitidez de grupos e suficiência amostral em análise de

agrupamentos•Análise de agrupamentos é uma ferramenta para classificação de quaisquer objetos.•Métodos de agrupamento revelam grupos mesmo quando não existe estrutura clara de grupos nos dados. Os grupos revelados são reais? Como escolher um nível de partição adequado? •Seria estável a classificação se o levantamento fosse repetido muitas vezes?

•O tamanho da amostra é suficiente para responder essas questões?

Page 16: Análise de Cluster aplicado à dados ecológicos

Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias.

Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias definindo 2 grupos nítidos.

Quantos grupos? (onde “cortar” o dendrograma)

Page 17: Análise de Cluster aplicado à dados ecológicos

São nítidos os grupos?

0

WITHIN GROUP SUM OF SQUARES

9000

1

2

3

Análise de agrupamentos de 20 comunidades em vegetação de campo (quadros 0.1 x 1 m) (Cadenazzi 1996). O método de agrupamentos é variância mínima e a análise é baseada em distâncias Euclidianas.

Qual a probabilidade de que uma classificação (e.g., tipos de comunidades) obtida de um levantamento se mantenha ao se repetir o levantamento no mesmo universo amostral?

Page 18: Análise de Cluster aplicado à dados ecológicos

Avaliação da nitidez de grupos por auto-reamostragem

(bootstrap)Análise de agrupamentos é realizada com uma amostra, e grupos são definidos a um dado nível de partição.Amostras bootstrap são tomadas reamostrando a amostra com reposição. Análise de agrupamentos é realizada com cada amostra bootstrap e os grupos encontrados são comparados com os grupos originais.Quanto mais nítidos forem os grupos na amostra, mais estáveis serão os grupos encontrados nas amostras bootstrap.Quanto mais difusos forem os grupos na amostra, mais instáveis serão os grupos nas amostras bootstrap.

Pillar, V.D. 1999. How sharp are classifications? Ecology 80: 2508-2516.

Page 19: Análise de Cluster aplicado à dados ecológicos

Dada uma amostra de n unidades amostrais e p variáveis submetida a análise de agrupamentos, o método gera as probabilidades necessárias para avaliar a significância das partições com k grupos usando tamanhos crescentes de amostra nz ≤ n.

Pillar, V.D. 1998. Sampling sufficiency in ecological surveys. Abstracta Botanica 22: 37-48.

Avaliação da nitidez de grupos por bootstrap combinada com amostragem em processo

Page 20: Análise de Cluster aplicado à dados ecológicos

Algoritmo: - Cada it eração to ma uma amostra boots tr ap com nz unidades amostrais e

submete -a a análise de agrupamentos.

- Cada it eração computa G

z

* , que é a similaridade entre a partição com k grupos na amostra bootstrap e a partição com k grupos na amostra de referência,

- e computa G

z

o sob a hipótese nula de que os grupos são nítidos. Se H0 é verdadeira, cada grupo encontrado pela análise de agrupamentos na amostra bootstrap é uma amostra aleatória do grupo correspondente (mais próximo) no pseudo universo amostral.

- A comparação de G

z

o e G

z

* conc lui uma it eraçã o.

- A probabilidade P ( G

z

o

≤ G

z

*

) é encontrada após muitas iterações.

- Se P( G

z

o

≤ G

z

*

) ≤ a hipótese nula é rejeitada, os grupos são difusos e a amostra é suficiente.

- Se P( G

z

o

≤ G

z

*

) > a hipótese nula é aceita, os grupos são nítidos ou o tam anho da amostral é insuficiente. Suficiência amostral é avaliada pela estabilidade de P(

G

z

o

≤ G

z

*

) com tam anhos crescentes de amostra nz ≤ n.

Avaliação de nitidez de grupos por auto-reamostragem (bootstrap)

Page 21: Análise de Cluster aplicado à dados ecológicos

Evaluation of group sharpness by bootstrap resampling

The G

z

* parameter

The n + nz sampling units in the reference sample and in the bootstrap sample arepoints in a space defined by p variables.

The parameter evaluated in each bootstrap sample of size nz is:

Gz

*

= 1 −

Sz

Tz

where

Tz

=

1

n + nz h = 1

n + nz

− 1

∑ dh i

2

i = h + 1

n + nz

is the total sum of squares, involving (n + nz)(n + nz–1 )/ 2 squareddissimi larities of n + nz sam pling units, n is the size of the re fe re ncesam ple and nz is the size of the bootstrap sam ple .

Sz is the sum of squares be twee n nearest ne ighbor groups m appedone -to-one in the re fere nce sam ple to the bootstrap sam ple .

Sz requ ires the comp utation of sum of squares Qj for all k2 pair-wisecontrasts be twee n the k groups in the bootstrap sam ple and the kgroups in the re fe re nce sam ple .

Page 22: Análise de Cluster aplicado à dados ecológicos

Evaluation of group sharpness by bootstrap resamplingThe sum of squares Qj are arranged in a k by k matrix, with rows identifying the groups found in the bootstrap sample and the columns the groups in the reference sample.

The k! permutations of the columns of this matrix are examined such that a minimum trace is found.

The minimum trace is the value of S we are seeking.

The k pair-wise contrasts in the main diagonal indicate one-to-one correspondence of the groups in the bootstrap sample with the groups in the reference sample.

The between groups sum of squares for contrast j is

Qj

= Tj

− Wj B

+ Wj R( )

where

Tj is the total sum of squares involving squared distances of the sampling units in the two groups,

W jB is the sum of squares within the group cB in the bootstrap sample:

Wj B

=

1

nc B h = 1

n + nz

− 1

∑ dh i

2

d ( h , i , cB

)

i = h + 1

n + nz

where ncB is the size of group cB in the bootstrap sample and the indicator variable (h,i,cB) is one if sampling unit h and i belong to group cB or zero if othe rwise. WjR is similarly defined.

Page 23: Análise de Cluster aplicado à dados ecológicos

Algorithm illustrated by an example (Pillar 1999):(1) Complete data set (variables are rows, sampling units are columns):

1 2 3 4 5V1 17 14 27 21 16V2 5 9 8 5 0V3 5 8 0 0 10

(2) Distance matrix (squared Euclidean) of sampling units:0 34 134 41 51

0 234 129 890 45 285

0 1500

(3) Reference partition with 2 groups generated by cluster analysis:Sampling units: 1 2 3 4 5Groups: 1 1 2 2 1

(4) Get a bootstrap sample (in this example sample size nz = n):Sampling units: 1 5 4 4 5

(5) Distance matrix (squared Euclidean) of sampling units (reference plusbootstrap):

0 34 134 41 51 0 51 41 41 510 234 129 89 34 89 129 129 89

0 45 285 134 285 45 45 2850 150 41 150 0 0 150

0 51 0 150 150 00 51 41 41 51

0 150 150 00 0 150

0 1500

(6) Bootstrap sample partition with 2 groups generated by cluster analysis:Sampling units: 1 5 4 4 5Groups: 3 4 3 3 4

(7) Sum of squares for contrasts between groups of sampling units in thereference (rows) and bootstrap sample (columns); matrix is rearranged:

3 4 4 31 78.2 32.8 ––> 32.8 78.22 28.6 206 206 28.6

(8) To tal sum of squares computed from distance matrix of step (5):T = (34+...+51+…+150)/ 10 = 411.6One-to-one nearest neighbor sum of squares between partitions: S =32.8+28.6 = 61.3667Nearest neighbor groups: 1,4; 2,3; G

z

* = 1 - S / T = 0 .8509

(9 ) Null boot s tra p s am ple ( th e unit s in e ach gr oup ar e ta ken at ra ndomfro m t he ne ar es t gro up in t he refe re nce s am ple):Sam pling un its: 3 1 3 4 5Gro ups: 3 4 3 3 4

(10 ) Dis tan ce m atri x o f s ampling unit s ( refe re nce p lus null b oot s traps am ple):

0 3 4 1 3 4 4 1 5 1 1 3 4 0 1 3 4 4 1 5 10 2 3 4 1 2 9 8 9 2 3 4 3 4 2 3 4 1 2 9 8 9

0 4 5 2 8 5 0 1 3 4 0 4 5 2 8 50 1 5 0 4 5 4 1 4 5 0 1 5 0

0 2 8 5 5 1 2 8 5 1 5 0 00 1 3 4 0 4 5 2 8 5

0 1 3 4 4 1 5 10 4 5 2 8 5

0 1 5 00

(11 ) Sum of squar es for cont ra s ts be t wee n nea re st ne ighb or gro ups ofs am pling unit s in t he re fe ren ce and null boot s tra p s am ple:1 ,4: 6 .52 ,3: 1 .5

(12 ) To t al s um o f s quar e s comput e d fro m d ist ance matri x of s t e p (10 ):T° = ( 34+ ...+51+. ..+285+150 )/ 10 = 495 .8Exclusive ne a re s t ne ighb or s um of s quar e s be t wee n partit ion s: S° = 6 .5+1.5= 8

G

z

o = 1 – S° / T° = 0 .9839Since

G

z

o is larg e r t han G

z

* t his it e rati on will add z e ro to t he cumulati vefre que ncy F(

G

z

o ≤ G

z

* ).

(13 ) Repeat ste ps (4 ) to (12 ) up to B times

A run with B = 10000 ite rations gave a P( G

z

o ≤ G

z

* ) = 0 .3839 and average

G

z

* = 0 .9068.

Page 24: Análise de Cluster aplicado à dados ecológicos

Evaluation of sampling sufficiency andsignificance for group partition levels indifferent data sets by probabilitiesP(

G

z

o

≤ G

z

*

). Probabilities we re ge ne rated in1 0 00 0 bootstrap ite rations at each sam plesize . Data se ts and partition levels are : (A)Artificial data of 60 un its described byrandom variables, partition level 3 groups; (B-C) Artificial data se t of 3 well defined groups,partition levels 3 and 4 groups; The groupswere de fine d by sum of squares clustering.(From Pillar 19 98 )

Page 25: Análise de Cluster aplicado à dados ecológicos

Evaluation of sampling sufficiency andsignificance for group partition levels indifferent data sets by probabilitiesP(

G

z

o

≤ G

z

*

). Probabilities we re ge ne rated in1 0 00 0 bootstrap iterations at each sam plesize . Data se ts and partition levels are : (D -F)EEA grassland data se t (Pillar e t al. 1 9 92 ),partition levels 2, 3 and 4 groups; and (G-J)Santa Catarina grassland data se t (Pillar andTcacenco 1 98 6 ), partition levels 2, 3, 4 and5 groups. The groups were define d by sum o fsquares clustering. (From Pillar 19 9 8)

Page 26: Análise de Cluster aplicado à dados ecológicos

0.00 0.05 0.10 0.15 0.20 0.25 0.30

0.1

0.2

0.3

0.4

0.5

CENTROID DIFFERENCE

2-group partitions

3-group partitions

Probability curve of P( G

z

o

≤ G

z

*

) for increasing separation be twe en groups insim ulated data. Rando m data se ts were de fine d with 2 groups sep arate d byexpected difference d be twee n ce ntroids ranging from d = 0 (a single group) to d= 0. 3 2 (clearly two groups). The groups have equal sizes (2 0 and 2 0 sam plingunits). The data contain 4 0 variables with norm al (solid line) and uniform (dott e dline ) d istribution within each group. Standard deviations of the m eans based on 1 0data sets in each case are ind icate d. The partition level after cluster analysis isind icate d on each line . The numb er of ite rations is 1 0 00 for each com bination ofcentroid difference , partition level, d istribution type and data se t replicate .

(From Pillar 19 99 )

Page 27: Análise de Cluster aplicado à dados ecológicos

Dimensions: 245 sampling units, 9 variablesData type: (5) mixedType: 3 3 3 3 3 2 3 3 3 Resemblance measure: (5)Gower index, (1)between sampling unitsClustering criterion: (4)average linkage (UPGMA)

SAMPLERBootstrap resamplingSample attribute: sharpness of group structure (G*)Considering partitions with 2 to 5 groups.

Sample size at 1 sampling step(s):245

Probabilities P(GNull<=G*) generated in 1000 iterations of bootstrap resampling:2 groups: 0.2813 groups: 0.1414 groups: 0.1065 groups: 0.027

Page 28: Análise de Cluster aplicado à dados ecológicos

Cluster analysis (UPGMA) of 245 vegetation patches delimited on grassland, Morro Santana, Porto Alegre (Klebe 2003). Description used 6 structural variables and the analysis was based on Gower similarities.

Page 29: Análise de Cluster aplicado à dados ecológicos

Types of grassland vegetation patches, Morro Santana, Porto Alegre (Klebe 2003). Classification based on 9 variables describing vegetation structure.