ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa...

13
ANÁLISE EXPLORATÓRIA DE DADOS EXEMPLOS DE PROBLEMAS DE RECONHECIMENTO DE PADRÕES É possível distinguir a origem de amostras de café ou a diferença entre vinhos usando dados gerados por um cromatógrafo? Em caso positivo, é possível identificar quais os picos do cromatograma são os responsáveis? Pode-se determinar que parte de uma planta e em que época do ano as suas folhas devem ser colhidas, para se obter um rendimento maior na extração do princípio ativo? É possível usar parâmetros estruturais para estimar se um derivado de um fármaco será mais ativo ou menos tóxico do que o composto original, antes de sintetizá-lo? É possível usar técnicas instrumentais para fins forenses? microscopia para identificar o estilo de vida de uma pessoa com base na análise de seu cabelo? ICP-EOS para determinar se um embutido a base de peru foi feito com carne de peito (como indica o rótulo) ou com carne da coxa? espectroscopia para detectar possíveis fraudes em destilados? A análise exploratória de dados é uma ferramenta útil para a identificação de padrões e nos auxilia a encontrar respostas para perguntas como estas acima. Vamos nos restringir aqui ao estudo do reconhecimento de padrões não supervisionado. ‘Não Supervisionado’ porque durante a análise dos dados, não se faz uso de informação a respeito das classes existentes entre as amostras. Existem métodos matemáticos que possibilitam a visualização de dados multivariados no espaço bi ou tri-dimensional. Vamos ver aqui dois destes métodos. Eles são totalmente diferentes em suas concepções e geralmente usados para a análise exploratória dos dados. Análise de Componentes Principais; PCA e Análise de Agrupamentos Hierárquicos; HCA ANÁLISE DE COMPONENTES PRINCIPAIS Introduzida por Karl Pearson em 1901. [3] O tratamento formal do método é devido ao trabalho de Hotteling, [4] da década de 30. PCA é um método de projeção: que projeta os dados multivariados num espaço de dimensão menor reduzindo a dimensionalidade do espaço do conjunto dos dados e por isto é um método de “compressão”. Como resultado, as informações mais importantes e relevantes se tornam mais óbvias Esta análise também pode ser usada para detectar amostras com comportamento atípico, diferenciado do restante do conjunto (anômalas). ______________________________________________________________________________________________ [3] Pearson, K. ‘On Lines and Planes of Closest Fit to Systems of Points in Space’, Phil. Mag. 2 (1901) 559-572. [4] Hotteling, H. ‘Analysis of a Complex Statistical Variables into Principal Components’, J. Edu. Psychol. 24 (1933) 417-441, 498-520. O método PCA está fundamentado no conceito de CORRELAÇÃO entre as variáveis As correlações existem no dia a dia com mais freqüência que imaginamos. Espectros de emissão de uma espécie porfirínica em diferentes concentrações na região de 585 a 710 nm, Todos os espectros têm a mesma forma e que a única variação que ocorre é nas intensidades de emissão, que aumentam regularmente com o aumento da concentração. Se tivessem sido medidas apenas as intensidades para estes dois comprimentos de onda, os espectros teriam apenas duas variáveis. Cada espectro é representado por um ponto no espaço R 2 das variáveis. CONCLUSÃO: A “dimensionalidade intrínseca” ou o “posto químico” deste sistema é UM e não DOIS, porque ele depende apenas de um único fator latente, que é a concentração. Uma das amostras está ligeiramente afastada da reta ideal. Como justificar, se apenas a concentração está variando? Havendo correlações significativas entre as variáveis do conjunto de dados, é possível encontrar novas variáveis em quantidade menor que a inicial, que descrevem aproximadamente toda a informação contida nos dados originais. Intensidades nestes dois comprimentos de onda são altamente correlacionadas. Cada ponto no gráfico corresponde a um vetor que vai da origem ao ponto. Aumentando a concentração, o que se faz é esticar ou encurtar este vetor. 0,1 0,2 0,3 0,04 0,08 0,12 0,16 Comprimento de onda (619 nm) Comprimento de onda (663 nm)

Transcript of ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa...

Page 1: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

ANÁLISE EXPLORATÓRIA DE DADOSEXEMPLOS DE PROBLEMAS DE RECONHECIMENTO DE PADRÕES

♣ É possível distinguir a origem de amostras de café ou a diferença entre vinhos usando dados gerados por um cromatógrafo? Em caso positivo, é possível identificar quais os picos do cromatograma são os responsáveis?

♣Pode-se determinar que parte de uma planta e em que época do ano as suas folhas devem ser colhidas, para se obter um rendimento maior na extração do princípio ativo?

♣É possível usar parâmetros estruturais para estimar se um derivado de um fármaco será mais ativo ou menos tóxico do que o composto original, antes de sintetizá-lo?♣É possível usar técnicas instrumentais para fins forenses?

♦microscopia para identificar o estilo de vida de uma pessoa com base na análise de seu cabelo?

♦ICP-EOS para determinar se um embutido a base de peru foi feito com carne de peito (como indica o rótulo) ou com carne da coxa?

♦espectroscopia para detectar possíveis fraudes em destilados?

A análise exploratória de dados é uma ferramenta útil para a identificação de padrões e nos auxilia a encontrar respostas para perguntas como estas acima.

Vamos nos restringir aqui ao estudo do reconhecimento de padrões não supervisionado. ‘Não Supervisionado’ porque durante a análise dos dados, não se faz uso de informação a respeito das classes existentes entre as amostras.

Existem métodos matemáticos que possibilitam a visualização de dados multivariadosno espaço bi ou tri-dimensional. Vamos ver aqui dois destes métodos. Eles são totalmente diferentes em suas concepções e geralmente usados para a análise exploratória dos dados.

Análise de Componentes Principais; PCAe

Análise de Agrupamentos Hierárquicos; HCA

ANÁLISE DE COMPONENTES PRINCIPAISIntroduzida por Karl Pearson em 1901. [3]

O tratamento formal do método é devido ao trabalho de Hotteling, [4] da década de 30.

PCA é um método de projeção: → que projeta os dados multivariados num espaço de dimensão menor reduzindo a dimensionalidade do espaço do conjunto dos dados e por isto é um método de “compressão”. Como resultado, as informações mais importantes e relevantes se tornam mais óbvias

Esta análise também pode ser usada para detectar amostras com comportamento atípico, diferenciado do restante do conjunto (anômalas). ______________________________________________________________________________________________[3] Pearson, K. ‘On Lines and Planes of Closest Fit to Systems of Points in Space’, Phil. Mag. 2 (1901) 559-572. [4] Hotteling, H. ‘Analysis of a Complex Statistical Variables into Principal Components’, J. Edu. Psychol. 24 (1933) 417-441, 498-520.

O método PCA está fundamentado no conceito de CORRELAÇÃO entre as variáveis

As correlações existem no dia a dia com mais freqüência que imaginamos.

Espectros de emissão de uma espécie porfirínica em diferentes concentrações na região de 585 a 710 nm,

Todos os espectros têm a mesma forma e que a única variação que ocorre é nas intensidades de emissão, que aumentam regularmente com o aumento da concentração.

Se tivessem sido medidas apenas as intensidades para estes dois comprimentos de onda, os espectros teriam apenas duas variáveis.

Cada espectro é representado por um ponto no espaço R2 das variáveis.

CONCLUSÃO: A “dimensionalidade intrínseca” ou o “posto químico” deste sistema é UM e não DOIS, porque ele depende apenas de um único fator latente, que é a concentração.

Uma das amostras está ligeiramente afastada da reta ideal. Como justificar, se apenas a concentração está variando?

Havendo correlações significativas entre as variáveis do conjunto de dados, épossível encontrar novas variáveis em quantidade menor que a inicial, que descrevem aproximadamente toda a informação contida nos dados originais.

Intensidades nestes dois comprimentos de onda são altamente correlacionadas.

Cada ponto no gráfico corresponde a um vetor que vai da origem ao ponto. Aumentando a concentração, o que se faz é esticar ou encurtar este vetor.

0,1 0,2 0,3 0,04

0,08

0,12

0,16

Comprimento de onda (619 nm)

Com

prim

ento

de

onda

(663

nm

)

Page 2: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

Estas novas variáveis (FATORES, COMPONENTES PRINCIPAIS, AUTOVETORES VARIÁVEIS LATENTES) são definidas como combinações lineares das variáveis originais.

NOTA: As relações entre as amostras não são alteradas por esta transformação.

PROPRIEDADES IMPORTANTES DAS NOVAS VARIÁVEIS (novos eixos)

♦São ortogonais entre si (i. e., são completamente NÃO-correlacionadas)♦São construídas em ordem decrescente da quantidade de variância que

descrevem (o primeiro fator descreve maior variância dos dados que o segundo, etc.)RESULTADO: pode-se visualizar a informação relevante dos dados em um espaço de baixa dimensionalidade.Através da ANÁLISE DE COMPONENTES PRINCIPAIS determina-se a dimensionalidade intrínseca do conjunto de dados, A.

PC1: eixo coincidente com a direção de maior variabilidade da lapiseira.PC2: perpendicular a PC1. Pode-se reconhecer o clipe e ter informação sobre as extremidades. Esta é a projeção da lapiseira no espaço R2.

Com duas PCs é redonda ou quadrada? Esta informação é dada por PC3.

FUNDAMENTOS MATEMÁTICOS

O ponto de partida para a análise exploratória é a MATRIZ PRÉ-TRATADA dos dados,

[ ]J

IJII

J

J

I xxx

xxxxxx

xxx

x

xx

X LL

LL

MOMM

MOMM

LL

LL

M

M21

21

22221

11211

T

T2

T1

=

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

Cada amostra é representada por um vetor linha e cada variável por um vetor coluna,

Tix = [xi1 xi2 xi3 ⋅⋅⋅ xiJ] xj =

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

Ij

j

j

x

xx

M

M2

1

A matriz X(IxJ) é decomposta em duas matrizes, uma de escores T e uma de pesos “loadings“ L de tal maneira que,

ELTLTX +== TTAA [ ] [ ]AAAA llLttT LL 11 ==onde

A é a dimensão intrínseca ou o posto químico do conjunto de dados: o número de PCs necessário para descrever as informações relevantes dos dados.

[ ] [ ] [ ]⎥⎥⎥

⎢⎢⎢

⎡+

⎥⎥⎥

⎢⎢⎢

⎡++

⎥⎥⎥

⎢⎢⎢

⎡+

⎥⎥⎥

⎢⎢⎢

⎡=

⎥⎥⎥

⎢⎢⎢

⎡EltltltX TT

2T11 2 AAL

T = Matriz de ESCORES → coordenadas das amostras no novo sistema de eixos.

L = Matriz de PESOS → colunas de L contêm informação do peso de cada variável original na formação dos novos eixos.

Os ESCORES expressam as relações entre as amostrasOs PESOS mostram as relações entre as variáveis.

Os pesos variam entre +1 e –1 e são os cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais.

Altos pesos indicam altas correlações (altos coeficientes) onde o ângulo entre PCa e a variável original é pequeno.

Componentesprincipais

Quadradosmínimos

Componentesprincipais

Quadradosmínimos

Efeito de centrar os dados na média.

(a) (b)

(a): Os dados não foram pré-processados. (b): Os dados foram centrados na médias

Page 3: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

ExemploA matriz de dados contém as respostas de eletrodos seletivos para Mg2+ e

Cl- (J = 2) de seis amostras líquidas transformadas em milimolar (I = 6).

[Mg2+] [Cl-]

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

=

12,1216,0259,9875,1628,0403,8855,9763,0174,1272,1532,0340,975

X

A representação gráfica dos dados originais mostra que as amostras apresentam uma relação linear quase que perfeita.

Gráfico dos dados originais

O pré-processamento utilizado aqui é a centragem dos dados na média, resultando na matriz centrada na média Xcm.

[ ]

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

=

=

5,0742,4892,9401,6260,9930,3491,072-0,519-2,921-1,383-5,014-2,561-

048,7536,3

cmX

x

Gráfico dos dados centrados na média

A matriz dos dados autoescalados será calculada a seguir, apenas para mostrar a alta correlação existente entre as duas variáveis.

A matriz de correlação das colunas de X, que contém os coeficientes de correlação entre as variáveis, é obtida da matriz de dados autoescalada Xas.

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

=

1,3541,3230,7850,8640,2650,1850,286-0,276- 0,780-0,735-1,338-1,361-

asX

⎥⎦

⎤⎢⎣

−=

=000,1998,0998,0000,1

1

T

C

XXC

Iasas

A matriz de correlação C

♣ é quadrada (JxJ) ♣ é simétrica c12 = c21♣ tem os elementos da diagonal iguais a 1,0 ♣ tem traço igual ao número de variáveis J.

O coeficiente de correlação entre as variáveis [Mg2+] e [Cl-] é igual ao coeficiente de correlação entre [Cl-] e [Mg2+] = 0,998.

Este valor é bastante alto confirmando a alta correlação, já detectada anteriormente.

O que PCA faz??

Agrupa aquelas variáveis que são altamente correlacionadas numa nova variável chamada COMPONENTE PRINCIPAL, direcionada ao longo do eixo de maior espalhamento dos dados.

♣ Fazendo uma rotação para facilitar a visualização, obtém-se a representação gráfica dos ESCORES.

♣ Note a diferença entre as escalas nos eixos PC1 e PC2.

♣ Os dados estão dispersos ao longo do eixo PC1, que descreve a maior quantidade de informação dos dados originais.

♣ Os dados apresentam uma pequena variação ao longo de PC2.

♣ A amostra 3 que nos dados centrados na média tinha coordenadas iguais à -0,519 e -1,072, agora tem escores próximos de -1,0 e 0,0 em PC1 e PC2 respectivamente.

Page 4: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

TVSUX =⎥⎥⎦

⎢⎢⎣

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

××××=

JJJIIIJI

TVSUX

As matrizes U e V são quadradas (IxI e JxJ respectivamente) e ortonormais, i. e., as colunas de U e de V são ortogonais entre si e normalizadas (U UT = I (IxI) e V VT

= I (JxJ)). A matriz S é retangular diagonal, (IxJ), contendo os valores singulares na

diagonal e todos os elementos fora da diagonal iguais a zero.

Esta decomposição é única, a menos dos sinais algébricos das colunas de U e de V. Se uma coluna de U tem o sinal invertido, a respectiva coluna de V também estará com o sinal invertido.

O produto U S é a matriz de escores Te

V corresponde à matriz de pesos L.

Há várias maneiras de calcular os escores os pesos.1- Decomposição de Valores Singulares, SVD2- Diagonalização da Matriz de correlação e3- Algoritmo NIPALS.

1- Método de Decomposição de Valores Singulares, SVD

A matriz de dados X é decomposta nas três matrizes: U, S e V,

Relação existente entre as matrizes obtidas pela decomposição SVD e a matriz de correlação:

As colunas da matriz V contém os autovetores da matriz XT X e as colunas da matriz U contém os autovetores da matriz X XT

2- Método de diagonalização da matriz de correlação.

Os autovetores V e os autovalores Λ são calculados resolvendo a equação secular

XT X V = Λ V ou [XT X - Λ] V = 0,

A matriz de autovalores Λ é diagonal e seus elementos são iguais aos quadrados dos respectivos valores singulares, λa = (saa)2 . Cada elemento λa da diagonal é igual à variância dos dados originais descrita pela a-ésima componente principal. A quantidade de informação contida numa única componente principal pode ser dada pela porcentagem de variância explicada, %Vara,

,100%

1

×∑

=

=

K

kk

aaVar

λ

λ onde K = min{I,J} é o menor dentre os valores de I e J.

Vamos retornar ao exemplo dos eletrodos seletivos para calcular os escores e os pesos usando o método de decomposição SVD.

[ ] )(XcmsvdV,SU, =

⎥⎦

⎤⎢⎣

⎡ −===

=

⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢

4485,08938,08938,04485,0PC2PC1

00000000

2142,0003720,9

0,74920,0831-0,0958-0,05520,23680,60300,01900,62190,29590,0177-0,6299-0,35810,1725-0,23150,71740,04810,62230,1113

0,05880,00590,03260,98660,0770-0,1270-0,42150,4534-0,60620,1135-0,3429-0,3447- 0,47700,58920,1416-0,0897-0,1906 0,6007-

LVS

U

A primeira componente principal é definida como: PC1 = 0,449[Mg2+] + 0,894[Cl-]

e a segunda componente principal como: PC2 = -0,894[Mg2+] + 0,449 [Cl-].

Os resultados mostram que estes elementos químicos estão na proporção de 1:2,

De onde é fácil concluir que as soluções envolvidas no experimento são de MgCl2.

Escores T = U S

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

=

0,05075,65090,1349-3,3565 0,13331,0435 0,0165-1,1905-0,0734-3,2306-0,0408 5,6297-

21

T

tt

O quanto de variância é descrito em cada componente principal?

Esta informação está contida na matriz S (elementos da diagonal iguais a saa)ou na matriz Λ em que λa =

2saa ⎥⎦

⎤⎢⎣

⎡=

0459,08344,87

Λ

A variância total do conjunto: soma das variâncias de cada componente principal.

Variância Total = ∑λ=

2

1kk = 87,8344+ 0,0459 = 87,8803

⎪⎪⎩

⎪⎪⎨

==∑= PC2em%05,0100

87,88030459,0

PC1em%95,9910087,8803

8344,87

% 2

1kk

aaVarλ

λ

99.95% da informação original esta contida na primeira componente principal e apenas 0,05% na segunda. Este conjunto de dados tem posto químico A = 1.

2a Componente Principal representa somente ruído Por que não removê-la??

Page 5: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

[ ] [ ] T22

T112121 ˆ ltEltXllLttT ====

[ ] [ ]

4444 34444 214444 34444 21

EX

l

t

l

t

l

L

l

T

tt

X

T2

2

T1

1

T2

T

T121

ˆ

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

+=

×↓↓

=

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

==

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

=

+=

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

0,0230,045-0,061-0,121

0,0600,119-0,007-0,015 0,033-0,0660,0180,037-

5,0512,5343,0001,5050,9330,4681,064-0,534-2,888-1,449-5,032-2,525-

ˆ

5,0742,4892,9401,6260,9930,3491,072-0,519-2,921-1,383-5,014-2,561-

ˆ

EXX

EXX

cmcm

cmcm

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

=

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

=

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

=

+=

0,0230,045-0,061-0,121

0,0600,119-0,007-0,015 0,033-0,0660,0180,037-

12,0986,07010,0485,0417,9804,0045,983 3,0024,1602,0872,0161,012

ˆ

12,1216,0259,9875,1628,0403,8855,9763,0174,1272,1532,0340,975

ˆ

EXX

EXX

A matriz de erros é a mesma em ambos os casos (para os dados centrados na média e os dados originais).

.%%1∑=

=A

aaacumulada VarVar

“Quantas componentes principais, A, devem ser utilizadas para se ter uma boa descrição do conjunto de dados?”

A determinação do posto matemático (número de linhas ou colunas independentes na matriz de dados) em uma matriz livre de erro é trivial e coincide com o posto químico deveriam ser os mesmos.

No geral a determinação do posto químico é uma tarefa difícil.

SUGESTÕES:

♣ Inspecionar o gráfico dos autovalores ou da % de variância versus número de PCs, onde A deve corresponder ao número de PCs em que a curva começa a decrescer assintoticamente para zero. ♣ Considerar todas as componentes principais necessárias para descrever cerca de 95% da informação original dos dados.♣ Desprezar as PCs com autovalores menores que 1,0 se os dados estiverem autoescalados uma vez que elas contêm menos informação que uma única variável.♣ O método mais eficaz é a validação cruzada, que será introduzida mais adiante.

Uma vez definida a quantidade de componentes principais (fatores) significativas, A, pode-se calcular a porcentagem de variância acumulada pelas A componentes (%Varacumulada)

3- Algoritmo NIPALS para análise de componentes principais

Os vetores dos pesos e dos escores são calculados iterativamente, um de cada vez.

O processo iterativo é inicializado com uma primeira estimativa de escores, que pode ser a coluna de X que tem maior variância.

Usando estes escores, calcula-se o autovalor da componente principal.

T = U SU é ortogonal S é diagonal

tomando o produto TT T

TT T = (U S)T (U S) = ST UT U S = ST S = L

Os autovalores são calculados fazendo aaa λ=ttT

Usando os escores, pode-se calcular os pesos que são usados para estimar novos escores e o processo continua até à convergência dos autovalores.

1- OS DADOS SÃO PRÉ-PROCESSADOS. Neste caso, serão centrados na média

[I,J] = size(X); X = X-ones(I,1)*mean(X);

2- ESCOLHE-SE UMA DAS COLUNAS DE X COMO ESCORES PARA INICIAR A ITERAÇÃO. (A coluna de X que tem maior variância)

[x,a] = sort(std(X)); t = X(:,a(J))

3- LOOP

iaconvergenc de %Testet)*(t-autovalordelta

escores novos %Estimal)*inv(l*l*Xt

pesos os %Normaliza)/norm(ppl

pesos os %EstimaX*t*t)*inv(tp

sautovalore %Calculat*tautovalor

'

'

''

''

'

=

=

=

=

=

4- SE CONVERGIU: Subtrai a contribuição desta PC, dos dados originais.X = X - t*l’;

5- REPETE OS CÁLCULOS COM A NOVA MATRIZ X PARA CALCULAR A PRÓXIMA COMPONENTE PRINCIPAL.

Page 6: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

Exemplo

⎥⎥⎥⎥

⎢⎢⎢⎢

=

11,58 16,72 12,80 11,17 11,32 17,35 12,09 11,55 10,60 15,28 12,93 10,82 14,19 16,45 12,67 10,65

X

⎥⎥⎥⎥

⎢⎢⎢⎢

=

0,34- 0,27 0,17 0,12 0,60- 0,90 0,53- 0,50 1,32- 1,17- 0,31 0,23-

2,27 0,00 0,048 0,40-

cmX

Cálculo da primeira componente principal usando a matriz pré-processada.

O processo iterativo termina quando delta for menor que um valor pré fixado: 10-8.

A quarta coluna da matriz tem o maior desvio padrão e será usada como escores t0para iniciar o processo iterativo.

Calcula os autovalores

autovalor = t0'*t0 autovalor = 7,3709

Estima e normaliza os pesos (loadings) l1.

p1 = inv(t'*t)*t'*X p1T = [ -0,1282 -0,0053 0,1238 1,0000 ]

l1 = p'/norm(p') l1 =⎥⎥⎥⎥

⎢⎢⎢⎢

0,9845 0,1219 0,0052- 0,1262-

Estima novos escores t1.

t1 = ⎥⎥⎥⎥

⎢⎢⎢⎢

0,3207- 0,5441- 1,4174- 2,2822

t1=X*l1

Calcula delta e testa a convergência. Se não convergiu, repete-se o processo.delta = -0,2457 delta = autovalor – t1'*t1

Está terminada a primeira iteração, onde a partir de t0, calculou-se:

2457,0deltae0,3207- 0,5441- 1,4174- 2,2822

,0,9845 0,1219 0,0052- 0,1262-

,0,3425- 0,6025- 1,3225- 2,2675

110 −=⎥⎥⎥

⎢⎢⎢

⎡=

⎥⎥⎥

⎢⎢⎢

⎡=

⎥⎥⎥

⎢⎢⎢

⎡= tlt

delta é maior que 10-8→ o processo deve ser repetido, iniciando com t1 para calcular novos l1 e t1 até que delta seja menor do que 10-8.

Abaixo estão os valores dos pesos, dos escores e dos valores de delta referentes às 9 iterações que foram necessárias para a convergência.

ESTIMATIVA DOS PESOS NAS 9 ITERAÇÕES ITER 1 ITER 2 ITER 3 ITER 4 ITER 5 ITER 6 ITER 7 ITER 8 ITER 9-0,1262 -0,1178 -0,1147 -0,1136 -0,1131 -0,1130 -0,1129 -0,1129 -0,1129 -0,0052 -0,0124 -0,0153 -0,0163 -0,0167 -0,0168 -0,0169 -0,0169 -0,0169 0,1219 0,1420 0,1493 0,1519 0,1529 0,1533 0,1534 0,1534 0,1534 0,9845 0,9827 0,9820 0,9817 0,9816 0,9816 0,9815 0,9815 0,9815

ESTIMATIVA DOS ESCORES NAS 9 ITERAÇÕES ITER 1 ITER 2 ITER 3 ITER 4 ITER 5 ITER 6 ITER 7 ITER 8 ITER 9 2,2822 2,2746 2,2715 2,2704 2,2700 2,2698 2,2697 2,2697 2,2697 -1,4174 -1,4429 -1,4520 -1,4553 -1,4565 -1,4569 -1,4571 -1,4571 -1,4571 -0,5441 0,5168 -0,5068 -0,5031 -0,5018 -0,5013 -0,5011 -0,5010 -0,5010 -0,3207 -0,3149 -0,3128 -0,3120 -0,3117 -0,3116 -0,3116 -0,3116 -0,3116

O autovalor para a primeira PC é dado por = 7,6229. Este autovalor será usado para calcular a % Variância que ela descreve.

Foi calculada a primeira componente principal.

A informação contida na PC1 deverá ser subtraída da matriz original para iniciar o cálculo da PC2.

T11nova - ltXX cmcm = [ ]0,9815 0,1535; 0,0169;- 0,1129;-*

0,3116- 0,5010- 1,4571- 2,2697

nova

⎥⎥⎥⎥

⎢⎢⎢⎢

−= cmcm XX

Esta é a nova matriz que será usada para calcular a segunda componente principal.

⎥⎥⎥

⎢⎢⎢

⎡=

0,0367- 0,3178 0,1722 0,0873 0,1107- 0,9769 0,5410- 0,4459 0,1077 0,9464- 0,2829 0,3920-0,0397 0,3483- 0,0858 0,1412-

novacmX

SOBRE A “AMBIGÜIDADE ROTACIONAL” OU LIBERDADE DE ROTAÇÃOELTLTX +== TT

AA

aplicando uma rotação AR a TAA LT , E permanece inalterado se

AR for uma matriz ortogonal (AxA) T1AA RR =−

( ) ( ) ERLRTX

ELRRTELRRTELTLTX

+=

+=+=+== −

T

TTT1TT

AAAA

AAAAAAAAAA

As componentes principais podem ser rodadas produzindo novos eixos sem que haja perda de ajuste devido à rotação.

Page 7: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

ROTAÇÃO VARIMAX A rotação varimax: transformação ortogonal feita nas componentes principais.

OBJETIVO: auxiliar na interpretação dos pesos.Esta rotação deve satisfazer a algum critério: maximizar a variância dos pesos em cada componente principal.Aquelas variáveis que mais (menos) contribuem em módulo para uma dada componente principal vão ter a sua contribuição acentuada (diminuída respectivamente). A transformação acentua os pesos mais altos e minimiza os menores:

“Aos que tem mais será dado e aos que não tem, o pouco lhes será tirado”.

RESULTADO: os eixos rodados ficam mais fáceis de serem interpretados pois os pesos se concentram em algumas poucas variáveis, resultando em um novo sistema de eixos que são mais puros em suas influências.

Para ilustrar como funciona a rotação varimax, é necessário encontrar a matriz de rotação, R, tal que a matriz de pesos rodada, , tenha a máxima “SIMPLICIDADE”.

*jal são os pesos e valor médio da a-ésima componente principal

A simplicidade é alta quando algumas variáveis tem pesos altos e outras tem pesos baixos.

A maximização da simplicidade é um processo iterativo onde a matriz R é modificada até à convergência da simplicidade.

( ) ( )⎥⎥⎦

⎢⎢⎣

⎡⎟⎠

⎞⎜⎝

⎛−=

⎟⎟⎟

⎜⎜⎜

⎛−= ∑ ∑∑ ∑∑

= == ==

−A

a

J

jja

A

a

J

jja

J

jajaa l

Jl

Jsimpll

Jsimp

1

2

1

2*

1 1

4*

1

22*2* 11;1

RLL ** =R

e

−2*

al

♣ O processo inicia com o cálculo da simplicidade. ♣ As PCs são rodadas aos pares, iniciando com a 1a e 2a componentes principais, então a 1a e a 3a e assim por diante. ♣ Para cada par de PCs a e b, calcula-se o ângulo φ de rotação. Se o angulo é grande o suficiente (> 0,000025 radianos), a rotação é feita, caso contrário, passa-se para o par seguinte, até que todos os pares sejam testados.

RLL ** =R( ) ( )

⎥⎦

⎤⎢⎣

⎡ −

⎥⎥⎥

⎢⎢⎢

⎡=

⎥⎥⎥⎥

⎢⎢⎢⎢

φφφφ

coscos

**

sensenbaRbRa PCPCPCPC

Nova simplicidade é calculada e comparada com a anterior e o processo continua atéque o acréscimo na simplicidade seja, por exemplo, menor que 0,1%.

Existem vários algoritmos de rotação varimax. Eles diferem na maneira como os pesos são modificados antes da rotação, L → L*.

1- Simples 2- Pesos normalizados 3- Pesos ponderados pelos autovalores4- Pesos normalizados e ponderados

1- Na rotação simples, os pesos não modificados.

2- Os pesos são normalizados antes da rotação. O fator de normalização é a raiz quadrada da comunalidade 2

)( jhh = sqrt(sum(v(:,1:A)'.^2)') ∑

==

A

ajaj lh

1

22)(

A comunalidade dá a fração da variância de cada variável “j” do conjunto original dos dados que é explicada pelas “A” componentes principais (A<J). Com esta normalização, cada uma das J variáveis tem a mesma importância na maximização da simplicidade.

⎥⎥⎥⎥

⎢⎢⎢⎢

=∗

JJJ hhh

hhhhhh

J

A

L

MMM

M

L

222

1111

/.

1

LLL* = v(:,1:A) ./ h*ones(1,A)

3- Os pesos são ponderados antes da rotação.

Os pesos são multiplicados pela raiz quadrada dos autovalores aaa s=λtal que SLL =∗ .

⎥⎥⎥⎥

⎢⎢⎢⎢

=∗

AAs

ss

O22

11

LLL* = v(:,1:A)*S(1:A,1:A)

As colunas da matriz a ser rodada, L*, não têm comunalidades iguais a 1 (é “oblíqua”). A matriz de fatores rodados não é ortogonal e tem as comunalidades de suas colunas diferente de 1.

*RL

4- Pesos normalizados e ponderados

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

=∗

JJJAA hhh

hhhhhh

s

ss

L

MMM

M

L

O222

111

22

11

/.LL ondej

aja h

=*

Novamente aqui, os fatores modificados não são ortogonais.

As modificações feitas nos pesos antes da rotação devem ser removidas.

Na normalização, os fatores rodados deverão ser multiplicados pela raiz quadrada da comunalidade da variável correspondente, para que a contribuição de cada variável seja restaurada ao valor original.

Obtida a matriz dos fatores rodados, calcula-se a matriz dos escores rodados, TR,

Para os métodos de rotação simples e normalizado, a matriz dos pesos rodados éortogonal

RR LL →*

TTT ˆˆRRRRAA LXTLTLTX =⇒==

Para os métodos de rotação ponderado e, ponderado e normalizado, a matriz LRnão é mais ortogonal e os escores devem ser obtidos tomando a pseudo-inversa

( ) 1TTT ˆˆ −=⇒== RRRRRRAA LLLXTLTLTX

Page 8: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

O quadro abaixo, apresenta um sumário da sequência de etapas de uma análise de componentes principais.

SUMÁRIO DO MÉTODO PCA

VISUALIZE OS DADOS ORIGINAIS

ESCOLHA AS OPÇÕES DE TRANSFORMAÇÃO

ESCOLHA O MÉTODO DE PRÉ-PROCESSAMENTO

EM CASO DE HAVER ROTAÇÃO VARIMAX(Quantos fatores serão rodados?)

⎪⎩

⎪⎨⎧

SAUTOVALOREPESOSESCORES

NOVOS CALCULE

ANÁLISE DE AGRUPAMENTOS HIERÁRQUICOS (“CLUSTERS”)

A análise de agrupamentos hierárquicos, HCA é outro método não supervisionado de reconhecimento de padrões e que teve a sua origem na taxonomia numérica.

Ele não requer o conhecimento a priori sobre a classificação ou informações sobre a existência de agrupamentos entre as amostras ou variáveis.

Visualizar amostras (objetos) utilizando uma variável de cada vez, ou duas a duas, não é eficiente para extrair informações de dados multidimensionais.

HCA é uma técnica interessante, porque representa graficamente os dados multidimensionais em um esquema bidimensional.

Os resultados são apresentados na forma de uma árvore hierárquica, DENDROGRAMA, onde o comprimento dos ramos da árvore representa o grau de similaridade entre os objetos.

Há duas maneiras de agrupar hierarquicamente os objetos:

1- aglomerativa → considera inicialmente cada objeto como um grupo unitário e segue agrupando-os sistematicamente por ordem de similaridade até que todos eles

2- divisiva → considera inicialmente um único grupo de objetos e divide-o em dois ou mais grupos começando pelos objetos que são mais dissimilares.

HCA É UMA TÉCNICA AGLOMERATIVA

METODOLOGIA

O objetivo é formar grupos contendo objetos semelhantes.

As mesmas considerações e a mesma metodologia se aplica ao agrupamento de amostras e de variáveis.

ASSUME-SE que amostras próximas entre si no espaço multidimensional, RJ, sejam semelhantes em relação às variáveis consideradas.

Cada amostra é considerada inicialmente como um grupo separado.

O primeiro passo é definir um índice numérico para medir a proximidade entre pares de amostras.

O conceito matemático de distância entre dois pontos A e B de um conjunto exige 3 propriedades simples e intuitivas:

1- As distâncias não podem ser negativas. A distância entre A e B, dA_B, deve ser ≥ 0. A distância de um ponto com ele mesmo é zero, e o contrário também vale, i. e., se a distância dA_B = 0, então A = B.

2- A distância entre A e B é igual à distância entre B e A,. dA_B = dB_A.

3- A distância entre A e C deve ser menor do que a soma das distâncias entre B e A, e entre B e C. dA_C ≤ dA_B + dB_C.

A distância Euclideana entre os dois pontos A = (a1, a2) e B = (b1, b2) pode ser expressa usando o teorema de Pitágoras

( ) ( )2222

11_ babad BA −+−=

No espaço multidimensional RJ

( )2/1

1

2_ ⎥

⎢⎢

⎡∑ −==

J

jbjajBA xxd

( ) ( ) ( ) ,2222

211_ bJaJbabaBA xxxxxxd −++−+−= L

A distância Euclideana também é chamada de distância da norma l2. É escrita na forma matricial como:

( ) ( )[ ] .22/1T

_ BABABABAd xxxxxx −=−−=

xA é um vetor com as respostas da amostra A

O problema com a distância Euclideana é que ela varia com a mudança de escala.

Page 9: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

A distância de Manhattan, também conhecida como distância retilínea ou de distância “táxi” ou de distância da norma l1No espaço bidimensional ela corresponde à distância entre A e B em um eixo + a distância entre eles no segundo eixo

É escrita na forma matricial (no espaço RJ) como

11

_ BAj

bjajBAJ

xxd xx −=∑ −==

A distância de Mahalanobis é uma distância estatística que considera a variância de cada variável e o coeficiente de correlação entre elas. No caso de uma única variável é a distância Euclideana usual ponderada pela variância.

A distância de Mahalanobis, , é definida no espaço de dimensão J, RJ como

( ) ( )[ ] MBABABABA dd _

2/11T_ =−− −= xxVxx

V é a matriz de variância-covariância (XTX). O produto V-1(xA-xB) é um vetor coluna.

Ao considerar a correlação entre a variáveis, a distância em algumas direções pode ser mais importante do que a distância em outras direções.

MBAd _

Distâncias Euclideana e de Mahalanobis: ♦ A distância Euclideana dA_B = dA_C. Todos os pontos

equidistantes de A de uma distância “d” estão no círculo de raio d.

♦ Na distância de Mahalanobis, as amostras equidistantes de A estão ao longo de uma elipse.

♦ A elipse é alongada na direção de maior dispersão dos dados.

♦ A elipse vermelha contém os pontos distantes de AdA_B. A elipse azul contém os pontos com distância dA_C de A. Portanto, a distância de Mahalanobis dA_B < dA_C.

♣ Definido o espaço métrico, o passo seguinte é identificar e agrupar as duas amostras que estão mais próximas: → primeira iteração do processo de agrupamento. ♣ Os objetos são agrupados sucessivamente até que haja apenas um único grande grupo contendo todos eles. ♣ Depois que as amostras foram todas agrupadas, o índice de similaridade entre os grupos, SA_B, é calculado.

,0,1 __

max

BABA d

dS −= dmax é a distância máxima entre

dois grupos do conjunto de dados.

O índice de similaridade varia sempre entre zero e 1,0. Quando dA_B é igual a dmax, a similaridade entre A e B é zero. Quando as duas amostras são idênticas, dA_-B = zero e a similaridade é 1,0.

EXEMPLOEste exemplo utiliza a menor distância entre grupos como critério para agrupar as amostras. Cada uma das 6 amostras, A, B, C, D, E e F, são consideradas inicialmente como um grupo

As duas amostras mais semelhantes, são agrupadas: forma-se o grupo AB.

As distâncias entre o novo grupo AB e todos os outros são calculadas.

Há dois grupos equidistantes entre si. São formados os grupos ABC e EF.

1,0

2,02,0

3,0

2,0

6,05,36,0

4,9

4,0

5,5C

EF

4,0

4,7

BA D

Na iteração seguinte temos três opções. Forma-se o grupo ABCEF, restando a amostra D.

A distância máxima neste conjunto de dados é dABCEF_D = dmax = 4,0.

Cálculo dos índices de similaridade são usados para construir o dendrograma

0,40,1 ij

ijd

S −=

♦ Com um índice de similaridade = 0,49 temos três grupos: ABC, EF e D, ♦ Com um índice = 0,24 temos apenas dois grupos ABCEF e D. ♦ A amostra D é diferenciada das outras, com índice de similaridade nulo.

Page 10: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

Há várias maneiras de agrupar as amostras ou agrupamentos que diferem entre si na maneira pela qual as distâncias entre grupos são calculadas.

ALGUNS MÉTODOS DE AGRUPAMENTO MAIS UTILIZADOS

1- Método simples, ou método do vizinho mais próximo. A distância entre dois grupos é dada pela distância mínima entre dois objetos quaisquer dos dois grupos.

Os grupos A e C contêm, cada um deles, apenas uma amostra a e c.

O grupo B contém duas amostras b1 e b2.

A distância dA_C = dac (os grupos A e C contêm apenas uma amostra)

A distância dA_B será a menor dentre as duas distâncias1abd e 2abd

dA_B = min( 1abd , 2abd ). [*]

Em termos algébricos dA_B é dada pela expressão seguinte

222121

_abababab

BAdddd

d−

−+

=Como 1abd > 2abd , dA_B = 2abd .

Usando o mesmo raciocínio, obtém-se cbCB dd 1_ =

[*] É fácil verificar a fórmula22

),min(yxyx

yx−

−+

= analisando os casos x > y e x < y.

e o grupo AB é formado.2abd cbd1 acd

A seguir, é calculada a distância do grupo C ao grupo AB

acd cbd1 cbd

2

cbCBCACBCA

CAB ddddd

d122

_____ =

−−

+=

No cálculo das distâncias entre os grupos sempre se chega a uma expressão que é função das distâncias entre os objetos originais destes grupos.

Se, ao invés do grupo C tivéssemos o grupo C’ mais próximo do grupo A do que do grupo B, a distância dAB_C’ seria dada por dA_C’ = dac’.

Este método de agrupar objetos tende a formar agrupamentos que são mais espalhados, uma vez que o agrupamento é baseado na dissimilaridade mínima entre membros de cada grupo e, como consequência, o método não é sensível a amostras atípicas.

dAB_C = min(dA_C , dB_C) = min( , , )

RESUMINDO, < <

♣ Este método tende a formar agrupamentos mais compactos pois o cálculo da distância entre os grupos é baseado na maior dissimilaridade entre os objetos.

♣ Ele é mais sensível às amostras anômalas pelo fato de usar a maior distância entre objetos para definir a distância entre grupos.

Um novo grupo é formado agrupando os dois que sejam mais semelhantes entre si: o grupo AC.

A seguir, os dois grupos são conectados formando o grupo ABC.

Comparando as distâncias máximas, dac < 1abd

2- Método completo, ou método do vizinho mais distante. A distância entre os grupos é dada pela distância máxima entre quaisquer dois objetos dos grupos.

222121

_abababab

BAdddd

d−

++

=

dA_B = max(1abd

2abd , )

dA_C = dac;dA_B = max(dB_C = max(

2abd1abd

cbd2 cbd

2

,

,)

)

cbd2<

3- Método da média.Define-se a distância entre dois grupos como uma média entre os objetos de ambos os grupos.

221

_abab

BAdd

d+

=4422

22

21

21

_cbcbac

cbcbacBCAC

CABddd

dddddd

+++=

++

=+

=

Foi usada uma ponderação uniforme, uma simples média aritmética para o cálculo das distâncias entre os grupos.O tamanho do grupo B não foi levado em consideração. Ambos foram tratados igualmente.

Existem algumas variações deste método: usar a mediana ao invés da média ponderada.

O método da média pode utilizar ponderações não uniformes atribuindo pesos diferentes para grupos de tamanhos diferentes,

32

2

321

21

_

⎟⎠⎞

⎜⎝⎛ +

+=

+=

++

=

cbcbac

BCAC

BA

BCBACACAB

ddddd

nndndnd

É sempre importante argumentar sobre a ponderação utilizada ao aplicar um algoritmo de agrupamento que faz o uso do método da média.

33321

_cbcbac

CABdddd ++=

Page 11: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

4- Método do Centróideutiliza o “centro” de cada grupo no espaço (centróide) para representá-lo como um todo.

BA

ABBA

BA

BCB

BA

ACAnn

dnnnn

dnnn

dndCAB +

−+

++

=222

2_

A cada iteração calcula-se uma nova posição para o grupo como um todo. Como no método da média, o centróide também pode usar ponderações não uniformes. Vantagem do método: as propriedades de cada grupo são representadas por um único objeto, o “centróide”. Desvantagem: a posição e distâncias dos centróides são recalculadas a cada iteração. Este método pode causar intercruzamentos no dendrograma.

5- Método de Ward ou método incremental. A distância é obtida calculando a soma dos quadrados das distâncias do centróide médio de cada grupo. Este método favorece grupos pequenos, de tamanhos iguais, com uma dispersão mínima dentro do grupo; no entanto écomputacionalmente mais caro.

( ) ( )CBA

ABC

CBA

BCCB

CBA

ACCACAB nnn

dnnnn

dnnnnn

dnnd++

−++

++

+++

=222

_

Estes são os métodos mais comuns de agrupamento.

A interpretação dos resultados é outra etapa importante na análiseUm dendrograma que realmente diferencia os grupos tem ramos pequenos nos galhos mais distantes da árvore.

Os ramos dos galhos mais distantes são longos: o agrupamento não é tão efetivo.

LIMITAÇÕES DO MÉTODO HCA

Pode haver alguns objetos finais a serem agrupados que não são similares com os grupos formados, mas são agrupados porque o processo termina com um único grupo. Cada grupo é construído com base nos grupos obtidos em iterações anteriores, sem a possibilidade de reavaliar os grupos já formados.

OUTRAS REGRAS PRÁTICAS

1- Usar o valor absoluto do coeficiente de correlação ao aplicar HCA às variáveis. 2- Usar a distância de Mahalanobis quando algumas variáveis são altamente correlacionadas.

EXEMPLO

HCA aplicada à matriz de dados X (5x8). Obj./Var. var1 var2 var3 var4 var5 var6 var7 var8

A 7,0 9,0 10,0 17,0 25,0 10,0 13,0 1,0 B 5,0 12,0 14,0 12,0 40,0 12,0 15,0 0,0 C 3,0 8,0 20,0 18,0 38,0 13,0 18,0 1,0 D 8,0 9,0 8,0 16,0 23,0 10,0 14,0 1,0 E 2,0 11,0 18,0 20,0 34,0 16,0 17,0 1,0

Para construir o dendrograma, primeiro calcularemos as distâncias entre as amostras. Os dados foram autoescalados.

%Os dados foram autoescaladosXa=(X-ones(5,1)*mean(X))./(ones(5,1)*std(X))%A matriz Xa foi usada para fazer o agrupamento%Cálculo da distância entre as amostras A e B.dA_B = sqrt(sum((Xa(1,:) – Xa(2,:)).^2))

B C D E

A 4,22 4,12 0,85 4,44 B 4,40 4,33 4,33 C 4,39 2,46 D 4,76

A menor distância é entre as amostras A e D. Forma-se o grupo AD.

Os comandos do software MATLAB

Esta terminada a primeira iteração

Uma nova tabela de distâncias deve ser construída e os valores ‘?’ deverão ser calculados segundo algum critério.

B C E AD ? ? ? B 4,40 4,33 C 2,46

HCA usando o método simples de agrupamento:

dAD_B = min(dA_B, dD_B) = min(4.22, 4.33) dAD_C = min(dA_C, dD_C) = min(4.12, 4.39) dAD_E = min(dA_E, dD_E) = min(4.44, 4.76)

Uma vez encontrados os valores ‘?’, novo grupo é formado.

B C E

AD 4,22 4,12 4,44 B 4,40 4,33 C 2,46

Novas distâncias são calculadas:

dAD_CE = min(dAD_C, dAD_E) = min(4.12, 4.44) dB_CE = min(dB_C, dB_E) = min(4.40, 4.33)

B CE AD 4,22 4,12 B 4,33

A última iteração une os dois grupos restantes: B e ADCE.

dADCE_B = min(dAD_B, dCE_B) = min(4.22, 4.33)

Page 12: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

As 5 amostras foram agrupadas formando um único grupo e a distância máxima entre elas é dmax = dADCE_B = 4,22.

Cálculo dos índices de similaridade.

D E CE A 0,80 C 0,42

AD 0,03

♦ As amostras A e D são as mais semelhantes, seguidas das amostras C e E, que forma outro grupo à parte.

♦ A seguir, os dois grupos são unidos formando um grande grupo com similaridade quase nula.

♦ Com um grau de similaridade igual a 0,4 podemos distinguir três grupos: AD; CE, e a amostra B.

♦ Este método tende a formar grupos mais espalhados e com menores índices de similaridade quando comparado aos outros métodos de agrupamento.

dAD_CE = max(dAD_C, dAD_E) = max(4.39, 4.76) dB_CE = max(dB_C, dB_E) = max(4.40, 4.33)

dADB_CE = max(dAD_CE, dB_CE) = max(4.76, 4.40) = 4.76

A distância máxima obtida é maior que a do método anterior e isto fará com que os índices de similaridade sejam ligeiramente maiores

Índices de similaridade D E B

A 0,82 C 0 0,48

AD 0 0,09

dmax = dADB_CE = 4,76

B C E

AD 4,33 4,39 4,76 B 0 4,40 4,33 C 0 2,46

B CE AD 4,33 4,76 B 0 4,40

HCA usando o método completo de agrupamento:Os valores ‘?’ são calculados usando um critério diferente (o vizinho mais

distantes). dAD_B = max(dA_B, dD_B) = max(4.22, 4.33)dAD_C = max(dA_C, dD_C) = max(4.12, 4.39)dAD_E = max(dA_E, dD_E) = max(4.44, 4.76)

HCA usando o método da média para o agrupamento: Os valores ‘?’ são calculados usando a média não ponderada (não será considerado o tamanho do grupo).

dAD_B = (dA_B + dD_B)/2 = (4.22 + 4.33)/2 dAD_C = (dA_C + dD_C)/2 = (4.12 + 4.39) /2 dAD_E = (dA_E + dD_E)/2 = (4.44 + 4.76) /2

B C EAD 4,28 4,26 4,60 B 4,40 4,33 C 2,46

dAD_CE = (dAD_C + dAD_E)/2 = (4.26 + 4.60)/2 dB_CE = (dB_C + dB_E)/2 = (4.40 + 4.33)/2

B CE AD 4,28 4,43 B 4,37

dADB_CE = (dAD_CE + dB_CE)/2 (4.43 + 4.37)/2

dmax = dADB_CE = 4,40

Índices de similaridade

D E B A 0,81 C 0,44

AD 0,03

HCA usando o método de Ward para o agrupamento: Os quadros seguintes seguem os mesmos procedimentos anteriores.

dAD_B = sqrt((2*dA_B^2 + 2*dD_B^2 - 1*dAD^2)/3)dAD_B = sqrt((2*4.22^2 + 2*4.33 ^2 - 1*0.85^2)/3)

dAD_C = sqrt((2*dA_C ^2 + 2*dD_C ^2 - 1*dAD^2)/3)dAD_C = sqrt((2*4.12^2 + 2*4.39^2 - 1*0.85^2)/3)

dAD_E = sqrt((2*dA_E ^2 + 2*dD_E ^2 - 1*dAD^2)/3)dAD_E = sqrt((2*4.44^2 + 2*4.76^2 - 1*0.85^2)/3)

B C E AD 4,91 4,89 5,29 B 4,40 4,33 C 2,46

dCE_B = sqrt((2*dC_B^2 + 2*dE_B^2 - 1*dCE^2)/3)dCE_B = sqrt((2*4.40^2 + 2*4.33^2 - 1*2.46^2)/3)

dCE_AD = sqrt((3*dAD_C^2 + 3*dAD_E^2 - 2*dCE^2)/4)dCE_AD = sqrt((3*4.89^2 + 3*5.29^2 - 2*2.46^2)/4)

B CE AD 4,91 5.99 B 4,84

dCEB_AD = sqrt((4*dAD_CE^2 + 3*dAD_B^2 - 2*dCE_B^2)/5)dCEB_AD = sqrt((4*5.99^2 + 3*4.91^2 - 2*4.84^2)/5)

dmax = dCEB_AD = 5,81

Page 13: ANÁLISE EXPLORATÓRIA DE DADOS - Unicamp · 2021. 2. 15. · cosenos dos ângulos entre PCa (a-ésimo novo eixo) e os eixos das variáveis originais. Altos pesos indicam altas correlações

Índices de similaridade

D E B A 0,85 C 0,58

AD 0,17

A distância máxima é bem maior que nos casos anteriores e isto fará com que os índices de similaridade sejam maiores. Os grupos têm ramos menores e tendem a ser mais são mais compactos.

CONCLUSÕESA análise exploratória preliminar utilizando os métodos PCA e HCA pode ser vista como uma etapa da análise onde se explora de maneira ampla os dados. Resumindo, nesta análise, pode-se:♦ identificar agrupamentos e tendências entre as amostras; ♦ identificar aquelas variáveis que contém as informações de interesse;♦ investigar as correlações entre as variáveis, evitando muitas variáveis colineares construção de modelos de regressão ou de classificação;♦ Fazer a compressão dos dados e♦ Detectar amostras anômalas.