Análise de Componentes Principais

29
Análise de Componentes Principais Carlos Alberto Alves Varella Doutor em Engenharia Agrícola Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA- CS Novembro 2011

description

Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS. Análise de Componentes Principais. Carlos Alberto Alves Varella Doutor em Engenharia Agrícola. Novembro 2011. Introdução. É a técnica mais conhecida da estatística multivariada; - PowerPoint PPT Presentation

Transcript of Análise de Componentes Principais

Page 1: Análise de Componentes Principais

Análise de Componentes Principais

Carlos Alberto Alves VarellaDoutor em Engenharia Agrícola

Universidade Federal Rural do Rio de Janeiro

Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS

Novembro 2011

Page 2: Análise de Componentes Principais

IntroduçãoÉ a técnica mais conhecida da estatística multivariada;Pode ser utilizada para geração de índices e agrupamento

de indivíduos;Cada componente principal é uma combinação linear de

todas as variáveis originais;São independentes entre si; É importante ter uma visão conjunta de todas ou quase

todas as técnicas da estatística multivariada para resolver a maioria dos problema práticos.

Page 3: Análise de Componentes Principais

Construção da matriz de dados (Matriz X)Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos;Características observadas são : X1, X2, X3, ..., Xp;A matriz é de ordem n x p.

npnn

p

p

p

xxxx

xxxx

xxxx

xxxx

X

31

3333231

2232221

1131211

Page 4: Análise de Componentes Principais

Matriz de Covariância, SObtida a partir da matriz X de dados de ordem ‘n x p’;É uma estimativa da matriz de covariância Σ da população

π;A matriz S é simétrica e de ordem ‘p x p’.

)(ˆ)(ˆ)(ˆ)(ˆ

)(ˆ)(ˆ)(ˆ)(ˆ

)(ˆ)(ˆ)(ˆ)(ˆ

)(ˆ)(ˆ)(ˆ)(ˆ

321

332313

232212

131211

pppp

p

p

p

xarVxxovCxxovCxxovC

xxovCxarVxxovCxxovC

xxovCxxovCxarVxxovC

xxovCxxovCxxovCxarV

S

Page 5: Análise de Componentes Principais

Padronização dos dadosMédia zero e variância 1

p,,2,1jen,,2,1i,)x(s

xxz

j

jijij

Média qualquer e variância 1

p,,2,1jen,,2,1i,)x(s

xz

j

ijij

Page 6: Análise de Componentes Principais

Variáveis PadronizadasA matriz Z é igual a matriz de correlação R da matriz de

dados X;

npnnn

p

p

p

zzzz

zzzz

zzzz

zzzz

Z

321

3333231

2232221

1131211

Page 7: Análise de Componentes Principais

Considerações sobre a padronização Normalmente partimos da matriz padronizada; O resultado a partir da matriz S pode ser diferente do

resultado a partir da matriz R. A padronização só dever ser feita quando as unidades das

variáveis observadas não são as mesmas.

Page 8: Análise de Componentes Principais

Determinação dos Componentes PrincipaisOs componentes principais são determinados resolvendo-se a

equação característica da matriz S ou R, isto é:

00det IRouIR

Page 9: Análise de Componentes Principais

Autovalores da matriz R λ1, λ2, λ3, ..., λp são as raízes da equação característica da

matriz R ou S, então: λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S;

1)()()(

)(1)()(

)()(1)(

)()()(1

321

32313

23212

13121

xxrxxrxxr

xxrxxrxxr

xxrxxrxxr

xxrxxrxxr

R

ppp

p

p

p

Page 10: Análise de Componentes Principais

AutovetoresPara cada autovalor λi existe um autovetor:

úúúúú

û

ù

êêêêê

ë

é

=

ip

2i

1i

i

a

a

a

a~M

Page 11: Análise de Componentes Principais

Componente principal Yi

Sendo o autovalor = λi , então o i-ésimo componente principal é dado por:

pip22i11ii XaXaXaY +++= L

Page 12: Análise de Componentes Principais

Propriedades dos Componentes PrincipaisA variância do componente principal Yi é igual ao valor do

autovalor λi:

O primeiro componente é o que apresenta maior variância e assim por diante:

( ) iiYarV l=

)Y(arV)Y(arV)Y(arV p21 >>> L

Page 13: Análise de Componentes Principais

Propriedades dos Componentes PrincipaisTotal de variância das variáveis originais = somatório dos

autovalores = total de variância dos componentes principais:

å å å=l= )Y(arV)X(arV iii

Os componentes principais não são correlacionados entre si:

( ) 0Y,YovC ji =

Page 14: Análise de Componentes Principais

Importância de cada componente principalMedida pela porcentagem de variância de cada

componente em relação ao total

( )

( ) ( )100Straço100100

YarV

YarVC i

p

1ii

ip

1ii

ii ×

l=×

l

l=×=

åå==

Page 15: Análise de Componentes Principais

Número de componentesNão existe um modelo estatístico;O número de ser aquele que acumula 70% ou mais de

proporção da variância total.

( ) ( )( )

pkonde%70100YarV

YarVYarVk

1ii

k1 <³×+

å=

L

Page 16: Análise de Componentes Principais

Interpretação dos componentesVerifica-se o Grau de influência que cada variável Xj tem

sobre o componente Yi.

( ) ( )) ( )j

j11

j

1j11YXj1,j

XarV

a

XarV

YarVarYXCorr )×l=×=×=

Page 17: Análise de Componentes Principais

Interpretação dos componentesVerifica-se o peso ou loading de cada variável sobre o

componente

( ) ( ) ( )p

p1p

2

122

1

111

XarV

aw,

XarV

aw,

XarV

aw )L)) ===

Page 18: Análise de Componentes Principais

Escores dos componentesOrganização dos dados

Trat(Indiv)

VariáveisEscores dos componentes

principais

X1 X2 ... Xp Y1 Y2 ... Yk

1 X11 X12 ... X1p Y11 Y12 ... Y1k

2 X21 X22 ... X2p Y21 Y22 ... Y2k

n Xn1 Xn2 Xnp Yn1 Yn2 ... Ynk

Page 19: Análise de Componentes Principais

Escores do primeiro componente para ‘n’ tratamentos e ‘p’ variáveis O escore é o valor da cominação linear;Yn1=componente 1 do tratamento n para p variáveis.

p1p11212111111 XaXaXaY

p2p12212211121 XaXaXaY

npp12n121n111n XaXaXaY

Page 20: Análise de Componentes Principais

Exemplo de AplicaçãoVariáveis originais observadas (X1 e X2) e padronizados

(Z1 e Z2). Duas variáveis para cinco tratamentos (k=5).

TratamentosVariáveis originais Variáveis padronizadas

X1 X2 Z1 Z2

1 102 96 24,3827 6,9554

2 104 87 24,8608 6,3033

3 101 62 24,1436 4,4920

4 93 68 22,2313 4,9268

5 100 77 23,9046 5,5788

Variância 17,50 190,50 1 1

Page 21: Análise de Componentes Principais

Padronização da VariânciaOs dados serão padronizados para variância 1:

8608,245,17

104Z

Xs

XZ 12

j

ijij

Page 22: Análise de Componentes Principais

Matriz de CorrelaçãoElementos da diagonal principal igual a 1. Significa a

correlação entre mesmas variáveis; Elementos fora da diagonal principal igual a 0,5456.

Significa a correlação entre as variáveis (X1,X2).

15456,0

5456,01R

Page 23: Análise de Componentes Principais

Autovalores da matriz de correlaçãoSão os elementos fora da diagonal principal da matriz.

Significa a variância de cada componente principal.

λ1 = 1,5456 e λ2 = 0,4544

15456,0

5456,01R

Page 24: Análise de Componentes Principais

Traço da matriz de correlaçãoSomatório dos elementos da diagonal da matriz. Significa

o total de variância.

Traço(R) = 1+1=2

15456,0

5456,01R

Page 25: Análise de Componentes Principais

Primeiro autovetor da matriz de correlaçãoSão os coeficientes das variáveis padronizadas Z1, Z2.

7070,0

7071,0

1

1

2

1

a

aa~

12

111

211 7070,07071,0 ZZY

Y1 é a combinação linear de Z1, Z2 que denominamos de primeiro componente principal

Page 26: Análise de Componentes Principais

Resultados da análiseVariância, ponderação, correlação, % de variância e % de

variância acumulada dos componentes principais.

CP Variância (λ)

Ponderação Correlação entre Zj eYi

%de variância

% de variânciaacumulada dos Yi

Z1 Z2 Z1 Z2

Y1 1,5456 0,707 0,707 0,879 0,879 77,28 77,28

Y2 0,4544 -0,707 0,707 -0,476 0,476 22,72 100,00

Page 27: Análise de Componentes Principais

Escores dos componentes principais

TratamentosComponentes principais

Y1 Y2

1 22,16 -12,32

2 22,04 -13,12

3 20,25 -13,90

4 19,20 -12,24

5 20,85 -12,96

Page 28: Análise de Componentes Principais

Gráfico de dispersãoPermite visualizar se os componentes principais (Yis) são

capazes de discriminar indivíduos da população () utilizando características (Xi).

19

20

21

22

23

-14 -13.5 -13 -12.5 -12

Segundo componente (Y2)

Prim

eiro

com

pone

nte

(Y1)

Page 29: Análise de Componentes Principais

Aula prática com o programa computacional SAS

Material didático: http://www.ufrrj.br/institutos/it/deng/varella/multivariada.htm

Disciplina: Análise Multivariada Aplicada as Ciências Agrárias.

Aula prática: 14-17 com SAS.

FIM