Analise de Componentes Principais ACP
-
Upload
alejandroherreraguridechile -
Category
Documents
-
view
37 -
download
0
Embed Size (px)
description
Transcript of Analise de Componentes Principais ACP
-
Anlise de
Componentes
Principais Jos Francisco Moreira Pessanha
-
Anlise de componentes principais - ACP
Karl Pearson
1857 - 1936
Introduzida por Karl Pearson em 1901.
On lines and planes of closest fit to systems of point in
space, Philosophical Magazine, Series 6, vol. 2, no. 11,
pp. 559-572.
-
Conue pour la premire fois par Karl Pearson en 1901,
intgre la statistique
mathmatique par Harold
Hotelling en 1933, lanalyse en composantes principales nest vraiment utilise que depuis
lavnement et la diffusion des moyens de calculs actuels.
Lebart, Morineau et Piron
Statistique Exploratoire
Multidimensionnelle, 3e
dition, Dunod, Paris, 2000.
-
Componentes principais
Descrevem a estrutura de varincia e covarincia de variveis
correlacionadas x1,x2,...,xp em termos de um conjunto de novas variveis
y1, y2, ..., yp no correlacionadas.
Cada yi uma combinao linear das variveis x1,x2,...,xp
Novas variveis yi ordenadas em ordem decrescente de importncia:
y1 (1 componente principal) concentra a maior parte da variao dos
dados originais entre todas as combinaes lineares de x1,x2,...,xp.
y2 (2 componente principal) no correlacionada com y1 e concentra a
maior parte da variao restante
y3 (3 componente principal) no correlacionada com y1 e y2 e concentra
uma parcela ainda menor da variao
e assim sucessivamente.
pipiii xaxaxay 2211
-
Finalidades da ACP
Reduo da dimensionalidade dos dados
Descrio e visualizao de dados
Transformar as variveis em novas variveis descorrelacionadas.
Extrao de sinal contido nos dados (Eliminar ou reduzir o rudo presente nos dados)
Ordenao dos objetos
Construo de nmeros ndices
-
Alguns exemplos de aplicao da ACP
As componentes principais proporcionam a reduo de dimensionaldade
As primeiras k (k
-
Definies Considere um vetor aleatrio XT=(x1,x2,...,xp) com matriz de
covarincia (matriz pxp).
A matriz de covarincia tem p autovalores (i, i=1,p) e p
autovetores ( ei = (ei1,ei2,...,eip) i=1,p), ordenados na ordem
decrescente dos autovalores.
A i-sima componente principal :
pipiii xexexey 2211
pipiii eeeyE 2211 iiyV
0,cov ji yy As componentes principais so no correlacionadas A varincia da componente o respectivo autovalor
Os coeficientes da i-sima
componente so definidos pelo
autovetor do i-simo maior
autovalor
-
Aluno 1
Aluno 30
Notas em microeconomia
Notas em macroeconomia
n =30 alunos
p =2 variveis (notas)
Cada aluno i um vetor Matriz de
Dados X
2i
1i
iX
XX
i = 1 at 30
Motivao
-
Nota
em
ma
cro
eco
no
mia
X2
Diagrama de disperso
Cada ponto representa um aluno
Nota em microeconomia X1
0
-
Nota em microeconomia X1
Nota em macroeconomia X2
alu
no
s
alu
no
s
Mdia = 5,8339
Varincia = 1,0446
Desvio-padro = 1,0221
Mdia = 6,9149
Varincia = 0,9579
Desvio-padro = 0,9787
Distribuies de freqncia das notas
-
Nota em microeconomia X1
Nota
em
ma
cro
eco
no
mia
X2
Covarincia = 0,8155
Correlao = 0,8153
Diagrama de disperso
Relao direta entre as notas de
microeconomia e macroeconomia
-
Matriz de covarincia amostral
9579,08155,0
8155,00446,1S
Var(X1)
Var(X2) Cov(X1,X2)
Vetor mdia amostral
9149,6
8339,5X
-
9579,08155,0
8155,00446,1S
7256,0
6881,0e2
6881,0
7256,0e1 8179,11
1846,02
matriz de covarincias 2x2 2 autovetores
Autovetores de S Direes de maior
variabilidade dos dados
(componentes principais)
Autovalores de S Parcela da variabilidade dos
dados concentrada em
cada componente principal
0024,29579,00446,121 XVarXVar
Matriz de covarincias =
Varincia
total
0024,221
21
yVaryVar
xVarxVar
Varincia das
projees
Direo de maior variabilidade
Da lgebra Linear sabe-se que
Trao de (S)
=
Soma dos autovalores de S
Logo
Trao de S
Var(y1) = 1,8179
Var(y2) = 0,1846
-
Nota
em
ma
cro
eco
no
mia
X2
Nota em microeconomia X1
1X
2X
e1
e2
7256,0
6881,0e2
6881,0
7256,0e1
Autovetores
da matriz S
0
Direes dos
autovetores
91,6
84,5X
Mdia
Mdia das notas de
microeconomia
Mdia das notas de
macroeconomia
Y1
Y2
-
Nota
em
ma
cro
eco
no
mia
X2
Nota em microeconomia X1
Projeo do vetor do i-simo
aluno na direo do
autovetor e1
6881,0
7256,0e11
e
2i
1i
iX
XX
0
A projeo o produto interno Xie1 :
2i1i X6881,0X7256,0 i-simo aluno
Direo da 1
componente principal
Projeo na direo de maior variabilidade,
ou seja, escore do i-simo aluno na primeira
componente principal
-
Nota
em
ma
cro
eco
no
mia
X2
Nota em microeconomia X1
0
Projees na direo de maior variabilidade
das notas, ou seja, escores dos alunos na
primeira componente principal
2i1i X6881,0X7256,0
-
2i1i X6881,0X7256,0 1iX 2iX2512,90914,76881,00247,67256,0
3968,85713,66881,03404,57256,0
6126,101074,86881,09374,67256,0
6316,84534,66881,07759,57256,0
Aluno 1
Aluno 30
Projees na
direo de
maior
variabilidade
das notas ou
escores dos
alunos na
primeira
componente
principal
-
Distribuio de freqncia dos escores na primeira componente principal
Mdia = 8,99
Varincia = 1,8179
-
Nota em microeconomia X1
Nota
em
ma
cro
eco
no
mia
X2
-
Nota
em
ma
cro
eco
no
mia
X2
Nota em microeconomia X1
0
Projees na direo da segunda
componente principal
21 7256,06881,0 ii XX
Observe que a disperso dos
pontos na direo da
segunda componente
menor que a disperso na
direo da primeira
componente
Var(1 componente) maior
que Var(2 componente)
-
21 7256,06881,0 ii XX 1iX 2iX9999,00914,77256,00247,66881,0
0934,15713,67256,03404,56881,0
1091,11074,87256,09374,66881,0
7082,04534,67256,07759,56881,0
Aluno 1
Aluno 30
Projees na
direo da
segunda
componente
principal
-
6881,0
7256,0e1
As componentes principais so combinaes lineares das variveis, cujos
coeficientes so definidos pelos autovetores da matriz e covarincia:
2i1i1i X6881,0X7256,0Y
7256,0
6881,0e2 2i1i2i X7256,0X6881,0Y
1 componente define as projees dos alunos na direo de
maior variabilidade
2 componente
Autovetores
As componentes principais so variveis aleatrias com varincias iguais
aos autovalores:
1846,0YVar
8179,1YVar
22i
11i
-
Nota
em
ma
cro
eco
no
mia
X2
Nota em microeconomia X1
Y1 Y2
0
1846,0YVarYVar
2
22
8179,1YVarYVar
1
11
0446,1XVar 1
9579,0XVar 2
-
9579,08155,0
8155,00446,1SMatriz de covarincias =
0024,29579,00446,1Strao Varincia total =
8179,1YVar 11
1846,0YVar 22
1 componente
2 componente
%78,90%1000024,2
8179,1
%22,9%1000024,2
1846,0
1 componente principal concentra 91% da variabilidade total dos dados, logo resume
boa parte da informao contida nas duas variveis
2 componente principal concentra apenas 9% da variabilidade total dos dados e por
isso pode ser descartada
-
Var Y1 > Var Y2 > .... > Var Yp
Algebricamente, as componentes principais so combinaes lineares das p variveis aleatrias X1, X2, ..., Xp;
Geometricamente, as combinaes lineares representam um novo sistema de coordenadas obtido pela translao e rotao do sistema original com X1, X2, ..., Xp como eixos;
Os novos eixos representam as direes com as maiores variabilidades e fornecem uma descrio mais simples e mais parcimoniosa da estrutura de covarincia, pois as componentes principais so no correlacionadas;
As componentes principais podem ser obtidas a partir da matriz de correlao (r) ou da matriz de covarincias () de X1, X2, ..., Xp. O seu desenvolvimento no necessita da suposio de normalidade.
Resumindo A anlise de componentes principais substitui um conjunto de variveis
correlacionadas (X) por um conjunto de novas variveis no-
correlacionadas (Y), sendo essas combinaes lineares das variveis
iniciais e colocadas em ordem decrescente por suas varincias.
-
Resumindo
Roteiro para obteno das componentes principais
Matriz
ou
r
Calcular
os
autovalores
Calcular
os
autovetores
e
Selecionar
as
componentes
principais
X1
X2
X3
...
Xp
Y1
Y2
Y3
...
Yp
Variveis
originais
Componentes
principais
-
Teorema da decomposio espectral
pppp
pp
p
p
pp
p
eee
e
e
e
eee
e
e
e
21
2
1
11211
1
12
11
1
pppp
p
p
ppppp
p
p
eee
eee
eee
eee
eee
eee
21
22221
11211
2
1
21
22212
12111
T
X PP
T
ppp
TT eeeeee 222111
Seja a matriz de covarincia do vetor aleatrio X.
O vetor aleatrio X tem p variveis aleatrias
A matriz tem p autovetores e1, e2,...,ep e p autovalores 1>2>...> p
Pelo teorema da decomposio espectral tem-se que:
Organizando a soma na forma matricial
Matriz P, cada coluna
um autovetor
Matriz diagonal formada
pelos autovalores em
ordem decrescente
Matriz PT. cada
linha um
autovetor
-
TX PP
Componentes principais
Matriz de covarincia das componentes principais
Matriz de covarincia das componentes principais
ppppp
p
p
p x
x
x
eee
eee
eee
y
y
y
2
1
21
22221
11211
2
1
XPY T
PP XT
Y
Pela decomposio espectral tem-se que
Logo PPPP TTY Como os autovetores so
ortonormais PTP=I ou PPT=I Y
p
Y
2
1 Matriz diagonal formada
pelos autovalores em
ordem decrescente
As componentes principais
so no correlacionadas
-
Varincia total o trao da matriz de covarincia
Conservao da varincia total
PP XT
Y
Relao entre as matriz de covarincia das variveis originais e das
componentes principais
PPTraoTrao XTY A permutao dos elementos de um produto no muda o trao
TXY PPTraoTrao Como os autovetores so ortonormais PTP=I ou PPT=I
XY TraoTrao
pppp
p
p
p
TraoTrao
21
22221
11211
2
1
ppp 221121
Varincia total das p componentes
principais igual a varincia total
das p variveis
1>2>...> p
-
As primeiras componentes principais concentram a maior parte da
varincia total
Conservao da varincia total
Como 1>2>...> p
X1
X2 Y1
Y2
Varincia total das p componentes principais igual a varincia total das
p variveis
221121
As componentes principais
oferecem uma nova base
vetorial para expressar as
variveis.
Ou seja, mudam apenas o
sistema de referncia e no a
nuvem de pontos.
Nuvem de observaes
-
Critrios de seleo do nmero de componentes
1) Kaiser ou Mtodo da Raiz Latente: selecionar apenas as
componentes com autovalores maiores que 1
2) Escolha as m (m < p variveis) primeiras componentes
principais que concentrem pelo menos 80% da variabilidade
total das variveis originais. Se m=2, isto significa que o
fenmeno sob estudo pode ser muito simplificado;
3) Scree test grfico dos autovalores.
Scree-plot
1 ou 2 componentes
principais concentram a
maior parte da variao
total
%80%100
1
1
p
i
i
m
i
i
-
Anlise de componentes principais no R
Comando princomp (EVERITT, 2007)
acp
-
Aplicar a ACP na matriz de covarincia ou na matriz de correlao?
As variveis do vetor aletrio X podem estar expressas em unidades
fsicas diferentes (m, km, g, kg, l, kl, segundo, minuto, hora,...) e ou terem
varincias muito diferentes.
Como a ACP busca maximizar a varincia ela pode ser sensvel s
diferenas de escala entre as variveis. Para evitar este problema os
dados devem ser expresso em unidades comparveis.
Um forma de expressar os dados em unidades comparveis consiste em
aplicar a ACP s variveis padronizadas:
2
i
iii
S
Xxz
1izVar
A matriz de covarincia das variveis padronizadas a matriz de
correlao. Por esta razo, em geral, recomenda-se aplicar a ACP na
matriz de correlao.
-
Exemplos
-
EXEMPLO 1
Exemplo (Johnson & Wichern, 2002): Em um estudo sobre o
tamanho e a forma da carapaa de tartarugas, Jolicoeur &
Mosimann mediram o comprimento (mm), a largura (mm) e a altura
(mm) de 24 tartarugas machos (dados em tartarugas.xls ou em
http://life.bio.sunysb.edu/morph/data/JolicoeurMosimannPaintedTur
tles.html).
-
comprimento largura altura
93 74 37
94 78 35
96 80 35
101 84 39
102 85 38
103 81 37
104 83 39
106 83 39
107 82 38
112 89 40
113 88 40
114 86 40
116 90 43
117 90 41
117 91 41
119 93 41
120 89 40
120 93 44
121 95 42
125 93 45
127 96 45
128 95 45
131 95 46
135 106 47
Var(comprimento) = 138,77 mm2
Var(largura) = 50,04 mm2
Var(altura) = 11,26 mm2
As expressivas diferenas
nas varincias e os boxplots
indicam a presena de
heterocedasticidade.
Para a aplicao da ACP
interessante homogeneizar a
varincia.
Para esta finalidade as
variveis podem ser
padronizadas ou pode-se
aplicar uma transformao
logartmica
-
A transformao logartmica faz a homogeneizao das
varincias.
ln comprimento ln largura ln altura
4,5326 4,3041 3,6109
4,5433 4,3567 3,5553
4,5643 4,3820 3,5553
4,6151 4,4308 3,6636
4,6250 4,4427 3,6376
4,6347 4,3944 3,6109
4,6444 4,4188 3,6636
4,6634 4,4188 3,6636
4,6728 4,4067 3,6376
4,7185 4,4886 3,6889
4,7274 4,4773 3,6889
4,7362 4,4543 3,6889
4,7536 4,4998 3,7612
4,7622 4,4998 3,7136
4,7622 4,5109 3,7136
4,7791 4,5326 3,7136
4,7875 4,4886 3,6889
4,7875 4,5326 3,7842
4,7958 4,5539 3,7377
4,8283 4,5326 3,8067
4,8442 4,5643 3,8067
4,8520 4,5539 3,8067
4,8752 4,5539 3,8286
4,9053 4,6634 3,8501
Var( ln(comprimento) ) = 0,01107
Var( ln(largura) ) = 0,0064
Var( ln(altura) ) = 0,0068
-
4.54.55
4.64.65
4.74.75
4.84.85
4.94.95
5
4.2
4.3
4.4
4.5
4.6
4.7
3.55
3.6
3.65
3.7
3.75
3.8
3.85
3.9
3.95
Ln comprimentoLn largura
Ln a
ltura
-
Matriz de covarincias
S=
Autovetores e autovalores de S
autovetores
1e 2e 3e
autovalores 0,223 0,0006 0,0004
% 96,04 2,47 1,65
% acumulado 96,04 98,51 100
Primeira componente concentra a
maior parte da varincia total
-
Projeo das observaes na direo de maior variabilidade
iiii altura_Ln5225,0uraargl_Ln5102,0ocompriment_Ln6831,0projeo
5225,0
i
5102,0
i
6831,0
ii altura_Lnuraargl_Lnocompriment_Lnprojeo
5225,0
i
5102,0
i
6831,0
ii alturauraarglocompriment_Lnprojeo
Note que os expoentes so da mesma ordem de grandeza
ii volumefprojeo
1e
i
i
i
alturaLn
uralLn
ocomprimentLn
_
arg_
_
X
A primeira componente principal relaciona-se com o volume da carapaa
da tartaruga
- # localiza diretrio onde est o arquivo de dados diretorio
-
Resultados gerados pelo programa R
Raiz quadrada do auto valor
Parcela da varincia
concentrada na primeira
componente
Autovetor
associado ao
primeiro
autovalor
Parcela da varincia
concentrada na primeira
componente
-
Resultados gerados pelo programa R
Seleciona escores na
primeira componente
acp$scores[,1]
Escore da i-sima tartaruga na
primeira componente principal =
0,6831 * ( xi1 mdiax1 ) + 0,5102 * ( xi2 mdiax2 ) + 0,5225 * ( xi3 mdiax3 )
Pondera os desvios em relao
mdia pelos elementos do
autovetor que define a primeira
componente principal
-
Resultados gerados pelo programa R
Biplot nas duas primeiras componentes principais ( 99% da varincia total )
Grfico gerado pelo comando
biplot(acp)
Vetores das variveis apontando
na mesma direo indicam
variveis positivamente
correlacionadas e com
correlaes fortes.
O volume da carapaa da
tartaruga cresce da esquerda
para a direita.
Tartarugas 1, 2 e 3 so as menores
e a tartaruga 24 a maior
Matriz de correlaes
-
EXEMPLO 2 Oito marcas de coxinha de galinha foram avaliadas por 5 juzes
em relao a 4 atributos: sabor (x1), aroma (x2), qualidade da
massa (x3) e qualidade do recheio (x4).
Cada jurado atribuiu uma nota numa escala ordinal de 1 a 5
sendo que notas maiores indicam melhor qualidade.
(dados em coxinha.xls).
Dados: as notas para cada coxinha
em cada atributo so as mdias dos
cinco avaliadores
-
Matriz de dados
Matriz de covarincias
Autovetores e autovalores
1 = 1,737 2 = 0,065 3 = 0,027 4 = 0,022
94% 3,5% 1,5% 1%
Y1 = 0,456 x Sabor + 0,223 x Aroma + 0,477 x Massa + 0,717 x Recheio
1 Componente
Primeira componente
concentra a maior parte
da varincia total
-
Matriz de dados
Y1 = 0,456 x Sabor + 0,223 x Aroma + 0,477 x Massa + 0,717 x Recheio
1 Componente define as ponderaes de um ndice til na
ordenao das coxinhas
Escores das coxinhas na 1
componente principal
Por exemplo, o escore da coxinha M1 igual a:
Y1 = 0,456 x 2,75 + 0,223 x 4,03 + 0,477 x 2,80 + 0,717 x 2,62 = 5,37
-
EXEMPLO 3 Exemplo (Lattin, Carrol & Green, 2011): Aplicao da anlise de
componentes principais aos valores do produto estadual bruto (GSP
Gross State Product) de cada uma das 13 reas de atividade econmica em 1996 (arquivos gsp_rwa.xls e gsp_share.xls):
Agricultura, silvicultura e pesca Minerao Construo civil Servios urbanos (Eletricidade, gs e saneamento) Indstria (bens durveis) Indstria (bens de consumo) Transporte Comunicaes Comrcio atacadista Comrcio varejista Fiducirio, seguros e setor imobilirio Servios Governo
-
Estado Agricultura Minerao Const_ Civil Ind_bens_durveisInd_bens_consumo Transporte Comunicaes Serv_Urbanos Com_Atacadista Com_Varejista Fiduciria Servios Governos
AL 2016 1474 4144 10397 11734 2878 2836 3587 6259 9781 12694 15996 15395
AK 355 5424 983 277 884 2921 489 360 710 1576 2584 2871 4728
AZ 1899 1480 6442 12844 3299 3177 2421 3046 6997 11743 21120 22546 14505
AR 2886 570 2240 7242 6656 2470 1332 2361 3469 5729 6453 8344 6664
CA 20564 5776 31656 86522 47657 25133 24501 17501 65857 85443 218439 222748 110900
CO 2053 1936 6219 8939 5286 3796 6595 2565 7355 11274 19815 25161 15231
CT 893 52 4055 13616 7096 2193 2824 2681 8229 9211 35041 27029 11126
DE 290 6 970 1283 4710 462 379 668 1124 1698 10026 4042 2673
FL 6520 787 17031 16523 12763 11193 10933 10170 26417 40362 78695 84406 44696
GA 3801 906 8356 15957 23123 8565 9720 5881 18940 19333 35515 38919 27019
HI 445 28 1753 273 851 1617 1124 992 1446 4192 7768 8077 7752
ID 1744 174 1653 4189 1565 982 439 1021 1689 2774 3431 4548 3691
IL 5052 1282 15476 42026 29418 13905 8677 11447 28507 29877 71023 76832 37257
IN 2735 715 7228 33323 16015 5485 2189 4905 9382 14212 20426 23893 15289
IA 5771 177 3138 10088 8204 2507 1516 2100 5213 6296 10915 11655 8735
KS 2986 983 2838 7095 5356 2633 2417 2290 5311 6540 8608 11360 9597
KY 2438 2448 3752 14244 12589 3678 1453 2801 5565 8472 10733 14293 12944
LA 1488 17973 5086 4475 18514 3995 2276 4419 6451 9502 14709 19054 13201
ME 513 15 1297 2281 3052 676 572 904 1723 3197 5340 5410 3915
MD 1338 100 7216 5830 6486 3038 4123 4146 9046 12514 30573 33229 25552
MA 1212 130 6606 21966 10299 4083 3861 5184 14845 16373 50880 53879 19273
MI 2526 1173 10131 52785 18899 6322 4129 7058 18874 23420 41538 48791 27691
MN 4174 877 6195 15532 11584 5296 2640 2941 11776 12275 25352 27558 15374
MS 1798 507 2192 7313 5895 1813 1334 2857 3150 5630 6474 9032 8410
MO 2621 522 6697 16447 14675 5800 5114 4007 10659 13223 21345 27768 16246
MT 943 903 893 822 608 1008 391 932 1192 1839 2473 3557 2948
NE 4330 114 2097 3315 3347 3193 986 674 3495 3906 7007 8055 6669
NV 406 1969 4495 1687 902 1555 961 1630 2478 5053 9877 17336 5339
NH 252 31 1198 5600 1957 521 582 1486 2113 3098 7566 6617 3088
NJ 1524 128 9675 11954 26031 8889 11285 7366 25132 20221 64187 60211 29773
NM 808 3050 1979 6147 880 1073 708 1480 1823 3800 5937 7468 7545
NY 2780 471 17629 36007 36147 13007 21968 14544 37741 42056 182389 140228 68323
NC 4757 259 8563 20877 34198 5816 4161 6158 13094 18242 29719 31418 26968
ND 1668 482 764 723 461 767 302 626 1377 1427 1989 2741 2374
OH 3331 1134 11753 54395 28273 8809 5703 8994 21535 27984 46511 53989 31941
OK 1531 3879 2332 7431 5156 2702 2017 2570 4421 7267 9064 12634 11762
OR 2590 104 4731 13919 3949 2935 1633 2143 6937 7586 14140 15939 10361
PA 3298 1748 12509 37050 31025 9911 7245 11814 19286 28310 62352 69654 34338
RI 208 19 895 2853 1430 396 642 797 1426 2242 5802 5814 3106
SC 1208 223 4195 9335 14432 2156 1758 3193 5172 9180 11861 13505 13258
SD 2003 251 745 2257 694 637 332 623 1236 1795 4188 3156 2373
TN 1651 399 5527 17466 14777 6816 2798 1461 10396 15368 19450 27633 17005
TX 7327 41278 24138 47434 42291 20283 17481 20672 40239 47953 79020 99282 64431
UT 583 1620 2858 4578 2473 2068 1016 1316 3094 5167 8304 9892 7383
VT 332 46 635 1804 842 325 386 523 890 1416 2607 3043 1762
VA 1952 997 8635 11883 18103 5448 6818 4756 11068 16168 35268 39364 37351
WA 4612 332 7683 13985 6949 5037 5187 2551 11802 15432 29205 33006 23823
WV 240 2980 1720 2680 4036 1244 840 2789 1960 3248 4147 6147 5129
WI 3016 365 5986 22942 15662 4450 2083 3283 8756 12030 22367 23105 15114
WY 361 5323 622 235 731 1083 234 1082 543 1101 1744 1610 2177
Cross-section dos 50 Estados dos EUA em 1996 (valores em milhes de dlares)
diretorio
-
Matriz de correlaes
No R usar o comando cor(dados)
Considervel correlao positiva entre as variveis Maiores nveis de PIB setorial nos estados maiores e mais desemvolvidos Menores nveis de PIB setorial nos estados menores e menos desenvolvidos Uma boa quantidade de covariao pode ser explicada por um ou dois componentes principais
-
Resultados da Anlise de Componentes Principais
No R usar os comandos acp
-
Como pegar os autovetores das componentes ?
autovetor1
-
Screeplot
No R usar o comando screeplot(acp)
A primeira componente principal a mais importante As demais podem ser descartadas
-
Biplot
No R usar o comando biplot(acp)
Desenvolvimento econmico
California
New York
Louisiana
Texas
Minerao
A primeira componente principal est associada ao nvel de desenvolvimento econmico do estado
-
Cross-section dos 50 Estados dos EUA em 1996 (participao dos setores no PIB total)
cada linha soma 100% (o tamanho do estado foi removido) Agricultura Minerao Const_ Civil Ind_bens_durveis Ind_bens_consumo Transporte Comunicaes Serv_Urbanos Com_Atacadista Com_Varejista Fiduciria Servios Governos
AL 2.00 1.50 4.20 10.50 11.80 2.90 2.90 3.60 6.30 9.90 12.80 16.10 15.50
AK 1.50 22.40 4.10 1.10 3.70 12.10 2.00 1.50 2.90 6.50 10.70 11.90 19.60
AZ 1.70 1.30 5.80 11.50 3.00 2.80 2.20 2.70 6.30 10.50 18.90 20.20 13.00
AR 5.10 1.00 4.00 12.80 11.80 4.40 2.40 4.20 6.10 10.20 11.40 14.80 11.80
CA 2.10 0.60 3.30 9.00 5.00 2.60 2.50 1.80 6.80 8.90 22.70 23.10 11.50
CO 1.80 1.70 5.40 7.70 4.50 3.30 5.70 2.20 6.30 9.70 17.00 21.60 13.10
CT 0.70 0.00 3.30 11.00 5.70 1.80 2.30 2.20 6.60 7.40 28.20 21.80 9.00
DE 1.00 0.00 3.40 4.50 16.60 1.60 1.30 2.40 4.00 6.00 35.40 14.30 9.40
FL 1.80 0.20 4.70 4.60 3.50 3.10 3.00 2.80 7.30 11.20 21.80 23.40 12.40
GA 1.80 0.40 3.90 7.40 10.70 4.00 4.50 2.70 8.80 8.90 16.40 18.00 12.50
HI 1.20 0.10 4.80 0.80 2.30 4.50 3.10 2.70 4.00 11.50 21.40 22.20 21.30
ID 6.30 0.60 5.90 15.00 5.60 3.50 1.60 3.70 6.10 9.90 12.30 16.30 13.20
IL 1.40 0.30 4.20 11.30 7.90 3.80 2.30 3.10 7.70 8.10 19.20 20.70 10.00
IN 1.80 0.50 4.60 21.40 10.30 3.50 1.40 3.10 6.00 9.10 13.10 15.30 9.80
IA 7.60 0.20 4.10 13.20 10.80 3.30 2.00 2.80 6.80 8.30 14.30 15.30 11.40
KS 4.40 1.40 4.20 10.40 7.90 3.90 3.60 3.40 7.80 9.60 12.70 16.70 14.10
KY 2.60 2.60 3.90 14.90 13.20 3.90 1.50 2.90 5.80 8.90 11.20 15.00 13.60
LA 1.20 14.80 4.20 3.70 15.30 3.30 1.90 3.60 5.30 7.80 12.10 15.70 10.90
ME 1.80 0.10 4.50 7.90 10.60 2.30 2.00 3.10 6.00 11.10 18.50 18.70 13.50
MD 0.90 0.10 5.00 4.10 4.50 2.10 2.90 2.90 6.30 8.70 21.40 23.20 17.80
MA 0.60 0.10 3.20 10.50 4.90 2.00 1.90 2.50 7.10 7.80 24.40 25.80 9.20
MI 1.00 0.40 3.80 20.00 7.20 2.40 1.60 2.70 7.20 8.90 15.80 18.50 10.50
MN 2.90 0.60 4.40 11.00 8.20 3.70 1.90 2.10 8.30 8.70 17.90 19.50 10.90
MS 3.20 0.90 3.90 13.00 10.50 3.20 2.40 5.10 5.60 10.00 11.50 16.00 14.90
MO 1.80 0.40 4.60 11.30 10.10 4.00 3.50 2.80 7.30 9.10 14.70 19.10 11.20
MT 5.10 4.90 4.80 4.40 3.30 5.40 2.10 5.00 6.40 9.90 13.40 19.20 15.90
NE 9.20 0.20 4.40 7.00 7.10 6.80 2.10 1.40 7.40 8.30 14.80 17.10 14.10
NV 0.80 3.70 8.40 3.10 1.70 2.90 1.80 3.00 4.60 9.40 18.40 32.30 9.90
NH 0.70 0.10 3.50 16.40 5.70 1.50 1.70 4.40 6.20 9.10 22.20 19.40 9.10
NJ 0.60 0.00 3.50 4.30 9.40 3.20 4.10 2.70 9.10 7.30 23.20 21.80 10.80
NM 1.90 7.10 4.60 14.40 2.10 2.50 1.70 3.50 4.30 8.90 13.90 17.50 17.70
NY 0.50 0.10 2.90 5.90 5.90 2.10 3.60 2.40 6.20 6.90 29.70 22.90 11.10
NC 2.30 0.10 4.20 10.20 16.70 2.80 2.00 3.00 6.40 8.90 14.60 15.40 13.20
ND 10.60 3.10 4.90 4.60 2.90 4.90 1.90 4.00 8.80 9.10 12.70 17.50 15.10
OH 1.10 0.40 3.90 17.90 9.30 2.90 1.90 3.00 7.10 9.20 15.30 17.70 10.50
OK 2.10 5.30 3.20 10.20 7.10 3.70 2.80 3.50 6.10 10.00 12.50 17.40 16.20
OR 3.00 0.10 5.40 16.00 4.50 3.40 1.90 2.50 8.00 8.70 16.30 18.30 11.90
PA 1.00 0.50 3.80 11.30 9.40 3.00 2.20 3.60 5.90 8.60 19.00 21.20 10.50
RI 0.80 0.10 3.50 11.10 5.60 1.50 2.50 3.10 5.60 8.70 22.60 22.70 12.10
SC 1.40 0.20 4.70 10.40 16.10 2.40 2.00 3.60 5.80 10.30 13.30 15.10 14.80
SD 9.90 1.20 3.70 11.10 3.40 3.10 1.60 3.10 6.10 8.80 20.60 15.60 11.70
TN 1.20 0.30 3.90 12.40 10.50 4.80 2.00 1.00 7.40 10.90 13.80 19.60 12.10
TX 1.30 7.50 4.40 8.60 7.70 3.70 3.20 3.70 7.30 8.70 14.30 18.00 11.70
UT 1.20 3.20 5.70 9.10 4.90 4.10 2.00 2.60 6.10 10.30 16.50 19.60 14.70
VT 2.30 0.30 4.30 12.30 5.80 2.20 2.60 3.60 6.10 9.70 17.80 20.80 12.10
VA 1.00 0.50 4.40 6.00 9.20 2.80 3.40 2.40 5.60 8.20 17.80 19.90 18.90
WA 2.90 0.20 4.80 8.80 4.40 3.20 3.20 1.60 7.40 9.70 18.30 20.70 14.90
WV 0.60 8.00 4.60 7.20 10.90 3.30 2.30 7.50 5.30 8.70 11.20 16.50 13.80
WI 2.20 0.30 4.30 16.50 11.30 3.20 1.50 2.40 6.30 8.60 16.10 16.60 10.90
WY 2.10 31.60 3.70 1.40 4.30 6.40 1.40 6.40 3.20 6.50 10.40 9.60 12.90
diretorio
-
Matriz de correlaes
No R usar o comando cor(dados)
Poucas correlaes elevadas. A maioria varia ente 0 e 0,3 sendo algumas negativas. Um nico componente principal pode no ser suficiente para explicar as variaes subjacentes.
-
Resultados da Anlise de Componentes Principais
No R usar os comandos acp
-
Como pegar os autovetores das componentes ?
autovetor1
-
Screeplot
No R usar o comando screeplot(acp)
A maior parte da covariao no explicada por um reduzido nmero de componentes principais.
-
Biplot
O biplot reflete as especializaes das economias estaduais
-
Obtendo as coordenadas (escores) dos estados no biplot
score_cp1< acp$scores[,1]
score_cp2< acp$scores[,2]
-
EXEMPLO 4
Exemplo (Sousa & Oliveira, 2014):Ranking dos atacantes do
Campeonato Brasileiro Srie A 2013
Dados: Cartola FC http://globoesporte.globo.com/cartola-fc
141 atacantes descritos por 8 variveis
Nmero de gols (+) Passes errados (-) Assistncias (+) Finalizaes na trave (+) Finalizaes defendidas (+) Finalizaes para fora (+) Impedimentos (-) Penalties perdidos (-)
-
# diretrio de trabalho
setwd("c:/curso_R_2014")
dados=read.csv("jogadores.csv",sep=";",header=T)
p=dim(dados)[2]
# Matriz de dados X
X=dados[,2:p]
rownames(X)=dados[,1]
# dimenses da matriz X
dim(X)
# variveis na matriz X
names(X)
Leitura da matriz de dados
# primeiras seis linhas da matriz de dados
head(X)
-
cor(X) Matriz de correlaes
Execuo da ACP # faz a ACP
resultado=princomp(X,cor=T,score=T)
summary(resultado)
# scree plot
plot(resultado)
As duas primeiras componentes
principais concentram 75% da
varincia total
-
names(resultado)
# coeficientes das componentes principais (autovetores)
resultado$loadings
A primeira componente est associada ao desempenho de um atacante
A segunda componente est associada com penalties perdidos
Resultados
-
Resultados
# grfico dos coeficientes das duas primeiras componentes
plot(resultado$loadings)
text(resultado$loadings,names(X))
Mehor desempenho
Mais
penalties
perdidos
-
Resultados
# scores dos jogadores nas componentes principais
resultado$scores
-
Resultados
# jogadores nas duas primeiras componentes principais
plot(resultado$scores)
text(resultado$scores,rownames(X))
-2 0 2 4 6 8
02
46
Comp.1
Co
mp
.2
Rafael Sobis (Fluminense)
Ederson (Atletico PR)
Fred (Fluminense)
Leandro Damiao (Internacional)
Maxi Biancucchi (Vitoria)Lins (Criciuma)
Rafael Marques (Botafogo)
Barcos (Gremio)
Dagoberto (Cruzeiro)
Forlan (Internacional) Hernane (Flamengo)
Borges (Cruzeiro)Luis Fabiano (Sao Paulo)
Andr? (Vasco)
William (Ponte Preta)
Alexandre Pato (Corintihians)
Deivid (Coritiba)
Diego Tardelli (Atletico MG)
Luan (Atletico MG)
Fernandao (Bahia)Carlos Tenorio (Vasco)
Rog?rio (Nautico)Emerson (Corintihians)
Maikon Leite (Nautico)Scocco (Internacional)
Thiago Ribeiro (Santos)
Willian (Cruzeiro) Marquinhos (Vitoria)
Kleber (Gremio)
Vargas (Gremio)Jo (Atletico MG)
Dinei (Vitoria)
William Henrique (Vitoria)
Fernandinho (Atletico MG)Marcelo (Atletico PR)
Osvaldo (Sao Paulo)
Marquinhos Gabriel (Bahia)
Samuel (Fluminense)
Chiquinho (Ponte Preta)
Rafinha (Flamengo)
Paolo Guerrero (Corintihians)
Alosio (Sao Paulo)
Wallyson (Bahia)
Romarinho (Corintihians)
Giva (Santos)
Walter (Goias)
Rildo (Ponte Preta)Jorge Henrique (Internacional)
Rhayner (Fluminense)Wellington Paulista (Criciuma)
Edmlson (Vasco)Gilberto (Portuguesa)
Luan (Cruzeiro)Julio Cesar (Coritiba)
Neilton (Santos)
Hyuri (Botafogo)Roger (Atletico PR)
Anselmo Ramon (Cruzeiro)
Paulinho (Flamengo)
Elias (Botafogo)
Marcelo Moreno (Flamengo)
Martinuccio (Cruzeiro)
Rafael Moura (Internacional)
Dellatorre (Atletico PR)Wiliam Barbio (Bahia)
Bergson (Portuguesa)Leonardo (Ponte Preta)Bruno Moraes (Portuguesa)
Guilherme (Atletico MG)
Vincius Araujo (Cruzeiro)Alecsandro (Atletico MG)
Jones Carioca (Nautico)Andr? Lima (Vitoria)Silvinho (Sao Paulo)
Ademilson (Sao Paulo)
Willian Jos? (Sao Paulo)
Nixon (Flamengo)Lucca (Cruzeiro)Caio (Internacional)Reginaldo (Vasco)
Welliton (Sao Paulo)Denilson (Fluminense)
Marcel (Criciuma)
Everton Costa (Santos)Neto Berola (Atletico MG)
Diogo (Portuguesa)
L?o Bonatini (Goias)Bruno Mendes (Botafogo)
Alemao (Vitoria)Henrique (Botafogo)
Junior Vicosa (Goias)Fabinho (Goias)Romulo (Vitoria)Victor Andrade (Santos) Obina (Bahia)Araujo (Goias)Hugo (Nautico)Bruninho (Flamengo)
Souza (Bahia)
Olivera (Nautico)Michel (Portuguesa)
Biro (Fluminense)Sass (Botafogo)Thalles (Vasco) Willie (Vasco)Keirrison (Coritiba)Weldon (Criciuma)
Marcos (Fluminense)Douglas (Atletico PR) Henrique (Portuguesa)Kenedy (Fluminense)
Adailton (Ponte Preta)Marcelinho (Fluminense)Alex (Botafogo)Joao Paulo (Nautico)Douglas (Criciuma)Erik (Goias)Bill (Coritiba)Paulo (Goias)Romao (Portuguesa)Welinton Junior (Goias)Negueba (Flamengo)
Maiquinho (Coritiba)
Geraldo (Coritiba)Yuri Mamute (Gremio)Saullo (Nautico)Paulinho (Gremio)Pedro Oldoni (Vitoria)Rafael Ratao (Ponte Preta)Paulo Victor (Corintihians)Lucas Coelho (Gremio)Nelson (Portuguesa)Bruno Lopes (Criciuma)Zizao (Corintihians)Mike (Internacional)Robinho (Vasco)Carlos (Atletico MG)Cassiano (Criciuma)Elder Santana (Atletico MG)Ciro (Atletico PR)Flecha Arraya (Portuguesa)
-
Resultados
# 10 melhores atacantes no ranking por ACP
sort(resultado$scores[,1],decreasing=T)[1:10]
# 10 piores atacantes no ranking por ACP
sort(resultado$scores[,1],decreasing=F)[1:10]
-
Comparao com o Trofu Armando Nogueira
Sousa & Oliveira (2014)
Artilheiro do campeonato com 21 gols
Vice artilheiro com 16 gols
-
Referncias bibliogrficas EVERITT, B. An R and S-Plus companion to multivariate analysis, Springer-Verlag, London, 2007.
FVERO, L.P.; BELFIORE, P.; SILVA, F.L.; CHAN, B.L. Anlise de dados: modelagem multivariada para tomada de decises, Campus, Rio de Janeiro, 2009.
JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 5th edition, Prentice Hall, New Jersey, 2002.
LATTIN, J.; CARROLL, J.D.; GREEN, P.E. Anlise de dados multivariados,
Cengage learning, So Paulo, 2011.
LEBART, L.; MORINEAU, A.; PIRON, M. Statistique Exploratoire Multidimensionelle , 3e
dition, Dunod, Paris, 2000.
MINGOTI, S.A. Anlise de dados atravs de mtodos de estatstica multivariada: uma abordagem aplicada, Editora UFMG, Belo Horizonte, 2005.
SOUSA, V.D.; OLIVEIRA, V.N. Anlise do desempenho dos atacantes do campeonato brasileiro 2013 por meio da anlise de componentes principais, Projeto Final, UERJ, 2014.