Analise de Componentes Principais ACP

71
Análise de Componentes Principais José Francisco Moreira Pessanha [email protected]

description

COMPONENTES PRINCIPALES

Transcript of Analise de Componentes Principais ACP

  • Anlise de

    Componentes

    Principais Jos Francisco Moreira Pessanha

    [email protected]

  • Anlise de componentes principais - ACP

    Karl Pearson

    1857 - 1936

    Introduzida por Karl Pearson em 1901.

    On lines and planes of closest fit to systems of point in

    space, Philosophical Magazine, Series 6, vol. 2, no. 11,

    pp. 559-572.

  • Conue pour la premire fois par Karl Pearson en 1901,

    intgre la statistique

    mathmatique par Harold

    Hotelling en 1933, lanalyse en composantes principales nest vraiment utilise que depuis

    lavnement et la diffusion des moyens de calculs actuels.

    Lebart, Morineau et Piron

    Statistique Exploratoire

    Multidimensionnelle, 3e

    dition, Dunod, Paris, 2000.

  • Componentes principais

    Descrevem a estrutura de varincia e covarincia de variveis

    correlacionadas x1,x2,...,xp em termos de um conjunto de novas variveis

    y1, y2, ..., yp no correlacionadas.

    Cada yi uma combinao linear das variveis x1,x2,...,xp

    Novas variveis yi ordenadas em ordem decrescente de importncia:

    y1 (1 componente principal) concentra a maior parte da variao dos

    dados originais entre todas as combinaes lineares de x1,x2,...,xp.

    y2 (2 componente principal) no correlacionada com y1 e concentra a

    maior parte da variao restante

    y3 (3 componente principal) no correlacionada com y1 e y2 e concentra

    uma parcela ainda menor da variao

    e assim sucessivamente.

    pipiii xaxaxay 2211

  • Finalidades da ACP

    Reduo da dimensionalidade dos dados

    Descrio e visualizao de dados

    Transformar as variveis em novas variveis descorrelacionadas.

    Extrao de sinal contido nos dados (Eliminar ou reduzir o rudo presente nos dados)

    Ordenao dos objetos

    Construo de nmeros ndices

  • Alguns exemplos de aplicao da ACP

    As componentes principais proporcionam a reduo de dimensionaldade

    As primeiras k (k

  • Definies Considere um vetor aleatrio XT=(x1,x2,...,xp) com matriz de

    covarincia (matriz pxp).

    A matriz de covarincia tem p autovalores (i, i=1,p) e p

    autovetores ( ei = (ei1,ei2,...,eip) i=1,p), ordenados na ordem

    decrescente dos autovalores.

    A i-sima componente principal :

    pipiii xexexey 2211

    pipiii eeeyE 2211 iiyV

    0,cov ji yy As componentes principais so no correlacionadas A varincia da componente o respectivo autovalor

    Os coeficientes da i-sima

    componente so definidos pelo

    autovetor do i-simo maior

    autovalor

  • Aluno 1

    Aluno 30

    Notas em microeconomia

    Notas em macroeconomia

    n =30 alunos

    p =2 variveis (notas)

    Cada aluno i um vetor Matriz de

    Dados X

    2i

    1i

    iX

    XX

    i = 1 at 30

    Motivao

  • Nota

    em

    ma

    cro

    eco

    no

    mia

    X2

    Diagrama de disperso

    Cada ponto representa um aluno

    Nota em microeconomia X1

    0

  • Nota em microeconomia X1

    Nota em macroeconomia X2

    alu

    no

    s

    alu

    no

    s

    Mdia = 5,8339

    Varincia = 1,0446

    Desvio-padro = 1,0221

    Mdia = 6,9149

    Varincia = 0,9579

    Desvio-padro = 0,9787

    Distribuies de freqncia das notas

  • Nota em microeconomia X1

    Nota

    em

    ma

    cro

    eco

    no

    mia

    X2

    Covarincia = 0,8155

    Correlao = 0,8153

    Diagrama de disperso

    Relao direta entre as notas de

    microeconomia e macroeconomia

  • Matriz de covarincia amostral

    9579,08155,0

    8155,00446,1S

    Var(X1)

    Var(X2) Cov(X1,X2)

    Vetor mdia amostral

    9149,6

    8339,5X

  • 9579,08155,0

    8155,00446,1S

    7256,0

    6881,0e2

    6881,0

    7256,0e1 8179,11

    1846,02

    matriz de covarincias 2x2 2 autovetores

    Autovetores de S Direes de maior

    variabilidade dos dados

    (componentes principais)

    Autovalores de S Parcela da variabilidade dos

    dados concentrada em

    cada componente principal

    0024,29579,00446,121 XVarXVar

    Matriz de covarincias =

    Varincia

    total

    0024,221

    21

    yVaryVar

    xVarxVar

    Varincia das

    projees

    Direo de maior variabilidade

    Da lgebra Linear sabe-se que

    Trao de (S)

    =

    Soma dos autovalores de S

    Logo

    Trao de S

    Var(y1) = 1,8179

    Var(y2) = 0,1846

  • Nota

    em

    ma

    cro

    eco

    no

    mia

    X2

    Nota em microeconomia X1

    1X

    2X

    e1

    e2

    7256,0

    6881,0e2

    6881,0

    7256,0e1

    Autovetores

    da matriz S

    0

    Direes dos

    autovetores

    91,6

    84,5X

    Mdia

    Mdia das notas de

    microeconomia

    Mdia das notas de

    macroeconomia

    Y1

    Y2

  • Nota

    em

    ma

    cro

    eco

    no

    mia

    X2

    Nota em microeconomia X1

    Projeo do vetor do i-simo

    aluno na direo do

    autovetor e1

    6881,0

    7256,0e11

    e

    2i

    1i

    iX

    XX

    0

    A projeo o produto interno Xie1 :

    2i1i X6881,0X7256,0 i-simo aluno

    Direo da 1

    componente principal

    Projeo na direo de maior variabilidade,

    ou seja, escore do i-simo aluno na primeira

    componente principal

  • Nota

    em

    ma

    cro

    eco

    no

    mia

    X2

    Nota em microeconomia X1

    0

    Projees na direo de maior variabilidade

    das notas, ou seja, escores dos alunos na

    primeira componente principal

    2i1i X6881,0X7256,0

  • 2i1i X6881,0X7256,0 1iX 2iX2512,90914,76881,00247,67256,0

    3968,85713,66881,03404,57256,0

    6126,101074,86881,09374,67256,0

    6316,84534,66881,07759,57256,0

    Aluno 1

    Aluno 30

    Projees na

    direo de

    maior

    variabilidade

    das notas ou

    escores dos

    alunos na

    primeira

    componente

    principal

  • Distribuio de freqncia dos escores na primeira componente principal

    Mdia = 8,99

    Varincia = 1,8179

  • Nota em microeconomia X1

    Nota

    em

    ma

    cro

    eco

    no

    mia

    X2

  • Nota

    em

    ma

    cro

    eco

    no

    mia

    X2

    Nota em microeconomia X1

    0

    Projees na direo da segunda

    componente principal

    21 7256,06881,0 ii XX

    Observe que a disperso dos

    pontos na direo da

    segunda componente

    menor que a disperso na

    direo da primeira

    componente

    Var(1 componente) maior

    que Var(2 componente)

  • 21 7256,06881,0 ii XX 1iX 2iX9999,00914,77256,00247,66881,0

    0934,15713,67256,03404,56881,0

    1091,11074,87256,09374,66881,0

    7082,04534,67256,07759,56881,0

    Aluno 1

    Aluno 30

    Projees na

    direo da

    segunda

    componente

    principal

  • 6881,0

    7256,0e1

    As componentes principais so combinaes lineares das variveis, cujos

    coeficientes so definidos pelos autovetores da matriz e covarincia:

    2i1i1i X6881,0X7256,0Y

    7256,0

    6881,0e2 2i1i2i X7256,0X6881,0Y

    1 componente define as projees dos alunos na direo de

    maior variabilidade

    2 componente

    Autovetores

    As componentes principais so variveis aleatrias com varincias iguais

    aos autovalores:

    1846,0YVar

    8179,1YVar

    22i

    11i

  • Nota

    em

    ma

    cro

    eco

    no

    mia

    X2

    Nota em microeconomia X1

    Y1 Y2

    0

    1846,0YVarYVar

    2

    22

    8179,1YVarYVar

    1

    11

    0446,1XVar 1

    9579,0XVar 2

  • 9579,08155,0

    8155,00446,1SMatriz de covarincias =

    0024,29579,00446,1Strao Varincia total =

    8179,1YVar 11

    1846,0YVar 22

    1 componente

    2 componente

    %78,90%1000024,2

    8179,1

    %22,9%1000024,2

    1846,0

    1 componente principal concentra 91% da variabilidade total dos dados, logo resume

    boa parte da informao contida nas duas variveis

    2 componente principal concentra apenas 9% da variabilidade total dos dados e por

    isso pode ser descartada

  • Var Y1 > Var Y2 > .... > Var Yp

    Algebricamente, as componentes principais so combinaes lineares das p variveis aleatrias X1, X2, ..., Xp;

    Geometricamente, as combinaes lineares representam um novo sistema de coordenadas obtido pela translao e rotao do sistema original com X1, X2, ..., Xp como eixos;

    Os novos eixos representam as direes com as maiores variabilidades e fornecem uma descrio mais simples e mais parcimoniosa da estrutura de covarincia, pois as componentes principais so no correlacionadas;

    As componentes principais podem ser obtidas a partir da matriz de correlao (r) ou da matriz de covarincias () de X1, X2, ..., Xp. O seu desenvolvimento no necessita da suposio de normalidade.

    Resumindo A anlise de componentes principais substitui um conjunto de variveis

    correlacionadas (X) por um conjunto de novas variveis no-

    correlacionadas (Y), sendo essas combinaes lineares das variveis

    iniciais e colocadas em ordem decrescente por suas varincias.

  • Resumindo

    Roteiro para obteno das componentes principais

    Matriz

    ou

    r

    Calcular

    os

    autovalores

    Calcular

    os

    autovetores

    e

    Selecionar

    as

    componentes

    principais

    X1

    X2

    X3

    ...

    Xp

    Y1

    Y2

    Y3

    ...

    Yp

    Variveis

    originais

    Componentes

    principais

  • Teorema da decomposio espectral

    pppp

    pp

    p

    p

    pp

    p

    eee

    e

    e

    e

    eee

    e

    e

    e

    21

    2

    1

    11211

    1

    12

    11

    1

    pppp

    p

    p

    ppppp

    p

    p

    eee

    eee

    eee

    eee

    eee

    eee

    21

    22221

    11211

    2

    1

    21

    22212

    12111

    T

    X PP

    T

    ppp

    TT eeeeee 222111

    Seja a matriz de covarincia do vetor aleatrio X.

    O vetor aleatrio X tem p variveis aleatrias

    A matriz tem p autovetores e1, e2,...,ep e p autovalores 1>2>...> p

    Pelo teorema da decomposio espectral tem-se que:

    Organizando a soma na forma matricial

    Matriz P, cada coluna

    um autovetor

    Matriz diagonal formada

    pelos autovalores em

    ordem decrescente

    Matriz PT. cada

    linha um

    autovetor

  • TX PP

    Componentes principais

    Matriz de covarincia das componentes principais

    Matriz de covarincia das componentes principais

    ppppp

    p

    p

    p x

    x

    x

    eee

    eee

    eee

    y

    y

    y

    2

    1

    21

    22221

    11211

    2

    1

    XPY T

    PP XT

    Y

    Pela decomposio espectral tem-se que

    Logo PPPP TTY Como os autovetores so

    ortonormais PTP=I ou PPT=I Y

    p

    Y

    2

    1 Matriz diagonal formada

    pelos autovalores em

    ordem decrescente

    As componentes principais

    so no correlacionadas

  • Varincia total o trao da matriz de covarincia

    Conservao da varincia total

    PP XT

    Y

    Relao entre as matriz de covarincia das variveis originais e das

    componentes principais

    PPTraoTrao XTY A permutao dos elementos de um produto no muda o trao

    TXY PPTraoTrao Como os autovetores so ortonormais PTP=I ou PPT=I

    XY TraoTrao

    pppp

    p

    p

    p

    TraoTrao

    21

    22221

    11211

    2

    1

    ppp 221121

    Varincia total das p componentes

    principais igual a varincia total

    das p variveis

    1>2>...> p

  • As primeiras componentes principais concentram a maior parte da

    varincia total

    Conservao da varincia total

    Como 1>2>...> p

    X1

    X2 Y1

    Y2

    Varincia total das p componentes principais igual a varincia total das

    p variveis

    221121

    As componentes principais

    oferecem uma nova base

    vetorial para expressar as

    variveis.

    Ou seja, mudam apenas o

    sistema de referncia e no a

    nuvem de pontos.

    Nuvem de observaes

  • Critrios de seleo do nmero de componentes

    1) Kaiser ou Mtodo da Raiz Latente: selecionar apenas as

    componentes com autovalores maiores que 1

    2) Escolha as m (m < p variveis) primeiras componentes

    principais que concentrem pelo menos 80% da variabilidade

    total das variveis originais. Se m=2, isto significa que o

    fenmeno sob estudo pode ser muito simplificado;

    3) Scree test grfico dos autovalores.

    Scree-plot

    1 ou 2 componentes

    principais concentram a

    maior parte da variao

    total

    %80%100

    1

    1

    p

    i

    i

    m

    i

    i

  • Anlise de componentes principais no R

    Comando princomp (EVERITT, 2007)

    acp

  • Aplicar a ACP na matriz de covarincia ou na matriz de correlao?

    As variveis do vetor aletrio X podem estar expressas em unidades

    fsicas diferentes (m, km, g, kg, l, kl, segundo, minuto, hora,...) e ou terem

    varincias muito diferentes.

    Como a ACP busca maximizar a varincia ela pode ser sensvel s

    diferenas de escala entre as variveis. Para evitar este problema os

    dados devem ser expresso em unidades comparveis.

    Um forma de expressar os dados em unidades comparveis consiste em

    aplicar a ACP s variveis padronizadas:

    2

    i

    iii

    S

    Xxz

    1izVar

    A matriz de covarincia das variveis padronizadas a matriz de

    correlao. Por esta razo, em geral, recomenda-se aplicar a ACP na

    matriz de correlao.

  • Exemplos

  • EXEMPLO 1

    Exemplo (Johnson & Wichern, 2002): Em um estudo sobre o

    tamanho e a forma da carapaa de tartarugas, Jolicoeur &

    Mosimann mediram o comprimento (mm), a largura (mm) e a altura

    (mm) de 24 tartarugas machos (dados em tartarugas.xls ou em

    http://life.bio.sunysb.edu/morph/data/JolicoeurMosimannPaintedTur

    tles.html).

  • comprimento largura altura

    93 74 37

    94 78 35

    96 80 35

    101 84 39

    102 85 38

    103 81 37

    104 83 39

    106 83 39

    107 82 38

    112 89 40

    113 88 40

    114 86 40

    116 90 43

    117 90 41

    117 91 41

    119 93 41

    120 89 40

    120 93 44

    121 95 42

    125 93 45

    127 96 45

    128 95 45

    131 95 46

    135 106 47

    Var(comprimento) = 138,77 mm2

    Var(largura) = 50,04 mm2

    Var(altura) = 11,26 mm2

    As expressivas diferenas

    nas varincias e os boxplots

    indicam a presena de

    heterocedasticidade.

    Para a aplicao da ACP

    interessante homogeneizar a

    varincia.

    Para esta finalidade as

    variveis podem ser

    padronizadas ou pode-se

    aplicar uma transformao

    logartmica

  • A transformao logartmica faz a homogeneizao das

    varincias.

    ln comprimento ln largura ln altura

    4,5326 4,3041 3,6109

    4,5433 4,3567 3,5553

    4,5643 4,3820 3,5553

    4,6151 4,4308 3,6636

    4,6250 4,4427 3,6376

    4,6347 4,3944 3,6109

    4,6444 4,4188 3,6636

    4,6634 4,4188 3,6636

    4,6728 4,4067 3,6376

    4,7185 4,4886 3,6889

    4,7274 4,4773 3,6889

    4,7362 4,4543 3,6889

    4,7536 4,4998 3,7612

    4,7622 4,4998 3,7136

    4,7622 4,5109 3,7136

    4,7791 4,5326 3,7136

    4,7875 4,4886 3,6889

    4,7875 4,5326 3,7842

    4,7958 4,5539 3,7377

    4,8283 4,5326 3,8067

    4,8442 4,5643 3,8067

    4,8520 4,5539 3,8067

    4,8752 4,5539 3,8286

    4,9053 4,6634 3,8501

    Var( ln(comprimento) ) = 0,01107

    Var( ln(largura) ) = 0,0064

    Var( ln(altura) ) = 0,0068

  • 4.54.55

    4.64.65

    4.74.75

    4.84.85

    4.94.95

    5

    4.2

    4.3

    4.4

    4.5

    4.6

    4.7

    3.55

    3.6

    3.65

    3.7

    3.75

    3.8

    3.85

    3.9

    3.95

    Ln comprimentoLn largura

    Ln a

    ltura

  • Matriz de covarincias

    S=

    Autovetores e autovalores de S

    autovetores

    1e 2e 3e

    autovalores 0,223 0,0006 0,0004

    % 96,04 2,47 1,65

    % acumulado 96,04 98,51 100

    Primeira componente concentra a

    maior parte da varincia total

  • Projeo das observaes na direo de maior variabilidade

    iiii altura_Ln5225,0uraargl_Ln5102,0ocompriment_Ln6831,0projeo

    5225,0

    i

    5102,0

    i

    6831,0

    ii altura_Lnuraargl_Lnocompriment_Lnprojeo

    5225,0

    i

    5102,0

    i

    6831,0

    ii alturauraarglocompriment_Lnprojeo

    Note que os expoentes so da mesma ordem de grandeza

    ii volumefprojeo

    1e

    i

    i

    i

    alturaLn

    uralLn

    ocomprimentLn

    _

    arg_

    _

    X

    A primeira componente principal relaciona-se com o volume da carapaa

    da tartaruga

  • # localiza diretrio onde est o arquivo de dados diretorio
  • Resultados gerados pelo programa R

    Raiz quadrada do auto valor

    Parcela da varincia

    concentrada na primeira

    componente

    Autovetor

    associado ao

    primeiro

    autovalor

    Parcela da varincia

    concentrada na primeira

    componente

  • Resultados gerados pelo programa R

    Seleciona escores na

    primeira componente

    acp$scores[,1]

    Escore da i-sima tartaruga na

    primeira componente principal =

    0,6831 * ( xi1 mdiax1 ) + 0,5102 * ( xi2 mdiax2 ) + 0,5225 * ( xi3 mdiax3 )

    Pondera os desvios em relao

    mdia pelos elementos do

    autovetor que define a primeira

    componente principal

  • Resultados gerados pelo programa R

    Biplot nas duas primeiras componentes principais ( 99% da varincia total )

    Grfico gerado pelo comando

    biplot(acp)

    Vetores das variveis apontando

    na mesma direo indicam

    variveis positivamente

    correlacionadas e com

    correlaes fortes.

    O volume da carapaa da

    tartaruga cresce da esquerda

    para a direita.

    Tartarugas 1, 2 e 3 so as menores

    e a tartaruga 24 a maior

    Matriz de correlaes

  • EXEMPLO 2 Oito marcas de coxinha de galinha foram avaliadas por 5 juzes

    em relao a 4 atributos: sabor (x1), aroma (x2), qualidade da

    massa (x3) e qualidade do recheio (x4).

    Cada jurado atribuiu uma nota numa escala ordinal de 1 a 5

    sendo que notas maiores indicam melhor qualidade.

    (dados em coxinha.xls).

    Dados: as notas para cada coxinha

    em cada atributo so as mdias dos

    cinco avaliadores

  • Matriz de dados

    Matriz de covarincias

    Autovetores e autovalores

    1 = 1,737 2 = 0,065 3 = 0,027 4 = 0,022

    94% 3,5% 1,5% 1%

    Y1 = 0,456 x Sabor + 0,223 x Aroma + 0,477 x Massa + 0,717 x Recheio

    1 Componente

    Primeira componente

    concentra a maior parte

    da varincia total

  • Matriz de dados

    Y1 = 0,456 x Sabor + 0,223 x Aroma + 0,477 x Massa + 0,717 x Recheio

    1 Componente define as ponderaes de um ndice til na

    ordenao das coxinhas

    Escores das coxinhas na 1

    componente principal

    Por exemplo, o escore da coxinha M1 igual a:

    Y1 = 0,456 x 2,75 + 0,223 x 4,03 + 0,477 x 2,80 + 0,717 x 2,62 = 5,37

  • EXEMPLO 3 Exemplo (Lattin, Carrol & Green, 2011): Aplicao da anlise de

    componentes principais aos valores do produto estadual bruto (GSP

    Gross State Product) de cada uma das 13 reas de atividade econmica em 1996 (arquivos gsp_rwa.xls e gsp_share.xls):

    Agricultura, silvicultura e pesca Minerao Construo civil Servios urbanos (Eletricidade, gs e saneamento) Indstria (bens durveis) Indstria (bens de consumo) Transporte Comunicaes Comrcio atacadista Comrcio varejista Fiducirio, seguros e setor imobilirio Servios Governo

  • Estado Agricultura Minerao Const_ Civil Ind_bens_durveisInd_bens_consumo Transporte Comunicaes Serv_Urbanos Com_Atacadista Com_Varejista Fiduciria Servios Governos

    AL 2016 1474 4144 10397 11734 2878 2836 3587 6259 9781 12694 15996 15395

    AK 355 5424 983 277 884 2921 489 360 710 1576 2584 2871 4728

    AZ 1899 1480 6442 12844 3299 3177 2421 3046 6997 11743 21120 22546 14505

    AR 2886 570 2240 7242 6656 2470 1332 2361 3469 5729 6453 8344 6664

    CA 20564 5776 31656 86522 47657 25133 24501 17501 65857 85443 218439 222748 110900

    CO 2053 1936 6219 8939 5286 3796 6595 2565 7355 11274 19815 25161 15231

    CT 893 52 4055 13616 7096 2193 2824 2681 8229 9211 35041 27029 11126

    DE 290 6 970 1283 4710 462 379 668 1124 1698 10026 4042 2673

    FL 6520 787 17031 16523 12763 11193 10933 10170 26417 40362 78695 84406 44696

    GA 3801 906 8356 15957 23123 8565 9720 5881 18940 19333 35515 38919 27019

    HI 445 28 1753 273 851 1617 1124 992 1446 4192 7768 8077 7752

    ID 1744 174 1653 4189 1565 982 439 1021 1689 2774 3431 4548 3691

    IL 5052 1282 15476 42026 29418 13905 8677 11447 28507 29877 71023 76832 37257

    IN 2735 715 7228 33323 16015 5485 2189 4905 9382 14212 20426 23893 15289

    IA 5771 177 3138 10088 8204 2507 1516 2100 5213 6296 10915 11655 8735

    KS 2986 983 2838 7095 5356 2633 2417 2290 5311 6540 8608 11360 9597

    KY 2438 2448 3752 14244 12589 3678 1453 2801 5565 8472 10733 14293 12944

    LA 1488 17973 5086 4475 18514 3995 2276 4419 6451 9502 14709 19054 13201

    ME 513 15 1297 2281 3052 676 572 904 1723 3197 5340 5410 3915

    MD 1338 100 7216 5830 6486 3038 4123 4146 9046 12514 30573 33229 25552

    MA 1212 130 6606 21966 10299 4083 3861 5184 14845 16373 50880 53879 19273

    MI 2526 1173 10131 52785 18899 6322 4129 7058 18874 23420 41538 48791 27691

    MN 4174 877 6195 15532 11584 5296 2640 2941 11776 12275 25352 27558 15374

    MS 1798 507 2192 7313 5895 1813 1334 2857 3150 5630 6474 9032 8410

    MO 2621 522 6697 16447 14675 5800 5114 4007 10659 13223 21345 27768 16246

    MT 943 903 893 822 608 1008 391 932 1192 1839 2473 3557 2948

    NE 4330 114 2097 3315 3347 3193 986 674 3495 3906 7007 8055 6669

    NV 406 1969 4495 1687 902 1555 961 1630 2478 5053 9877 17336 5339

    NH 252 31 1198 5600 1957 521 582 1486 2113 3098 7566 6617 3088

    NJ 1524 128 9675 11954 26031 8889 11285 7366 25132 20221 64187 60211 29773

    NM 808 3050 1979 6147 880 1073 708 1480 1823 3800 5937 7468 7545

    NY 2780 471 17629 36007 36147 13007 21968 14544 37741 42056 182389 140228 68323

    NC 4757 259 8563 20877 34198 5816 4161 6158 13094 18242 29719 31418 26968

    ND 1668 482 764 723 461 767 302 626 1377 1427 1989 2741 2374

    OH 3331 1134 11753 54395 28273 8809 5703 8994 21535 27984 46511 53989 31941

    OK 1531 3879 2332 7431 5156 2702 2017 2570 4421 7267 9064 12634 11762

    OR 2590 104 4731 13919 3949 2935 1633 2143 6937 7586 14140 15939 10361

    PA 3298 1748 12509 37050 31025 9911 7245 11814 19286 28310 62352 69654 34338

    RI 208 19 895 2853 1430 396 642 797 1426 2242 5802 5814 3106

    SC 1208 223 4195 9335 14432 2156 1758 3193 5172 9180 11861 13505 13258

    SD 2003 251 745 2257 694 637 332 623 1236 1795 4188 3156 2373

    TN 1651 399 5527 17466 14777 6816 2798 1461 10396 15368 19450 27633 17005

    TX 7327 41278 24138 47434 42291 20283 17481 20672 40239 47953 79020 99282 64431

    UT 583 1620 2858 4578 2473 2068 1016 1316 3094 5167 8304 9892 7383

    VT 332 46 635 1804 842 325 386 523 890 1416 2607 3043 1762

    VA 1952 997 8635 11883 18103 5448 6818 4756 11068 16168 35268 39364 37351

    WA 4612 332 7683 13985 6949 5037 5187 2551 11802 15432 29205 33006 23823

    WV 240 2980 1720 2680 4036 1244 840 2789 1960 3248 4147 6147 5129

    WI 3016 365 5986 22942 15662 4450 2083 3283 8756 12030 22367 23105 15114

    WY 361 5323 622 235 731 1083 234 1082 543 1101 1744 1610 2177

    Cross-section dos 50 Estados dos EUA em 1996 (valores em milhes de dlares)

    diretorio

  • Matriz de correlaes

    No R usar o comando cor(dados)

    Considervel correlao positiva entre as variveis Maiores nveis de PIB setorial nos estados maiores e mais desemvolvidos Menores nveis de PIB setorial nos estados menores e menos desenvolvidos Uma boa quantidade de covariao pode ser explicada por um ou dois componentes principais

  • Resultados da Anlise de Componentes Principais

    No R usar os comandos acp

  • Como pegar os autovetores das componentes ?

    autovetor1

  • Screeplot

    No R usar o comando screeplot(acp)

    A primeira componente principal a mais importante As demais podem ser descartadas

  • Biplot

    No R usar o comando biplot(acp)

    Desenvolvimento econmico

    California

    New York

    Louisiana

    Texas

    Minerao

    A primeira componente principal est associada ao nvel de desenvolvimento econmico do estado

  • Cross-section dos 50 Estados dos EUA em 1996 (participao dos setores no PIB total)

    cada linha soma 100% (o tamanho do estado foi removido) Agricultura Minerao Const_ Civil Ind_bens_durveis Ind_bens_consumo Transporte Comunicaes Serv_Urbanos Com_Atacadista Com_Varejista Fiduciria Servios Governos

    AL 2.00 1.50 4.20 10.50 11.80 2.90 2.90 3.60 6.30 9.90 12.80 16.10 15.50

    AK 1.50 22.40 4.10 1.10 3.70 12.10 2.00 1.50 2.90 6.50 10.70 11.90 19.60

    AZ 1.70 1.30 5.80 11.50 3.00 2.80 2.20 2.70 6.30 10.50 18.90 20.20 13.00

    AR 5.10 1.00 4.00 12.80 11.80 4.40 2.40 4.20 6.10 10.20 11.40 14.80 11.80

    CA 2.10 0.60 3.30 9.00 5.00 2.60 2.50 1.80 6.80 8.90 22.70 23.10 11.50

    CO 1.80 1.70 5.40 7.70 4.50 3.30 5.70 2.20 6.30 9.70 17.00 21.60 13.10

    CT 0.70 0.00 3.30 11.00 5.70 1.80 2.30 2.20 6.60 7.40 28.20 21.80 9.00

    DE 1.00 0.00 3.40 4.50 16.60 1.60 1.30 2.40 4.00 6.00 35.40 14.30 9.40

    FL 1.80 0.20 4.70 4.60 3.50 3.10 3.00 2.80 7.30 11.20 21.80 23.40 12.40

    GA 1.80 0.40 3.90 7.40 10.70 4.00 4.50 2.70 8.80 8.90 16.40 18.00 12.50

    HI 1.20 0.10 4.80 0.80 2.30 4.50 3.10 2.70 4.00 11.50 21.40 22.20 21.30

    ID 6.30 0.60 5.90 15.00 5.60 3.50 1.60 3.70 6.10 9.90 12.30 16.30 13.20

    IL 1.40 0.30 4.20 11.30 7.90 3.80 2.30 3.10 7.70 8.10 19.20 20.70 10.00

    IN 1.80 0.50 4.60 21.40 10.30 3.50 1.40 3.10 6.00 9.10 13.10 15.30 9.80

    IA 7.60 0.20 4.10 13.20 10.80 3.30 2.00 2.80 6.80 8.30 14.30 15.30 11.40

    KS 4.40 1.40 4.20 10.40 7.90 3.90 3.60 3.40 7.80 9.60 12.70 16.70 14.10

    KY 2.60 2.60 3.90 14.90 13.20 3.90 1.50 2.90 5.80 8.90 11.20 15.00 13.60

    LA 1.20 14.80 4.20 3.70 15.30 3.30 1.90 3.60 5.30 7.80 12.10 15.70 10.90

    ME 1.80 0.10 4.50 7.90 10.60 2.30 2.00 3.10 6.00 11.10 18.50 18.70 13.50

    MD 0.90 0.10 5.00 4.10 4.50 2.10 2.90 2.90 6.30 8.70 21.40 23.20 17.80

    MA 0.60 0.10 3.20 10.50 4.90 2.00 1.90 2.50 7.10 7.80 24.40 25.80 9.20

    MI 1.00 0.40 3.80 20.00 7.20 2.40 1.60 2.70 7.20 8.90 15.80 18.50 10.50

    MN 2.90 0.60 4.40 11.00 8.20 3.70 1.90 2.10 8.30 8.70 17.90 19.50 10.90

    MS 3.20 0.90 3.90 13.00 10.50 3.20 2.40 5.10 5.60 10.00 11.50 16.00 14.90

    MO 1.80 0.40 4.60 11.30 10.10 4.00 3.50 2.80 7.30 9.10 14.70 19.10 11.20

    MT 5.10 4.90 4.80 4.40 3.30 5.40 2.10 5.00 6.40 9.90 13.40 19.20 15.90

    NE 9.20 0.20 4.40 7.00 7.10 6.80 2.10 1.40 7.40 8.30 14.80 17.10 14.10

    NV 0.80 3.70 8.40 3.10 1.70 2.90 1.80 3.00 4.60 9.40 18.40 32.30 9.90

    NH 0.70 0.10 3.50 16.40 5.70 1.50 1.70 4.40 6.20 9.10 22.20 19.40 9.10

    NJ 0.60 0.00 3.50 4.30 9.40 3.20 4.10 2.70 9.10 7.30 23.20 21.80 10.80

    NM 1.90 7.10 4.60 14.40 2.10 2.50 1.70 3.50 4.30 8.90 13.90 17.50 17.70

    NY 0.50 0.10 2.90 5.90 5.90 2.10 3.60 2.40 6.20 6.90 29.70 22.90 11.10

    NC 2.30 0.10 4.20 10.20 16.70 2.80 2.00 3.00 6.40 8.90 14.60 15.40 13.20

    ND 10.60 3.10 4.90 4.60 2.90 4.90 1.90 4.00 8.80 9.10 12.70 17.50 15.10

    OH 1.10 0.40 3.90 17.90 9.30 2.90 1.90 3.00 7.10 9.20 15.30 17.70 10.50

    OK 2.10 5.30 3.20 10.20 7.10 3.70 2.80 3.50 6.10 10.00 12.50 17.40 16.20

    OR 3.00 0.10 5.40 16.00 4.50 3.40 1.90 2.50 8.00 8.70 16.30 18.30 11.90

    PA 1.00 0.50 3.80 11.30 9.40 3.00 2.20 3.60 5.90 8.60 19.00 21.20 10.50

    RI 0.80 0.10 3.50 11.10 5.60 1.50 2.50 3.10 5.60 8.70 22.60 22.70 12.10

    SC 1.40 0.20 4.70 10.40 16.10 2.40 2.00 3.60 5.80 10.30 13.30 15.10 14.80

    SD 9.90 1.20 3.70 11.10 3.40 3.10 1.60 3.10 6.10 8.80 20.60 15.60 11.70

    TN 1.20 0.30 3.90 12.40 10.50 4.80 2.00 1.00 7.40 10.90 13.80 19.60 12.10

    TX 1.30 7.50 4.40 8.60 7.70 3.70 3.20 3.70 7.30 8.70 14.30 18.00 11.70

    UT 1.20 3.20 5.70 9.10 4.90 4.10 2.00 2.60 6.10 10.30 16.50 19.60 14.70

    VT 2.30 0.30 4.30 12.30 5.80 2.20 2.60 3.60 6.10 9.70 17.80 20.80 12.10

    VA 1.00 0.50 4.40 6.00 9.20 2.80 3.40 2.40 5.60 8.20 17.80 19.90 18.90

    WA 2.90 0.20 4.80 8.80 4.40 3.20 3.20 1.60 7.40 9.70 18.30 20.70 14.90

    WV 0.60 8.00 4.60 7.20 10.90 3.30 2.30 7.50 5.30 8.70 11.20 16.50 13.80

    WI 2.20 0.30 4.30 16.50 11.30 3.20 1.50 2.40 6.30 8.60 16.10 16.60 10.90

    WY 2.10 31.60 3.70 1.40 4.30 6.40 1.40 6.40 3.20 6.50 10.40 9.60 12.90

    diretorio

  • Matriz de correlaes

    No R usar o comando cor(dados)

    Poucas correlaes elevadas. A maioria varia ente 0 e 0,3 sendo algumas negativas. Um nico componente principal pode no ser suficiente para explicar as variaes subjacentes.

  • Resultados da Anlise de Componentes Principais

    No R usar os comandos acp

  • Como pegar os autovetores das componentes ?

    autovetor1

  • Screeplot

    No R usar o comando screeplot(acp)

    A maior parte da covariao no explicada por um reduzido nmero de componentes principais.

  • Biplot

    O biplot reflete as especializaes das economias estaduais

  • Obtendo as coordenadas (escores) dos estados no biplot

    score_cp1< acp$scores[,1]

    score_cp2< acp$scores[,2]

  • EXEMPLO 4

    Exemplo (Sousa & Oliveira, 2014):Ranking dos atacantes do

    Campeonato Brasileiro Srie A 2013

    Dados: Cartola FC http://globoesporte.globo.com/cartola-fc

    141 atacantes descritos por 8 variveis

    Nmero de gols (+) Passes errados (-) Assistncias (+) Finalizaes na trave (+) Finalizaes defendidas (+) Finalizaes para fora (+) Impedimentos (-) Penalties perdidos (-)

  • # diretrio de trabalho

    setwd("c:/curso_R_2014")

    dados=read.csv("jogadores.csv",sep=";",header=T)

    p=dim(dados)[2]

    # Matriz de dados X

    X=dados[,2:p]

    rownames(X)=dados[,1]

    # dimenses da matriz X

    dim(X)

    # variveis na matriz X

    names(X)

    Leitura da matriz de dados

    # primeiras seis linhas da matriz de dados

    head(X)

  • cor(X) Matriz de correlaes

    Execuo da ACP # faz a ACP

    resultado=princomp(X,cor=T,score=T)

    summary(resultado)

    # scree plot

    plot(resultado)

    As duas primeiras componentes

    principais concentram 75% da

    varincia total

  • names(resultado)

    # coeficientes das componentes principais (autovetores)

    resultado$loadings

    A primeira componente est associada ao desempenho de um atacante

    A segunda componente est associada com penalties perdidos

    Resultados

  • Resultados

    # grfico dos coeficientes das duas primeiras componentes

    plot(resultado$loadings)

    text(resultado$loadings,names(X))

    Mehor desempenho

    Mais

    penalties

    perdidos

  • Resultados

    # scores dos jogadores nas componentes principais

    resultado$scores

  • Resultados

    # jogadores nas duas primeiras componentes principais

    plot(resultado$scores)

    text(resultado$scores,rownames(X))

    -2 0 2 4 6 8

    02

    46

    Comp.1

    Co

    mp

    .2

    Rafael Sobis (Fluminense)

    Ederson (Atletico PR)

    Fred (Fluminense)

    Leandro Damiao (Internacional)

    Maxi Biancucchi (Vitoria)Lins (Criciuma)

    Rafael Marques (Botafogo)

    Barcos (Gremio)

    Dagoberto (Cruzeiro)

    Forlan (Internacional) Hernane (Flamengo)

    Borges (Cruzeiro)Luis Fabiano (Sao Paulo)

    Andr? (Vasco)

    William (Ponte Preta)

    Alexandre Pato (Corintihians)

    Deivid (Coritiba)

    Diego Tardelli (Atletico MG)

    Luan (Atletico MG)

    Fernandao (Bahia)Carlos Tenorio (Vasco)

    Rog?rio (Nautico)Emerson (Corintihians)

    Maikon Leite (Nautico)Scocco (Internacional)

    Thiago Ribeiro (Santos)

    Willian (Cruzeiro) Marquinhos (Vitoria)

    Kleber (Gremio)

    Vargas (Gremio)Jo (Atletico MG)

    Dinei (Vitoria)

    William Henrique (Vitoria)

    Fernandinho (Atletico MG)Marcelo (Atletico PR)

    Osvaldo (Sao Paulo)

    Marquinhos Gabriel (Bahia)

    Samuel (Fluminense)

    Chiquinho (Ponte Preta)

    Rafinha (Flamengo)

    Paolo Guerrero (Corintihians)

    Alosio (Sao Paulo)

    Wallyson (Bahia)

    Romarinho (Corintihians)

    Giva (Santos)

    Walter (Goias)

    Rildo (Ponte Preta)Jorge Henrique (Internacional)

    Rhayner (Fluminense)Wellington Paulista (Criciuma)

    Edmlson (Vasco)Gilberto (Portuguesa)

    Luan (Cruzeiro)Julio Cesar (Coritiba)

    Neilton (Santos)

    Hyuri (Botafogo)Roger (Atletico PR)

    Anselmo Ramon (Cruzeiro)

    Paulinho (Flamengo)

    Elias (Botafogo)

    Marcelo Moreno (Flamengo)

    Martinuccio (Cruzeiro)

    Rafael Moura (Internacional)

    Dellatorre (Atletico PR)Wiliam Barbio (Bahia)

    Bergson (Portuguesa)Leonardo (Ponte Preta)Bruno Moraes (Portuguesa)

    Guilherme (Atletico MG)

    Vincius Araujo (Cruzeiro)Alecsandro (Atletico MG)

    Jones Carioca (Nautico)Andr? Lima (Vitoria)Silvinho (Sao Paulo)

    Ademilson (Sao Paulo)

    Willian Jos? (Sao Paulo)

    Nixon (Flamengo)Lucca (Cruzeiro)Caio (Internacional)Reginaldo (Vasco)

    Welliton (Sao Paulo)Denilson (Fluminense)

    Marcel (Criciuma)

    Everton Costa (Santos)Neto Berola (Atletico MG)

    Diogo (Portuguesa)

    L?o Bonatini (Goias)Bruno Mendes (Botafogo)

    Alemao (Vitoria)Henrique (Botafogo)

    Junior Vicosa (Goias)Fabinho (Goias)Romulo (Vitoria)Victor Andrade (Santos) Obina (Bahia)Araujo (Goias)Hugo (Nautico)Bruninho (Flamengo)

    Souza (Bahia)

    Olivera (Nautico)Michel (Portuguesa)

    Biro (Fluminense)Sass (Botafogo)Thalles (Vasco) Willie (Vasco)Keirrison (Coritiba)Weldon (Criciuma)

    Marcos (Fluminense)Douglas (Atletico PR) Henrique (Portuguesa)Kenedy (Fluminense)

    Adailton (Ponte Preta)Marcelinho (Fluminense)Alex (Botafogo)Joao Paulo (Nautico)Douglas (Criciuma)Erik (Goias)Bill (Coritiba)Paulo (Goias)Romao (Portuguesa)Welinton Junior (Goias)Negueba (Flamengo)

    Maiquinho (Coritiba)

    Geraldo (Coritiba)Yuri Mamute (Gremio)Saullo (Nautico)Paulinho (Gremio)Pedro Oldoni (Vitoria)Rafael Ratao (Ponte Preta)Paulo Victor (Corintihians)Lucas Coelho (Gremio)Nelson (Portuguesa)Bruno Lopes (Criciuma)Zizao (Corintihians)Mike (Internacional)Robinho (Vasco)Carlos (Atletico MG)Cassiano (Criciuma)Elder Santana (Atletico MG)Ciro (Atletico PR)Flecha Arraya (Portuguesa)

  • Resultados

    # 10 melhores atacantes no ranking por ACP

    sort(resultado$scores[,1],decreasing=T)[1:10]

    # 10 piores atacantes no ranking por ACP

    sort(resultado$scores[,1],decreasing=F)[1:10]

  • Comparao com o Trofu Armando Nogueira

    Sousa & Oliveira (2014)

    Artilheiro do campeonato com 21 gols

    Vice artilheiro com 16 gols

  • Referncias bibliogrficas EVERITT, B. An R and S-Plus companion to multivariate analysis, Springer-Verlag, London, 2007.

    FVERO, L.P.; BELFIORE, P.; SILVA, F.L.; CHAN, B.L. Anlise de dados: modelagem multivariada para tomada de decises, Campus, Rio de Janeiro, 2009.

    JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 5th edition, Prentice Hall, New Jersey, 2002.

    LATTIN, J.; CARROLL, J.D.; GREEN, P.E. Anlise de dados multivariados,

    Cengage learning, So Paulo, 2011.

    LEBART, L.; MORINEAU, A.; PIRON, M. Statistique Exploratoire Multidimensionelle , 3e

    dition, Dunod, Paris, 2000.

    MINGOTI, S.A. Anlise de dados atravs de mtodos de estatstica multivariada: uma abordagem aplicada, Editora UFMG, Belo Horizonte, 2005.

    SOUSA, V.D.; OLIVEIRA, V.N. Anlise do desempenho dos atacantes do campeonato brasileiro 2013 por meio da anlise de componentes principais, Projeto Final, UERJ, 2014.