ACP_2014_15

55
MADALENA RAMOS, HELENA CARVALHO, PATRÍCIA ÁVILA ISCTE-IUL, 2014-15 ANÁLISE EM COMPONENTES PRINCIPAIS (ACP) Análise de Dados em Ciências Sociais: Multivariada

description

Analise

Transcript of ACP_2014_15

  • M A D A L E N A R A M O S , H E L E N A C A R V A L H O , P A T R C I A V I L A I S C T E - I U L , 2 0 1 4 - 1 5

    ANLISE EM COMPONENTES PRINCIPAIS(ACP)

    Anlise de Dados em Cincias Sociais: Multivariada

  • A Anlise em Componentes Principais (ACP) um mtodomultivariado de anlise fatorial que permite identificarsubconjuntos de variveis que esto muito correlacionadasentre si e pouco associadas a variveis de outros subconjuntos.

    Desta forma possibilita a partio das variveis de input emsubgrupos temticos distintos e permite:

    A compreenso da estrutura das relaes entre as variveise a identificao das dimenses latentes;

    A reduo da informao, atravs da constituio denovas variveis (desejavelmente em nmero bastanteinferior aos das variveis de input), correspondentes sdimenses temticas identificadas.

    OBJETIVOS

    2

  • REQUISITOS PARA A REALIZAO DA ACP

    As variveis devem ser mtricas (ou admitir serem tratadascomo tal);

    Dimenso da amostra adequada. Podemos encontrardiversas recomendaes na literatura que remetem para aexistncia de um nmero mnimo de observaes porreferncia ao nmero de variveis. Algumas referem quedevem existir pelo menos cinco vezes mais casos do que onmero de variveis;

    Existncia de multicolinearidade (correlaes) entre asvariveis de input. A avaliao deste requisito pode ser feitaatravs da anlise da matriz de correlaes, da estatsticade Kaiser-Meyer-Olkin (KMO) e do teste de Bartlett.

    33

  • ESTATSTICA KMO (KAISER-MEYER-OLKIN)

    A estatstica de KMO uma estatstica que nos d aadequabilidade da matriz de input. Alguns autores propem aseguinte grelha para a leitura do seu resultado:

    KMO ACP

    0,9 1 Muito boa

    0,8 0,9 Boa

    0,7 0,8 Mdia

    0,6 0,7 Razovel

    0,5 0,6 M

    < 0,5 Inaceitvel

    Quanto mais elevado o KMO mais correlao existe entre as

    variveis de input, pelo que as componentes so maisconsistentes. Logo, tanto mais adequada a realizao da ACP.

    Elizabeth Reis, Estatstica Multivariada Aplicada

    44

  • TESTE DE ESFERICIDADE DE BARTLETT

    Permite testar a hiptese da matriz de correlaes entre asvariveis ser uma matriz identidade (matriz que tem adiagonal principal igual unidade e os restantes elementosnulos), ou seja, no existir correlao entre nenhum par devariveis. Interessa rejeitar a hiptese nula.

    H0: A matriz de correlaes uma matriz identidade

    Ha: a matriz de correlaes no uma matriz identidade

    Regra de deciso: p < 0,05, rejeita-se H0 e aceita-se Ha.

    55

  • UMA APLICAO

    Num estudo sobre o turismo algarvio pediu-se a uma amostra de turistas,

    provenientes de diversos pases, que avaliassem as suas expectativas

    relativamente a um conjunto de aspetos, utilizando para o efeito uma escala

    de 5 pontos em que 1= Mau e 5 = Excelente.

    6

    P1. O que que espera do Algarve em termos de: Mau

    Exc

    ele

    nte

    1. Condies para descanso e relaxe 1 2 3 4 5

    2. Clima 1 2 3 4 5

    3. Paisagem Natural 1 2 3 4 5

    4. Actividades Culturais (museus, galerias) 1 2 3 4 5

    5. Atraces histricas 1 2 3 4 5

    6. Tipicidade (lugares e pessoas) 1 2 3 4 5

    7. Festivais e eventos especiais 1 2 3 4 5

    8. Aprender novas coisas/enriquecimento pessoal 1 2 3 4 5

    9. Ar puro 1 2 3 4 5

    10. Entretenimento e animao nocturna 1 2 3 4 5

    11. Recreao 1 2 3 4 5

    12. Golfe 1 2 3 4 5

    13. Outros desportos 1 2 3 4 5

    14. Praias 1 2 3 4 5

    15. Gastronomia 1 2 3 4 5

    6

  • Pretende-se analisar a interdependncia entre esteconjunto de indicadores, de forma a identificar asdimenses que estruturam as expectativas dos turistas

    relativamente ao Algarve e, posteriormente, reduzir ainformao atravs da construo de novas variveis

    compsitas (em menor nmero que as iniciais).

    Anlise em Componente Principais

    JUSTIFICAO PARA A REALIZAO DA ACP

    7

  • Vejam-se alguns resultados descritivos prvios:

    Expectativas face ao turismo algarvio

    8

  • Expectativas face ao turismo algarvio

    9

  • Expectativas face ao turismo algarvio

    10

  • Expectativas face ao turismo algarvio

    1111

  • Matriz de correlaes input para a ACP

    RESULTADOS DA ACP- SPSS

    12

  • 13

    Nota: este nico quadro onde possvel apurar qual o nmero de observaes em

    anlise. O SPSS tem selecionada partida a opo listwise para tratar as categoriasidentificadas como no respostas. Ou seja, exclui da anlise os casos que no

    tiverem resposta em todas as variveis envolvidas na anlise.

  • Vejamos a adequabilidade dos dados para a realizao da ACP:

    KMO = 0,863 , ou seja, uma boa adequabilidade.

    Teste de Bartlett:

    Como p < 0,001, rejeita-se H0 e aceita-se que a matriz de correlaes

    no uma matriz identidade.

    0,000.3508,378,2(105) p

    14 14

  • Cada componente uma composio (ou combinao)linear de todas as variveis iniciais.

    So calculadas tantas componentes quantas as variveisiniciais.

    As componentes principais so calculadas por ordemdecrescente de importncia relativamente suacontribuio para a explicao da varincia total dosdados. Isto , a primeira componente a combinao linearque mais explica da varincia total dos dados originais, asegunda componente a que explica mais do que ficou porexplicar com a primeira e assim sucessivamente. A ltimacomponente a que menos contribui para a explicao davarincia total.

    15

    O QUE SO AS COMPONENTES PRINCIPAIS?

    15

  • Quando aplicamos a ACP matriz de correlaes, ascomponentes principais vo ser calculadas a partir devariveis estandardizadas com mdia zero e varinciaunitria.

    Assim, a varincia total dos dados vai ser igual ao nmerode variveis envolvidas na anlise multiplicado por um.

    Varincia unitria

    N de variveis

    No nosso exemplo: VT = 15 1 = 15

    VT = 15 1

    16

    VARINCIA TOTAL

    16

  • Quadro com os valores prprios (eigenvalues) de cada uma das

    componentes, percentagem da varincia total explicada por cada uma

    delas e percentagem de varincia acumulada

    17

    TABELA DA VARINCIA TOTAL EXPLICADA

    = 15

    17

  • No caso em anlise, temos 15 combinaes lineares dasvariveis originais que explicam na totalidade a varincia dosdados, por ordem decrescente de importncia quanto aoseu contributo.

    Sendo um dos objetivos da anlise sumariar a informao,pretende-se trabalhar no com as 15 componentes, mascom um nmero relativamente reduzido.

    Assim, na fase da extrao so retidas apenas algumascomponentes, de acordo com o(s) critrio(s) escolhido(s)pelo investigador e que se consideram em nmero suficientee adequado para representar os dados iniciais.

    EXTRAO DAS COMPONENTES

    18

    Quantas componentes extrair?

    18

  • CRITRIOS DE EXTRAO DAS COMPONENTES

    1. Critrio de Kaiser: extrao (ou seleo) das componentescom valor prprio superior unidade;

    Valor Prprio (Eigenvalue): cada valor prprio quantifica aparte da varincia total que explicada por cada uma

    das componentes. uma medida da importncia de cadauma das componentes.

    2. Critrio da percentagem de varincia explicada: algunsautores falam em reter (ou extrair) as componentesnecessrias para explicar mais de 70% da varincia total,no entanto vulgar considerar-se satisfatria uma soluoque explique 60% da varincia total;

    3. Critrio a priori: o investigador sabe partida quantascomponentes extrair.

    19 19

  • 4. Critrio do Scree Test (sugerido por Cattel): decisotomada a partir da representao grfica dos valoresprprios (Scree plot). Dever-se-o considerar ascomponentes at ao ponto em que a linha (curva) dogrfico tende a ficar paralela ao eixo horizontal;

    20 20

  • = 15

    = 7,973 = 7,973

    =

    Qual ser a melhor soluo?

    21

    Nota: A percentagem da varincia total explicada por cada componente (% Variance) obtm-se

    dividindo o valor prprio da componente pela varincia total e multiplicando por 100. Veja-se para a

    componente 1:4,940

    15 100 = 32,93

  • Comunalidade inicial varincia de cada varivel original explicadapor todas as componentes principais.

    Comunalidade extrada - varincia de cada varivel original

    explicada pelas componentes principais que integram a soluo em

    anlise.

    As comunalidades baixas

    indicam que as variveis esto

    mal representadas na soluo

    em anlise, isto , so mal

    explicadas pelas componentes

    extradas.

    Consideram-se comunalidades

    baixas valores inferiores a 0,5.

    Quando as comunalidades so

    muito baixas (prximas de zero)

    pode-se considerar retirar as

    variveis nessa situao.

    22

    = 7,973

    Para a tomada de deciso, dever-se- tambm considerar o valor

    das comunalidades.

    = 15

    22

  • Matriz das componentes (ou matriz dos loadings)

    Loadings: pesos das variveis iniciais (estandardizadas) em cada componente, ou peso de

    cada componente para cada varivel, ou correlao entre a varivel e acomponente. Alguns autores admitem como valor mnimo I0,3I ou I0,4I (Maroco,

    2010; Field, 2009), todavia, muito frequente considerarem-se como mais

    representativas as variveis que em cada componente apresentarem valoresiguais ou superiores a I0,5I. comum serem essas variveis as que so escolhidas

    para definir e interpretar cada componente.

    Matriz utilizada

    para interpretar

    as componentes

    extradas

    23

    INTERPRETAO DAS COMPONENTES

    23

  • Rotao das componentes

    A fase da rotao (opcional) tem como objectivo facilitar ainterpretao das componentes principais.

    Tem por objectivo maximizar a contribuio de uma varivelnuma nica componente e, por consequncia, minimizar

    essa contribuio nas restantes.

    Pode ser de dois tipos:

    Ortogonal garante que as componentes principaisrodadas permanecem independentes entre si,ou seja, no correlacionadas.

    Oblqua as componentes passam a estar correlacionadasentre si.

    24 24

  • Rotao das componentes

    CP2 CP2 aps a rotao

    CP1

    CP1 aps a rotao

    Rotao ortogonal

    Rotao oblqua

    25 25

  • EXTRAO E ROTAO DAS COMPONENTES

    Trs fases

    = 15

    = 7,973 = 7,973 = 7,973

    =

    26 26

  • MATRIZ DAS COMPONENTES COM ROTAO ORTOGONAL

    Com a rotao obtm-se

    uma estrutura mais simplificada, uma vez

    que cada varivel tende

    a ter um loading elevado numa nica

    componente.

    Atendendo ao contedo

    temtico das variveis mais representativas em

    cada componente,

    pode ensaiar-se uma designao para as

    componentes.

    Por vezes ocorrem

    situaes em que no possvel interpretar uma

    dada com- ponente,

    podendo optar-se pela designao indefinida.

    27

  • MATRIZ DAS COMPONENTES COM ROTAO OBLQUA

    Quando se escolhe um mtodo de rotao oblquo, obtm-se

    duas matrizes: a Pattern Matrix e a Structure Matrix.

    28

    28

  • Pattern Matrix Os loadings desta matriz representam a contribuionica de cada varivel para cada componente. a matriz que

    interpretamos para definir as componentes.

    Structure Matrix Os loadings representam a correlao simples entreas variveis e as componentes. Contm tambm as correlaes

    entre as componentes. Por esse motivo a sua interpretao no

    muito simples.

    ainda apresentada

    uma matriz com as

    correlaes entre as

    componentes aps

    a rotao.

    29 29

  • CLCULO DA COMUNALIDADE GASTRONOMIA

    0,405(-0,095)(0,286)(0,561) 222

    (antes da rotao)

    30

  • CLCULO DA COMUNALIDADE GASTRONOMIA

    0,405(0,230)(0,548)(0,228) 222

    Nota: a rotao no altera as comunalidades.

    (aps a rotao)

    31 31

  • CLCULO DO VALOR PRPRIO COMPONENTE 1

    4,940(0,548)(0,390)(0,473)(0,419)(0,470)(0,495)(0,498)

    (0,536)(0,561)(0,626)(0,643)(0,671)(0,673)(0,717)(0,742)

    2222222

    22222222

    (antes da rotao)

    32

  • CLCULO DO VALOR PRPRIO COMPONENTE 1

    Nota: a rotao altera os valores prprios.

    33

    (aps a rotao)

    3,287(0,365)(0,378)(-0,001)(0,134)(0,228)(0,385)(0,079)

    (0,171)(0,129)(0,008)(0,596)(0,625)(0,780)(0,819)(0,845)

    2222222

    22222222

    33

    (Nota: Nesta tabela omitiu-se a

    informao relativa fase da extrao).

  • Matriz dos coeficientes para os scores fatoriais

    CONSTITUIO DAS NOVAS VARIVEIS

    A. Via clculo dos scores fatoriais

    Aps a extrao das

    componentes possvel calcular para cada

    indivduo os seus scores

    fatoriais, isto , os seus valores em cada

    componente. Para isso

    so necessrias as suas respostas s variveis

    originais (estandardiza-

    das) e os coeficientesque ponderam cada

    uma dessas variveis.

    34

  • -0,100*Z1+(,050)*Z2+0,079*Z3+0,302*Z4+0,312*Z5+0,201*Z6+0,292*Z7+

    0,172*Z8+(-0,049)*Z9+ 0,078*Z10+0,044*Z11+(-0,128)*Z12+(-0,091)*Z13+

    (-0,147)*Z14 +(-032)*Z15

    CONSTITUIO DAS NOVAS VARIVEIS

    A. Via clculo dos scores fatoriais

    Para calcular o score fatorial

    de um indivduo na

    componente 1, por exemplo,

    ter-se- de efetuar o seguinte

    clculo:

    35

  • Veja-se na base de dados o caso assinalado:

    Substituindo na expresso anterior os valores de resposta aps estandardizao, o score fatorial

    deste indivduo na componente 1 ser:

    -0,100*0,860+(-0,050)*0,792+0,079*(-1,266)+0,302*(-2,256)+0,312*(-2,315)+0,201(-0,979)+0,292*(-2,000)+

    +0,172*(-2,628)+(-0,049)*(-0,332)+0,078*0,311+0,044*(-0,747)+(-0,128)*0,099+(-0,091)*0,357+

    +(-0,147)*(-0,644)+(-0,032)*(-0,237 = -2,79087

  • H analistas que optam por, em vez de guardar os scores factoriais,

    criar novas variveis (summated scales) atravs do clculo da mdia

    das variveis que mais pesam em cada uma das componentes

    (aquelas que tm os loadings mais elevados). Ao fazer isto, para as

    novas variveis contribuem apenas as variveis que mais se destacam

    nas componentes, ao invs do que acontece quando se trabalha

    com os scores fatoriais, onde as novas variveis tm o contributo de

    todas as iniciais. conveniente calcular uma medida de consistncia

    interna (alpha de Cronbach).

    Tendencialmente, as concluses so iguais, dado que o clculo das

    novas variveis atravs da mdia feito com as variveis mais

    importantes em cada componente. Logo, as que ficam de fora so

    aquelas que se correlacionam de forma menos importante com a

    componente e que menos contribuem para a sua definio.

    B. Via Summated Scales (ndices)

    37 37

    CONSTITUIO DAS NOVAS VARIVEIS

  • 38

    Para o exemplo em anlise, as componentes seriam, ento,

    construdas atravs da mdia das respostas dadas s variveis

    assinaladas:

    38

  • ALPHAS DE CRONBACH

    Componente 1:

    Componente 2:

    Componente 3:

    39

    Dados os valores dos alfas poder-se-

    considerar a hiptese de construir asnovas variveis compsitas

    (representativas das componentes)

    atravs da mdia das respostas dadasnas variveis mais importantes em

    cada componente.

    39

  • Componente 1:

    40

    Comparao: scores fatoriais e ndices

    40

  • Componente 2:

    41

    Comparao: scores fatoriais e ndices

    41

  • Componente 3:

    42

    Comparao: scores fatoriais e ndices

    42

  • 43

    Comparao: scores fatoriais e ndices

    43

  • APRESENTAO DE RESULTADOS

    A apresentao dos resultados da ACP deve incluir:

    Apresentao e anlise descritiva das variveis originais (o que foimedido, como foi medido, como foram as respostas obtidas);

    Referncia adequabilidade da ACP (KMO ou teste de Bartlett)(Pode ser feito em nota de rodap);

    Quadro sntese onde constam as componentes retidas (com arespetiva designao), a percentagem de varincia explicadapor cada uma delas e as contribuies de cada varivel paracada componente (loadings) (ver slide seguinte);

    A interpretao de cada componente retida;

    Sugere-se ainda a comparao das componentes, tentandoperceber a sua importncia relativa para os indivduos (porexemplo atravs das mdias, quando tal for possvel) bem como

    a realizao de cruzamentos com outras variveis que pareampertinentes (sexo, habilitaes, idade,), no sentido de apurar aexistncia de eventuais diferenas de posicionamento.

    4444

  • Componentes das expectativas acerca do turismo algarvio

    (Via Anlise de Componentes Principais, com rotao Varimax)

    45

    Aspectos

    Componentes

    Histrico-Cultural

    Natureza Desporto e Entretenimento

    Atraces histricas 0,845 0,182 0,083

    Actividades Culturais (museus, galerias) 0,819 0,122 ,0143

    Festivais e eventos especiais 0,780 0,063 ,0181

    Tipicidade (lugares e pessoas) 0,625 0,290 ,0084

    Aprender novas coisas/enriquecimento pessoal 0,596 0,252 ,0245

    Praias 0,008 0,677 ,0231

    Clima 0,129 0,646 -0,053

    Ar puro 0,171 0,636 0,070

    Condies para descanso e relaxe 0,079 0,603 0,199

    Paisagem Natural 0,385 0,556 -0,093

    Gastronomia 0,228 0,548 0,230

    Outros desportos 0,134 0,185 0,802

    Golfe -0,001 0,077 0,795

    Recreao 0,378 0,155 0,616

    Entretenimento e animao nocturna 0,365 0,049 0,469

    Percentagem varincia explicada 21,9% 16,8% 14,4%

    45

  • ANLISE DE RESULTADOS: ALGUNS EXEMPLOS

    Expectativas acerca do turismo algarvio

    Qual a componente relativamente qual as expectativas so mais

    elevadas?

    46 46

  • Tero os turistas masculinos e femininos diferentes expectativas

    face ao turismo algarvio?

    Para responder a esta questo podero ser feitos testes t para a

    igualdade de mdias. Veja-se o output:

    47 47

    ANLISE DE RESULTADOS: ALGUNS EXEMPLOS

  • A anlise do resultado dos testes permite concluir que as turistas tm

    expectativas significativamente mais elevadas do que os homens

    relativamente componente Histrico-Cultural (t(1101)=-2,113, p=0,035) e da

    Natureza (t(1408)=-1,254, p=0,000).

    48 48

    ANLISE DE RESULTADOS: ALGUNS EXEMPLOS

  • Expectativas acerca do turismo algarvio segundo o pas de residncia

    49

    Tero os turistas de diferentes pases expectativas distintas face ao

    turismo algarvio?

    49

    ANLISE DE RESULTADOS: ALGUNS EXEMPLOS

  • Anlise de Varincia

    50

    ANLISE DE RESULTADOS: ALGUNS EXEMPLOS

  • 51

    Anlise de Varincia (post-hoc)

    ANLISE DE RESULTADOS: ALGUNS EXEMPLOS

  • Veja-se o exemplo com a extrao de 4 componentes

    52

  • 53

  • 54

  • 55

    Interpretao: