ACP_2014_15
-
Upload
joana-e-peixinho -
Category
Documents
-
view
215 -
download
1
description
Transcript of ACP_2014_15
-
M A D A L E N A R A M O S , H E L E N A C A R V A L H O , P A T R C I A V I L A I S C T E - I U L , 2 0 1 4 - 1 5
ANLISE EM COMPONENTES PRINCIPAIS(ACP)
Anlise de Dados em Cincias Sociais: Multivariada
-
A Anlise em Componentes Principais (ACP) um mtodomultivariado de anlise fatorial que permite identificarsubconjuntos de variveis que esto muito correlacionadasentre si e pouco associadas a variveis de outros subconjuntos.
Desta forma possibilita a partio das variveis de input emsubgrupos temticos distintos e permite:
A compreenso da estrutura das relaes entre as variveise a identificao das dimenses latentes;
A reduo da informao, atravs da constituio denovas variveis (desejavelmente em nmero bastanteinferior aos das variveis de input), correspondentes sdimenses temticas identificadas.
OBJETIVOS
2
-
REQUISITOS PARA A REALIZAO DA ACP
As variveis devem ser mtricas (ou admitir serem tratadascomo tal);
Dimenso da amostra adequada. Podemos encontrardiversas recomendaes na literatura que remetem para aexistncia de um nmero mnimo de observaes porreferncia ao nmero de variveis. Algumas referem quedevem existir pelo menos cinco vezes mais casos do que onmero de variveis;
Existncia de multicolinearidade (correlaes) entre asvariveis de input. A avaliao deste requisito pode ser feitaatravs da anlise da matriz de correlaes, da estatsticade Kaiser-Meyer-Olkin (KMO) e do teste de Bartlett.
33
-
ESTATSTICA KMO (KAISER-MEYER-OLKIN)
A estatstica de KMO uma estatstica que nos d aadequabilidade da matriz de input. Alguns autores propem aseguinte grelha para a leitura do seu resultado:
KMO ACP
0,9 1 Muito boa
0,8 0,9 Boa
0,7 0,8 Mdia
0,6 0,7 Razovel
0,5 0,6 M
< 0,5 Inaceitvel
Quanto mais elevado o KMO mais correlao existe entre as
variveis de input, pelo que as componentes so maisconsistentes. Logo, tanto mais adequada a realizao da ACP.
Elizabeth Reis, Estatstica Multivariada Aplicada
44
-
TESTE DE ESFERICIDADE DE BARTLETT
Permite testar a hiptese da matriz de correlaes entre asvariveis ser uma matriz identidade (matriz que tem adiagonal principal igual unidade e os restantes elementosnulos), ou seja, no existir correlao entre nenhum par devariveis. Interessa rejeitar a hiptese nula.
H0: A matriz de correlaes uma matriz identidade
Ha: a matriz de correlaes no uma matriz identidade
Regra de deciso: p < 0,05, rejeita-se H0 e aceita-se Ha.
55
-
UMA APLICAO
Num estudo sobre o turismo algarvio pediu-se a uma amostra de turistas,
provenientes de diversos pases, que avaliassem as suas expectativas
relativamente a um conjunto de aspetos, utilizando para o efeito uma escala
de 5 pontos em que 1= Mau e 5 = Excelente.
6
P1. O que que espera do Algarve em termos de: Mau
Exc
ele
nte
1. Condies para descanso e relaxe 1 2 3 4 5
2. Clima 1 2 3 4 5
3. Paisagem Natural 1 2 3 4 5
4. Actividades Culturais (museus, galerias) 1 2 3 4 5
5. Atraces histricas 1 2 3 4 5
6. Tipicidade (lugares e pessoas) 1 2 3 4 5
7. Festivais e eventos especiais 1 2 3 4 5
8. Aprender novas coisas/enriquecimento pessoal 1 2 3 4 5
9. Ar puro 1 2 3 4 5
10. Entretenimento e animao nocturna 1 2 3 4 5
11. Recreao 1 2 3 4 5
12. Golfe 1 2 3 4 5
13. Outros desportos 1 2 3 4 5
14. Praias 1 2 3 4 5
15. Gastronomia 1 2 3 4 5
6
-
Pretende-se analisar a interdependncia entre esteconjunto de indicadores, de forma a identificar asdimenses que estruturam as expectativas dos turistas
relativamente ao Algarve e, posteriormente, reduzir ainformao atravs da construo de novas variveis
compsitas (em menor nmero que as iniciais).
Anlise em Componente Principais
JUSTIFICAO PARA A REALIZAO DA ACP
7
-
Vejam-se alguns resultados descritivos prvios:
Expectativas face ao turismo algarvio
8
-
Expectativas face ao turismo algarvio
9
-
Expectativas face ao turismo algarvio
10
-
Expectativas face ao turismo algarvio
1111
-
Matriz de correlaes input para a ACP
RESULTADOS DA ACP- SPSS
12
-
13
Nota: este nico quadro onde possvel apurar qual o nmero de observaes em
anlise. O SPSS tem selecionada partida a opo listwise para tratar as categoriasidentificadas como no respostas. Ou seja, exclui da anlise os casos que no
tiverem resposta em todas as variveis envolvidas na anlise.
-
Vejamos a adequabilidade dos dados para a realizao da ACP:
KMO = 0,863 , ou seja, uma boa adequabilidade.
Teste de Bartlett:
Como p < 0,001, rejeita-se H0 e aceita-se que a matriz de correlaes
no uma matriz identidade.
0,000.3508,378,2(105) p
14 14
-
Cada componente uma composio (ou combinao)linear de todas as variveis iniciais.
So calculadas tantas componentes quantas as variveisiniciais.
As componentes principais so calculadas por ordemdecrescente de importncia relativamente suacontribuio para a explicao da varincia total dosdados. Isto , a primeira componente a combinao linearque mais explica da varincia total dos dados originais, asegunda componente a que explica mais do que ficou porexplicar com a primeira e assim sucessivamente. A ltimacomponente a que menos contribui para a explicao davarincia total.
15
O QUE SO AS COMPONENTES PRINCIPAIS?
15
-
Quando aplicamos a ACP matriz de correlaes, ascomponentes principais vo ser calculadas a partir devariveis estandardizadas com mdia zero e varinciaunitria.
Assim, a varincia total dos dados vai ser igual ao nmerode variveis envolvidas na anlise multiplicado por um.
Varincia unitria
N de variveis
No nosso exemplo: VT = 15 1 = 15
VT = 15 1
16
VARINCIA TOTAL
16
-
Quadro com os valores prprios (eigenvalues) de cada uma das
componentes, percentagem da varincia total explicada por cada uma
delas e percentagem de varincia acumulada
17
TABELA DA VARINCIA TOTAL EXPLICADA
= 15
17
-
No caso em anlise, temos 15 combinaes lineares dasvariveis originais que explicam na totalidade a varincia dosdados, por ordem decrescente de importncia quanto aoseu contributo.
Sendo um dos objetivos da anlise sumariar a informao,pretende-se trabalhar no com as 15 componentes, mascom um nmero relativamente reduzido.
Assim, na fase da extrao so retidas apenas algumascomponentes, de acordo com o(s) critrio(s) escolhido(s)pelo investigador e que se consideram em nmero suficientee adequado para representar os dados iniciais.
EXTRAO DAS COMPONENTES
18
Quantas componentes extrair?
18
-
CRITRIOS DE EXTRAO DAS COMPONENTES
1. Critrio de Kaiser: extrao (ou seleo) das componentescom valor prprio superior unidade;
Valor Prprio (Eigenvalue): cada valor prprio quantifica aparte da varincia total que explicada por cada uma
das componentes. uma medida da importncia de cadauma das componentes.
2. Critrio da percentagem de varincia explicada: algunsautores falam em reter (ou extrair) as componentesnecessrias para explicar mais de 70% da varincia total,no entanto vulgar considerar-se satisfatria uma soluoque explique 60% da varincia total;
3. Critrio a priori: o investigador sabe partida quantascomponentes extrair.
19 19
-
4. Critrio do Scree Test (sugerido por Cattel): decisotomada a partir da representao grfica dos valoresprprios (Scree plot). Dever-se-o considerar ascomponentes at ao ponto em que a linha (curva) dogrfico tende a ficar paralela ao eixo horizontal;
20 20
-
= 15
= 7,973 = 7,973
=
Qual ser a melhor soluo?
21
Nota: A percentagem da varincia total explicada por cada componente (% Variance) obtm-se
dividindo o valor prprio da componente pela varincia total e multiplicando por 100. Veja-se para a
componente 1:4,940
15 100 = 32,93
-
Comunalidade inicial varincia de cada varivel original explicadapor todas as componentes principais.
Comunalidade extrada - varincia de cada varivel original
explicada pelas componentes principais que integram a soluo em
anlise.
As comunalidades baixas
indicam que as variveis esto
mal representadas na soluo
em anlise, isto , so mal
explicadas pelas componentes
extradas.
Consideram-se comunalidades
baixas valores inferiores a 0,5.
Quando as comunalidades so
muito baixas (prximas de zero)
pode-se considerar retirar as
variveis nessa situao.
22
= 7,973
Para a tomada de deciso, dever-se- tambm considerar o valor
das comunalidades.
= 15
22
-
Matriz das componentes (ou matriz dos loadings)
Loadings: pesos das variveis iniciais (estandardizadas) em cada componente, ou peso de
cada componente para cada varivel, ou correlao entre a varivel e acomponente. Alguns autores admitem como valor mnimo I0,3I ou I0,4I (Maroco,
2010; Field, 2009), todavia, muito frequente considerarem-se como mais
representativas as variveis que em cada componente apresentarem valoresiguais ou superiores a I0,5I. comum serem essas variveis as que so escolhidas
para definir e interpretar cada componente.
Matriz utilizada
para interpretar
as componentes
extradas
23
INTERPRETAO DAS COMPONENTES
23
-
Rotao das componentes
A fase da rotao (opcional) tem como objectivo facilitar ainterpretao das componentes principais.
Tem por objectivo maximizar a contribuio de uma varivelnuma nica componente e, por consequncia, minimizar
essa contribuio nas restantes.
Pode ser de dois tipos:
Ortogonal garante que as componentes principaisrodadas permanecem independentes entre si,ou seja, no correlacionadas.
Oblqua as componentes passam a estar correlacionadasentre si.
24 24
-
Rotao das componentes
CP2 CP2 aps a rotao
CP1
CP1 aps a rotao
Rotao ortogonal
Rotao oblqua
25 25
-
EXTRAO E ROTAO DAS COMPONENTES
Trs fases
= 15
= 7,973 = 7,973 = 7,973
=
26 26
-
MATRIZ DAS COMPONENTES COM ROTAO ORTOGONAL
Com a rotao obtm-se
uma estrutura mais simplificada, uma vez
que cada varivel tende
a ter um loading elevado numa nica
componente.
Atendendo ao contedo
temtico das variveis mais representativas em
cada componente,
pode ensaiar-se uma designao para as
componentes.
Por vezes ocorrem
situaes em que no possvel interpretar uma
dada com- ponente,
podendo optar-se pela designao indefinida.
27
-
MATRIZ DAS COMPONENTES COM ROTAO OBLQUA
Quando se escolhe um mtodo de rotao oblquo, obtm-se
duas matrizes: a Pattern Matrix e a Structure Matrix.
28
28
-
Pattern Matrix Os loadings desta matriz representam a contribuionica de cada varivel para cada componente. a matriz que
interpretamos para definir as componentes.
Structure Matrix Os loadings representam a correlao simples entreas variveis e as componentes. Contm tambm as correlaes
entre as componentes. Por esse motivo a sua interpretao no
muito simples.
ainda apresentada
uma matriz com as
correlaes entre as
componentes aps
a rotao.
29 29
-
CLCULO DA COMUNALIDADE GASTRONOMIA
0,405(-0,095)(0,286)(0,561) 222
(antes da rotao)
30
-
CLCULO DA COMUNALIDADE GASTRONOMIA
0,405(0,230)(0,548)(0,228) 222
Nota: a rotao no altera as comunalidades.
(aps a rotao)
31 31
-
CLCULO DO VALOR PRPRIO COMPONENTE 1
4,940(0,548)(0,390)(0,473)(0,419)(0,470)(0,495)(0,498)
(0,536)(0,561)(0,626)(0,643)(0,671)(0,673)(0,717)(0,742)
2222222
22222222
(antes da rotao)
32
-
CLCULO DO VALOR PRPRIO COMPONENTE 1
Nota: a rotao altera os valores prprios.
33
(aps a rotao)
3,287(0,365)(0,378)(-0,001)(0,134)(0,228)(0,385)(0,079)
(0,171)(0,129)(0,008)(0,596)(0,625)(0,780)(0,819)(0,845)
2222222
22222222
33
(Nota: Nesta tabela omitiu-se a
informao relativa fase da extrao).
-
Matriz dos coeficientes para os scores fatoriais
CONSTITUIO DAS NOVAS VARIVEIS
A. Via clculo dos scores fatoriais
Aps a extrao das
componentes possvel calcular para cada
indivduo os seus scores
fatoriais, isto , os seus valores em cada
componente. Para isso
so necessrias as suas respostas s variveis
originais (estandardiza-
das) e os coeficientesque ponderam cada
uma dessas variveis.
34
-
-0,100*Z1+(,050)*Z2+0,079*Z3+0,302*Z4+0,312*Z5+0,201*Z6+0,292*Z7+
0,172*Z8+(-0,049)*Z9+ 0,078*Z10+0,044*Z11+(-0,128)*Z12+(-0,091)*Z13+
(-0,147)*Z14 +(-032)*Z15
CONSTITUIO DAS NOVAS VARIVEIS
A. Via clculo dos scores fatoriais
Para calcular o score fatorial
de um indivduo na
componente 1, por exemplo,
ter-se- de efetuar o seguinte
clculo:
35
-
Veja-se na base de dados o caso assinalado:
Substituindo na expresso anterior os valores de resposta aps estandardizao, o score fatorial
deste indivduo na componente 1 ser:
-0,100*0,860+(-0,050)*0,792+0,079*(-1,266)+0,302*(-2,256)+0,312*(-2,315)+0,201(-0,979)+0,292*(-2,000)+
+0,172*(-2,628)+(-0,049)*(-0,332)+0,078*0,311+0,044*(-0,747)+(-0,128)*0,099+(-0,091)*0,357+
+(-0,147)*(-0,644)+(-0,032)*(-0,237 = -2,79087
-
H analistas que optam por, em vez de guardar os scores factoriais,
criar novas variveis (summated scales) atravs do clculo da mdia
das variveis que mais pesam em cada uma das componentes
(aquelas que tm os loadings mais elevados). Ao fazer isto, para as
novas variveis contribuem apenas as variveis que mais se destacam
nas componentes, ao invs do que acontece quando se trabalha
com os scores fatoriais, onde as novas variveis tm o contributo de
todas as iniciais. conveniente calcular uma medida de consistncia
interna (alpha de Cronbach).
Tendencialmente, as concluses so iguais, dado que o clculo das
novas variveis atravs da mdia feito com as variveis mais
importantes em cada componente. Logo, as que ficam de fora so
aquelas que se correlacionam de forma menos importante com a
componente e que menos contribuem para a sua definio.
B. Via Summated Scales (ndices)
37 37
CONSTITUIO DAS NOVAS VARIVEIS
-
38
Para o exemplo em anlise, as componentes seriam, ento,
construdas atravs da mdia das respostas dadas s variveis
assinaladas:
38
-
ALPHAS DE CRONBACH
Componente 1:
Componente 2:
Componente 3:
39
Dados os valores dos alfas poder-se-
considerar a hiptese de construir asnovas variveis compsitas
(representativas das componentes)
atravs da mdia das respostas dadasnas variveis mais importantes em
cada componente.
39
-
Componente 1:
40
Comparao: scores fatoriais e ndices
40
-
Componente 2:
41
Comparao: scores fatoriais e ndices
41
-
Componente 3:
42
Comparao: scores fatoriais e ndices
42
-
43
Comparao: scores fatoriais e ndices
43
-
APRESENTAO DE RESULTADOS
A apresentao dos resultados da ACP deve incluir:
Apresentao e anlise descritiva das variveis originais (o que foimedido, como foi medido, como foram as respostas obtidas);
Referncia adequabilidade da ACP (KMO ou teste de Bartlett)(Pode ser feito em nota de rodap);
Quadro sntese onde constam as componentes retidas (com arespetiva designao), a percentagem de varincia explicadapor cada uma delas e as contribuies de cada varivel paracada componente (loadings) (ver slide seguinte);
A interpretao de cada componente retida;
Sugere-se ainda a comparao das componentes, tentandoperceber a sua importncia relativa para os indivduos (porexemplo atravs das mdias, quando tal for possvel) bem como
a realizao de cruzamentos com outras variveis que pareampertinentes (sexo, habilitaes, idade,), no sentido de apurar aexistncia de eventuais diferenas de posicionamento.
4444
-
Componentes das expectativas acerca do turismo algarvio
(Via Anlise de Componentes Principais, com rotao Varimax)
45
Aspectos
Componentes
Histrico-Cultural
Natureza Desporto e Entretenimento
Atraces histricas 0,845 0,182 0,083
Actividades Culturais (museus, galerias) 0,819 0,122 ,0143
Festivais e eventos especiais 0,780 0,063 ,0181
Tipicidade (lugares e pessoas) 0,625 0,290 ,0084
Aprender novas coisas/enriquecimento pessoal 0,596 0,252 ,0245
Praias 0,008 0,677 ,0231
Clima 0,129 0,646 -0,053
Ar puro 0,171 0,636 0,070
Condies para descanso e relaxe 0,079 0,603 0,199
Paisagem Natural 0,385 0,556 -0,093
Gastronomia 0,228 0,548 0,230
Outros desportos 0,134 0,185 0,802
Golfe -0,001 0,077 0,795
Recreao 0,378 0,155 0,616
Entretenimento e animao nocturna 0,365 0,049 0,469
Percentagem varincia explicada 21,9% 16,8% 14,4%
45
-
ANLISE DE RESULTADOS: ALGUNS EXEMPLOS
Expectativas acerca do turismo algarvio
Qual a componente relativamente qual as expectativas so mais
elevadas?
46 46
-
Tero os turistas masculinos e femininos diferentes expectativas
face ao turismo algarvio?
Para responder a esta questo podero ser feitos testes t para a
igualdade de mdias. Veja-se o output:
47 47
ANLISE DE RESULTADOS: ALGUNS EXEMPLOS
-
A anlise do resultado dos testes permite concluir que as turistas tm
expectativas significativamente mais elevadas do que os homens
relativamente componente Histrico-Cultural (t(1101)=-2,113, p=0,035) e da
Natureza (t(1408)=-1,254, p=0,000).
48 48
ANLISE DE RESULTADOS: ALGUNS EXEMPLOS
-
Expectativas acerca do turismo algarvio segundo o pas de residncia
49
Tero os turistas de diferentes pases expectativas distintas face ao
turismo algarvio?
49
ANLISE DE RESULTADOS: ALGUNS EXEMPLOS
-
Anlise de Varincia
50
ANLISE DE RESULTADOS: ALGUNS EXEMPLOS
-
51
Anlise de Varincia (post-hoc)
ANLISE DE RESULTADOS: ALGUNS EXEMPLOS
-
Veja-se o exemplo com a extrao de 4 componentes
52
-
53
-
54
-
55
Interpretao: