Na análise fatorial as variáveis y1, y2,. . . , Yp, são...

7
1 Análise Fatorial 1 Na análise fatorial as variáveis y1, y2,. . . , Yp, são combinações lineares de umas poucas variáveis F1, F2,. . . , Fm (m<p) denominadas fatores. Os fatores são constituintes subjacentes ou variáveis latentes que originam as y’i. Assim como as variáveis originais, os fatores variam de indivíduo para indivíduo, mas ao contrário das variáveis, os fatores não podem ser medidos ou observados. A existência destas variáveis hipotéticas é, portanto, uma questão em aberto. 2 3 00 . 1 90 . 90 . 05 . 05 . 90 . 00 . 1 90 . 05 . 05 . 90 . 90 . 00 . 1 05 . 5 . 0 05 . 05 . 05 . 00 . 1 90 . 05 . 05 . 05 . 90 . 00 . 1 Matriz R de coeficientes de correlação: Variáveis 1 e 2 correspondem a um fator. Variáveis 3, 4 e 5 correspondem a outro fator. Não confundir análise de componentes principais com análise fatorial! As componentes principais são definidas como combinações lineares das variáveis originais. Na análise fatorial, as variáveis originais são expressas como combinações lineares dos fatores. A análise de componentes principais, procura explicar a maior parte da variância total existente nas das variáveis. Na análise fatorial, procura-se explicar as covariâncias e/ou ou correlações entre as variáveis 4 5 Outras diferenças: Análise de componentes principais não requer essencialmente nenhuma suposição, enquanto que a análise fatorial faz várias suposições-chave As componentes principais são únicas, assumindo distintos autovalores, enquanto a análise fatorial esta sujeita a uma rotação arbitrária Se for alterado o número de fatores, os fatores estimados podem mudar. A capacidade de rotação melhorar a facilidade de interpretação é uma das vantagens da análise fatorial sobre a análise a análise de componentes principais. Diferentemente da análise de componentes principais, que é uma manipulação matemática, a análise fatorial pode ser considerada como uma técnica estatística. Quando o método foi estabelecido por psicólogos, interessados em testes de inteligência, a condição fundamental era que o número de fatores "p" a se determinar, deveria ser conhecido "a priori" antes de se efetuar a análise. Dificilmente essa condição é preenchida, pois geralmente os "fatores " são estabelecidos em função dos resultados obtidos, o que torna os resultados questionáveis. 6

Transcript of Na análise fatorial as variáveis y1, y2,. . . , Yp, são...

Page 1: Na análise fatorial as variáveis y1, y2,. . . , Yp, são ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/6.fatorial.pdf · A análise de componentes principais, procura

1

Análise Fatorial

1

•Na análise fatorial as variáveis y1, y2,. . . , Yp, são combinações lineares de umas poucas variáveis F1, F2,. . . , Fm (m<p) denominadas fatores. •Os fatores são constituintes subjacentes ou variáveis latentes que originam as y’i. •Assim como as variáveis originais, os fatores variam de indivíduo para indivíduo, mas ao contrário das variáveis, os fatores não podem ser medidos ou observados. •A existência destas variáveis hipotéticas é, portanto, uma questão em aberto. 2

3

00.190.90.05.05.

90.00.190.05.05.

90.90.00.105.5.0

05.05.05.00.190.

05.05.05.90.00.1

Matriz R de coeficientes de correlação: Variáveis 1 e 2 correspondem a um fator. Variáveis 3, 4 e 5 correspondem a outro fator.

Não confundir análise de componentes principais com análise fatorial!

As componentes principais são definidas como combinações lineares das variáveis originais. Na análise fatorial, as variáveis originais são expressas como combinações lineares dos fatores.

A análise de componentes principais, procura explicar a maior parte da variância total existente nas das variáveis. Na análise fatorial, procura-se explicar as covariâncias e/ou ou correlações entre as variáveis

4

5

Outras diferenças: •Análise de componentes principais não requer essencialmente nenhuma suposição, enquanto que a análise fatorial faz várias suposições-chave •As componentes principais são únicas, assumindo distintos autovalores, enquanto a análise fatorial esta sujeita a uma rotação arbitrária •Se for alterado o número de fatores, os fatores estimados podem mudar. •A capacidade de rotação melhorar a facilidade de interpretação é uma das vantagens da análise fatorial sobre a análise a análise de componentes principais.

Diferentemente da análise de componentes principais, que é uma manipulação matemática, a análise fatorial pode ser considerada como uma técnica estatística.

Quando o método foi estabelecido por psicólogos, interessados em testes de inteligência, a condição fundamental era que o número de fatores "p" a se determinar, deveria ser conhecido "a priori" antes de se efetuar a análise.

Dificilmente essa condição é preenchida, pois geralmente os "fatores " são estabelecidos em função dos resultados obtidos, o que torna os resultados questionáveis.

6

Page 2: Na análise fatorial as variáveis y1, y2,. . . , Yp, são ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/6.fatorial.pdf · A análise de componentes principais, procura

2

As variáveis, expressas em termos de vetores num sistema de coordenadas ortogonais, em que o comprimento representa a magnitude, agrupar-se-ão conforme o relacionamento entre si.

Por esses agrupamentos de vetores poderão passar eixos, denominados fatores, que acusarão, pelo valor da projeção dos vetores sobre os eixos, a carga fatorial (factor loading) das variáveis sobre si. Esses fatores representam o número mínimo de causas que condicionam um máximo de variabilidade existente.

A comunalidade (communallity), h², isto é, a soma dos quadrados das cargas fatoriais das variáveis sobre cada fator indica a eficiência dos mesmos na explicação da variabilidade total.

7

Os fatores são encontrados fazendo com que o primeiro eixo esteja em tal posição que a soma dos quadrados dos pesos fatoriais em relação a ele seja maximizada, o que equivale a colocá-lo paralelamente ao principal agrupamento de vetores.

O segundo eixo é colocado ortogonalmente, de modo que também seja maximizada a soma de quadrados dos pesos fatoriais para este segundo eixo, e assim por diante quanto aos demais fatores.

8

9

Três métodos de extração de fatores latentes são os mais comuns: Componentes principais: É a mesmo método usado na análise de componentes principais. Fatores principais: É provavelmente o mais usado. É um método iterativo que permite que as comunalidades sejam gradualmente convergentse. Os cálculos são interrompidos quando a variação máxima nas comunalidades está abaixo de um determinado limiar ou quando o número máximo de iterações é alcançado. Probabilidade máxima: Este método assume que as variáveis de entrada obedecem a uma distribuição normal. Como parte deste método, um teste de ajuste é calculado. A estatística utilizada para o teste segue uma distribuição de Chi2 com (p-k)2/2 - (p + k) /2 graus de liberdade, onde p é o número de variáveis e k o número de fatores.

Seqüência de cálculos (modo R)

• O cálculo dos autovalores e autovetores é feito a partir de uma matriz padronizada de variâncias-covariância (matriz de coeficientes de correlação) entre variáveis padronizadas.

• Os autovetores são calculados de tal modo a definirem vetores com tamanho unitário. Isso é conseguido multiplicando cada elemento do autovetor normalizado pela raiz quadrada do correspondente autovalor. O resultado é um fator, vetor constituído por cargas fatoriais.

• A matriz de variâncias e covariâncias observadas, [S2], é igual ao produto da matriz de carregamentos fatoriais (factor loading) [AR], de dimensões m x p, multiplicada pelo seu transposto, mais uma matriz diagonal de variâncias únicas, [var Ejj]

• [S2]=[AR][AR]´+[varEjj]

10

Na análise fatorial, p < m. A variância nas m variáveis é derivada dos p fatores, porém a contribuição é feita por fontes únicas que afetam independentemente as m variáveis originais. Esses p fatores subjacentes são conhecidos como fatores comuns e resumem a contribuição independente como um único fator.

Os autovalores e, consequentemente, os fatores, representam a proporção da variância total explicada pelo respectivo autovetor e cada carga fatorial é proporcional à raiz quadrada da quantia de variância atribuída pela respectiva variável ao fator.

11

As comunalidades (h2j) indicam quanto da

variabilidade total está sendo explicada pelo conjunto de fatores.

Para que os "p" fatores ortogonais situados no espaço "m" dimensional sejam mais facilmente entendidos é necessário que estejam em posição tal que as projeções de cada variável sobre o eixo fatorial, situem-se o melhor possível, seja junto à extremidade, seja junto à origem.

12

Page 3: Na análise fatorial as variáveis y1, y2,. . . , Yp, são ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/6.fatorial.pdf · A análise de componentes principais, procura

3

Haverá necessidade de um critério de maximização da variância dos carregamentos sobre os fatores, o que é conseguido pela rotação dos eixos fatoriais.

s2j= variância das cargas fatoriais

p= número de fatores

m= número de variáveis originais

ajp= carregamento da variável j no fator p

h2j= comunidade da j’ésima variável

A quantidade que se deseja maximizar é:

s

p a h a h

pk

jp j j jj

m

j

m

2

2 2 2 2 2 2

11

2

( / ) ( / )

V skk

p

2

113 14

• Após encontrada a matriz fatorial rotada se a mesma for multiplicada pela matriz inicial de dados obtem-se uma matriz dos "factor score".

• Esses “factor score” representam estimações das contribuições dos vários fatores à cada observação original e podem ser utilizados na classificação de amostras.

15

matriz fatorial inicial

A orientação dos autovetores no espaço multivariado é determinada pela direção da máxima variância.

A contribuição da variância para cada autovetor deve ser maximizada. Necessidade de rotação da matriz fatorial inicial

F1 F2

X1 0.966 -0,259

X2 0,940 0,340

X3 -0,997 0,070

16

rotação dos fatores (pelo critério varimax)

rotação ortogonal de uma matriz de carregamentos [X], em um novo conjunto de coordenadas [X’], requer uma matriz operacional [T]

[X’] = [T] [X]

X

X

x

x1

2

1

2

'

'

cos sen

sen cos

ângulo de rotação = ?, para variavel “j” e fatores “p” e “q”

17

j j j j

2xqxp

22jq

2jp

2jqjp

22jq

2jp

j j jjqjp

2jq

2jp

2jq

2jpjqjp

n/)xx2()xx()xx2()xx(

n/xx)xx(4)xx(xx24

Θ4tan

Uj=x2jp-x2

jq

Vj=2xjpxjq

A =ΣUj= 2,6222; A2 = 6,8789

B =ΣVj= -0,0001; B2 = 0,0000

C =Σ(U2j-V

2j) = 1,6365

D =2Σ(UjVj) = -0,0797

tan4θ = (D-2AB/n)/(C-(A2-B2)/n)

= - 0,1592/- 0,6555 = 0,2429

arctan 0,2429 = -166 21’ = 4; = 41 17’

sen = - 0,6598

cos = 0,7515 18

Page 4: Na análise fatorial as variáveis y1, y2,. . . , Yp, são ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/6.fatorial.pdf · A análise de componentes principais, procura

4

7515,06598,0

6598,07515,0T

2590,0

9656,0

7515,06598,0

065987515,0

x

x'2j

'1j

X’11=T11X11+T12X12 = (0,715*0,9656)+ (- 0,6598*- 0,2590) = 0,894

19

matriz fatorial rotacionada

F’1 F’2

X1 0,894 0,447

X2 0,477 0,879

X3 - 0,792 0,609

20

= 41 17’

21 22

23 24

Análise fatorial exploratória: busca encontrar os fatores subjacentes às variáveis originais amostradas. Análise fatorial confirmatória: já se tem noção de quantos fatores estão presentes ; modelo fatorial pre-estabelecido e se deseja verificar se o mesmo é aplicável ou consistente com os dados amostrais.

Page 5: Na análise fatorial as variáveis y1, y2,. . . , Yp, são ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/6.fatorial.pdf · A análise de componentes principais, procura

5

AFatorial com enfoque espacial

(Bernardi, Fowler & Landim, 1997)

Amostras coletadas no rio Paraíba do Sul, Pindamonhangaba/SP.

Área amostrada: 2900 m de comprimento por 100 m de largura; 90 pontos numa malha regular

Variáveis: riqueza de gêneros do plâncton, pH, temperatura, oxigênio dissolvido, transparência da água, cor e turbidez da água.

25

“Fator” I: abiótico (variáveis físico-químicas) “Fator” II: biológico (riqueza de gêneros do plâncton

Componentes I II III

N0 Gêneros 0.531 0.845 -0.020

pH 0.951 0.083 -0.073

Temperatura -0.833 -0.077 0.546

OD 0.970 0.085 0.090

Profundidade da luz 0.987 -0.033 0.021

DBO5 -0.987 -0.051 -0.046

Cor -0.997 0.021 0.018

Turbidez -0.981 0.014 -0.124

% de variação 83.589 9.240 4.122

26

27

Scores da primeira componente não variam na margem esquerda, direita e meio do rio antes da entrada do efluente; após a entrada começam a variar decaindo a partir da coordenada NS 1100m, assumindo valores negativos e voltando a crescer a partir da coordenada NS 2000 m; comportamento pode ser explicado pelo aumento de DBO5, cor e turbidez com a entrada do efluente e a diminuição do OD e da transparência.

Scores da segunda componente variam pouco na margem esquerda decaindo na região do meio do rio; a margem direita começa com cargas positivas, decaindo a partir dos ponto de coordenada 1100m, voltando a crescer depois do ponto de coordenada 2000m.

28

Dados

estratigráficos

29

total arenito folhelho nclástico carbonato evaporito

845 266 350 229 24 205

906 337 432 137 60 77

844 451 311 82 42 40

447 293 116 38 12 26

1001 348 450 203 17 186

933 275 435 223 41 182

374 240 110 24 24 0,0001

608 365 148 95 20 75

640 224 304 112 14 98

614 255 272 87 28 59

915 265 355 265 43 222

1139 179 643 317 20 297

702 237 341 124 39 85

464 104 242 118 18 100

1118 180 568 370 0,0001 370

1224 207 758 259 11 248

1204 277 610 317 10 307

1144 310 520 314 12 302

1048 362 510 176 12 164

1162 130 659 373 13 360

1003 224 542 237 21 216

721 229 400 92 12 80

775 223 477 75 28 47

1023 295 501 227 18 209

1114 246 528 340 32 308

955 267 502 186 24 162

532 157 238 137 0,0001 137

562 120 316 126 0,0001 126

1005 271 637 97 8 89

530 30 461 39 0,0001 39

1126 270 558 298 68 230

F1 F2 F3 F4

Autovalores 3,462 1,527 0,573 0,426

variância % 57,703 25,452 9,554 7,103

v. acumulada % 57,703 83,155 92,709 99,812

30

Page 6: Na análise fatorial as variáveis y1, y2,. . . , Yp, são ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/6.fatorial.pdf · A análise de componentes principais, procura

6

Matriz fatorial

Matriz fatorial rotacionada

F1 F2 F3 F4

total 0,953 0,226 -0,131 0,155

arenito -0,006 0,866 -0,491 -0,093

folhelho 0,872 -0,097 -0,029 0,467

nclástico 0,950 -0,010 0,115 -0,290

carbonato 0,021 0,834 0,548 0,055

evaporito 0,943 -0,142 0,028 -0,297

F1 F2 F3 F4

total 0,640 0,247 0,088 0,722

arenito -0,032 0,972 0,233 0,000

folhelho 0,412 -0,100 -0,035 0,899

nclástico 0,939 -0,030 0,066 0,337

carbonato 0,000 0,228 0,973 0,004

evaporito 0,935 -0,066 -0,089 0,336

31

Fator 1: Circulação restrita; alta taxa de evaporação; rápida subsidência

Fator 2: Rápida introdução de clásticos grosseiros

Fator 3: Níveis normais de circulação e evaporação; taxas lentas de deposição; falta de aporte de clásticos

Fator 4: Rápida subsidência; valores intermediários de circulação e evaporação; aporte de detritos de granulação fina.

F1 F2 F3 F4

total 0,640 0,247 0,088 0,722

arenito -0,032 0,972 0,233 0,000

folhelho 0,412 -0,100 -0,035 0,899

nclástico 0,939 -0,030 0,066 0,337

carbonato 0,000 0,228 0,973 0,004

evaporito 0,935 -0,066 -0,089 0,336

32

Distribuição espacial dos pontos

33 34

35

Exercício 03: Análise de componentes principais

Usando a matriz de dados do exercício 02, para este exercício é solicitado: Aplicar a análise de componentes principais para verificar se ocorrem relações entre a classificação de solos e presença de metais pesados e também entre o uso da terra e presença de metais pesados. Comparar, também, com os resultados do exercício 02.

36

Page 7: Na análise fatorial as variáveis y1, y2,. . . , Yp, são ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/6.fatorial.pdf · A análise de componentes principais, procura

7

37 38

39