Análise Fatorial e Componentes Principais Aplicadas na ... · ApresentaçãoAnálise dos...

24
Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações Diogo de Carvalho Bezerra Universidade Federal de Pernambuco Núcleo de Gestão e-mail:[email protected] SOBREA – Sociedade Brasileira de Engenharia de Avaliações IV Simpósio, Recife, Novembro de 2014.

Transcript of Análise Fatorial e Componentes Principais Aplicadas na ... · ApresentaçãoAnálise dos...

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Análise Fatorial e Componentes PrincipaisAplicadas na Engenharia de Avaliações

Diogo de Carvalho BezerraUniversidade Federal de Pernambuco

Núcleo de Gestãoe-mail:[email protected]

SOBREA – Sociedade Brasileira de Engenharia deAvaliações

IV Simpósio, Recife, Novembro de 2014.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Outline

1 Apresentação

2 Análise dos Componentes Principais

3 Análise de Fatores

4 Aplicação dos Componentes Principais

5 Conclusão

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ConsideraçõesNa análise estatística, normalmente, se trabalha comvariáveis que não são independentes uma das outras.Análise de componentes principais é elaborada parareduzir o número de variáveis que necessitam serconsideradas a um número menor de índices (chamadoscomponentes principais) os quais são combinaçõeslineares das variáveis originais.Análise de Fatores também tem como objetivo estudar avariação em uma quantidade de variáveis originais usandoum número menor de variáveis índices ou fatores.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

RepresentaçãoUma representação de possíveis componentes é dadapor:

I1 = X1 + X2 + X3 + X4 + X5

Outro Índice:

I1 = X1 + X2 + X3 − X4 − X5

O segundo índice poderia ser responsável por representaroutra dimensão.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Aspectos Hitóricos e ObjetivoHistoricamente, a análise dos principais componentes foidescrita por Karl Pearson (1901).É um dos métodos de análise multivariada mais simples ?não estatístico.O objetivo é tonar p variáveis X1, . . .Xp e encontrarcombinações destas para produzir índices Z1, . . . ,Zp quesejam não correlacionados na ordem de importância, eque descrevam a variância da maioria dos índices. Aordem dos índices é tal queVAR(Z1) ≥ VAR(Z2) ≥ · · · ≥ VAR(Zp)

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Procedimento1 Codificando as variáveis para terem médias zero e

variâncias unitárias. Isto é usual, mas é omitido em algunscasos em que se assume que a importância das vaiáveis érefletida em suas variâncias;

2 Calcular a matriz de covariância, ou de correlação se opasso 1 for feito;

3 Encontrar os autovetores e autovalores.4 Descarte quaisquer componentes que explicam somente

uma pequena proporção da variação nos dados.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ProcedimentoInicialmente, tem-se dados de p variáveis para nindivíduos.O primeiro componente principal, pode ser representadocomo a combinação linear das p variáveis:

Z1 = a11X1 + a12X2 + a13X3 + . . . a1pXp

Que vai variar tanto quanto possível para os indivíduos,sujeitos à condição de que

a211 + a2

12 + a213 + . . . a2

1p = 1

A restrição é imposta para garantir que a variância de Z1não aumente indefinidamente.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ProcedimentoRepete o procedimento para o segundo componenteprincipal:

Z2 = a21X1 + a22X2 + a23X3 + . . . a2pXp

Que vai variar tanto quanto possível para os indivíduos,sujeitos à condição de que

a221 + a2

22 + a223 + . . . a2

2p = 1

Além de que Z1 e Z2 tenham correlação zero para osdados. Segue-se então a construção dos p componentesprincipais de forma a garantir uma maior representação davariância ordenadas dos indivíduos. Porém, a forma decálculo da determinação dos componentes principais éirrelevante. O que se precisa é o cálculo dos autovalores eautovetores da matriz de covariância (ou correlação).

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ProcedimentoRepete o procedimento para o segundo componenteprincipal:

Z2 = a21X1 + a22X2 + a23X3 + . . . a2pXp

Que vai variar tanto quanto possível para os indivíduos,sujeitos à condição de que

a221 + a2

22 + a223 + . . . a2

2p = 1

Além de que Z1 e Z2 tenham correlação zero para osdados. Segue-se então a construção dos p componentesprincipais de forma a garantir uma maior representação davariância ordenadas dos indivíduos. Porém, a forma decálculo da determinação dos componentes principais éirrelevante. O que se precisa é o cálculo dos autovalores eautovetores da matriz de covariância (ou correlação).

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ProcedimentoA matriz de covariância das p variáveis é representado por

C =

c11 c12 . . . c1pc21 c22 . . . c2p...

... . . ....

cp1 cp2 . . . cpp

onde cij é a covariância entre Xi e Xj . Codificando asvariáveis C representa a matriz de correlação. A variânciados componentes principais são os autovalores da matrizC. Os autovetores correspondentes ao autovalor λidefinem os valores de (ai1,ai2,ai3, . . . ,aip). Umapropriedade importante dos autovalores é

λ1 + λ2 + · · ·+ λp = c11 + c22 + · · ·+ cpp

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ObjetivoA análise de fatores tem o objetivo semelhante ao daanálise de componentes principais. A diferença principal éque o método de análise de fator é baseado em ummodelo estatístico.Desenvolvido inicialmente por Charles Spearman em1904.Spearman observou em uma matriz de correlação entreescores de testes para meninos de uma escolapreparatória a seguinte relação: que quaisquer duaslinhas eram quase proporcionais se as diagonais fossemignoradas.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

RepresentaçãoSpearman sugeriu que os escores fossem descritos pelaequação

Xi = aiFi + ei

onde Xi é o i−ésimo escore depois ter sido padronizado;ai é uma contante; F é um fator com média zero evariância 1; e e1 é a pare de Xi que é especifica para oi−ésimo teste somente.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Resultados

É fácil verificar que:

Var(Xi) = Var(aiF + ei)

= Var(aiF ) + Var(ei)

= a2i Vaf (F ) + Var(ei)

= a2i + Var(ei)

Tem-se, ainda, que

1 = a2i + Var(ei)

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ResultadosPode-se, concluir que ai , chamada de carga do fator, é talque seu quadrado é a proporção da variância de Xi queestá contida no fator.Spearman formulou sua teoria de dois fatores de testesmentais. De acordo com esta teoria, cada resultado doteste é composto de duas partes, uma que é comum atodos os testes (inteligência geral), e outras que éespecifica para o teste.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

GeneralizaçãoO modelo de análise de fatores geral estabelece

Xi = ai1F1 + ai2F2 + · · ·+ aimFm + ei

onde F1 a Fm são fatores comuns não correlacionados,cada um com média zero e variância unitária.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ProcedimentoO procedimento para uma análise de fatores é descrito emtermos de três estágios:Primeiro, cargas de fator provisórias são determinadas atravésdo método de componentes principais.Segundo, as cargas são modificadas através de um método derotação para facilitar a interpretação dos dados.Terceiro, escores de fator são calculados, os quais são fatorespara os indivíduos que possuem os valores de X conhecidos.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

ProcedimentoNa segunda etapa a rotação de fatores pode ser ortogonal(para dar fatores não correlacionados) ou oblíqua (para darfatores correlacionados)

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Avaliação da Venda de Terrenos - SergipeApesar da base de dados apresentar um n = 4401. Amaioria das vaiáveis não são pelo menos ordinal. Aaplicação a nível de ilustração será com cinco variáveis:

1 Renda média do chefe de família em salários mínimos;2 Coordenada UTM X;3 Coordenada UTM Y;4 Infraestrutura (Agregação de serviços como: guias e

sarjetas; iluminação; rede de energia; telefone; águapotável; esgotamento; galeria de águas pluviais; epavimentação.)

5 Frente.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Avaliação da Venda de Terrenos - SergipeApesar da base de dados apresentar um n = 4401. Amaioria das vaiáveis não são pelo menos ordinal. Aaplicação a nível de ilustração será com cinco variáveis:

1 Renda média do chefe de família em salários mínimos;2 Coordenada UTM X;3 Coordenada UTM Y;4 Infraestrutura (Agregação de serviços como: guias e

sarjetas; iluminação; rede de energia; telefone; águapotável; esgotamento; galeria de águas pluviais; epavimentação.)

5 Frente.

A análise foi realizada com base na correlação.

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Table: Autovalor

CP Autovalor % – Variância Autovalor % – AcumulativoTotal Acumulativo

Z1 2,0179 40,3584 2,0179 40,3584Z2 1,2159 24,3181 3,2338 64,6764Z3 0,9868 19,7365 4,2206 84,4129Z4 0,7792 15,5837 4,9998 99,9966Z5 0,0002 0,0034 5,0000 100,0000

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Table: Autovetores

Z1 Z2 Z3 Z4 Z5Renda (SM) - 0,0290 0,7094 - 0,0002 0,7042 - 0,0048

coordx - 0,7011 0,0317 0,0669 - 0,0559 0,7070coordy - 0,7013 0,0201 0,0697 - 0,0540 - 0,7071INFRA 0,0607 0,6905 - 0,1970 - 0,6933 - 0,0070Frente 0,1104 0,1359 0,9756 - 0,1321 0,0007

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

Table: Contribuição da Variável baseado na correlação.

Z1 Z2 Z3 Z4 Z5Renda (SM) 0,0008 0,5033 0,0000 0,4959 0,0000coordx 0,4915 0,0010 0,0045 0,0031 0,4999coordy 0,4918 0,0004 0,0049 0,0029 0,5000INFRA 0,0037 0,4768 0,0388 0,4806 0,0000Frente 0,0122 0,0185 0,9519 0,0175 0,0000

Apresentação Análise dos Componentes Principais Análise de Fatores Aplicação dos Componentes Principais Conclusão

O objetivo de redução do número de variáveis é possível. Aimportância dos métodos analisados se faz quando o númerode variáveis é ainda maior, próximo de vinte, porém o númerode fatores pode ser reduzido a três.