TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os...

35
TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores da matriz de variância não são todos distintos entre si. Vamos apresentar aqui um teste das hipóteses 0 1 0 0 : versus 1 ... 1 1 : H H este pode ser baseado na estatística da razão de ssimilhança, sob a suposição de normalidade.

Transcript of TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os...

Page 1: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO

A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores da matriz de variância não são todos distintos entre si.

Vamos apresentar aqui um teste das hipóteses

0100 :versus

1

...1

1

:

HH

Um teste pode ser baseado na estatística da razão de verossimilhança, sob a suposição de normalidade.

Page 2: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO

Lawley (1963) demonstrou que um procedimento de teste equivalente ao teste da R.V. pode ser cosntruído a partir dos elementos fora da diagonal da matriz R de correlações amostrais.

O procedimento de Lawley requer o uso das seguintes quantidades:

2

22

1

1 1

1

)1)(2(

)1(1)1(ˆ

e)1(

2

,...,1,1

1

rpp

rp

rpp

r

pkrp

r

p

j

p

jkjk

p

kjj

jkk

Page 3: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO

O teste de nível de significância para grandes amostras é da forma: rejeite a hipótese nula se

)1(ˆ)r-(1

)1( 22/)2)(1(

1

1 1

2

1

2

2

pp

p

j

p

kk

p

jkjk rrrr

nT

Exercício: realize o teste de correlações iguais para a base de dados dos caranguejos.

Page 4: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

ANÁLISE FATORIAL - INTRODUÇÃO É usada para descrever, se possível, as relações de

covariância entre muitas variáveis em função de poucas quantidades aleatórias subjacentes, não-observáveis, chamadas FATORES.

Suponha que as variáveis possam ser agrupadas pelas suas correlações. Isto é, todas as variáveis dentro de um particular grupo são altamente correlacionadas entre si, mas têm correlações relativamente pequenas com variáveis de outros grupos.

Nesse caso é razoável pensar em constructos ou fatores subjacentes que são responsáveis pelas correlações observadas.

Page 5: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

ANÁLISE FATORIAL - INTRODUÇÃO

A análise fatorial pode ser pensada como uma extensão da Análise em Componentes Principais.

Ambas podem ser olhadas como tentativas de aproximar a matriz de covariâncias .

Porém a aproximação baseada na Análise Fatorial é mais elaborada.

Page 6: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

MODELO FATORIAL ORTOGONAL

.)(,][ que tal Seja px1 XVarXEX

O modelo fatorial postula que o vetor aleatório X é linearmentedependente de poucas variáveis não-observáveis F1 , F2 , ..., Fm , chamadas FATORES COMUNS e p fontes adicionais de variação1 , 2 , ..., p , chamadas erros ou FATORES ESPECÍFICOS.

FLX

FlFlFlX

FlFlFlX

FlFlFlX

pmpmpppp

mm

mm

matricial, notação em ou,

2211

2222212122

1121211111

Page 7: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

MODELO FATORIAL ORTOGONAL

Os coeficientes ljk são chamados CARGAS dos fatores (loadings) da j-ésima variável sobre o k-ésimo fator tal que a matriz é a matriz de cargas dos fatores.

Observe que o j-ésimo fator específico, j , é associado somente com a j-ésima variável Xj .

Os p desvios Xj -μj , j=1,2,...,p são expressos em função de p+m quantidades aleatórias F1 , F2 , ..., Fm , 1 , 2 , ..., p , que são não-observáveis.

Page 8: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

MODELO FATORIAL ORTOGONAL

Isso diferencia o modelo fatorial do modelo de regressão multivariada para o qual as variáveis explicativas podem ser observadas.

Com tantas quantidades não-observáveis, uma verificação direta do modelo fatorial a partir de observações é impraticável.

Porém, algumas suposições adicionais sobre os vetores F e implicam em certas relações de covariância que podem ser verificadas.

Page 9: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

MODELO FATORIAL ORTOGONAL: suposições adicionais

Assumimos que:

mp

pT

T

FCOV

ECOVE

IFFEFCOVFE

0),(

,,,diag][)(,0

,][)(,0

21

Essas suposições constituem o modelo de análise fatorial ortogonal (ANFAT).

Page 10: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

MODELO FATORIAL ORTOGONAL: suposições adicionais

As suposições apresentadas implicam numa estrutura especial da matriz de covariância , do vetor aleatório X.

T

TTTT

TT

LLXCOV

FLFLFLFL

FLFLXX

)(

)()(

))((

Também, com essas suposições, tem-se:

LFXCOV

FFFLFFLX TTTT

),(

que tal)(

Page 11: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

ESTRUTURA DE COVARIÂNCIA NO MODELO FATORIAL ORTOGONAL

jkkj

rmjmrjrjsj

jjmjjj

T

l),FCOV(XLFXCOV

llllllXXCOV

lllXVar

LLXCOV

ou ),()2(

),(

e)(

ou )()1(

2211

222

21

O modelo X-μ=LF+ é linear nos fatores comuns. Se as pvariáveis originais são de fato relacionadas aos fatoressubjacentes, mas a relação não é linear, então a estrutura de covariância obtida para pode não ser mais adequada.

Page 12: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

MODELO FATORIAL ORTOGONAL

A porção da variância da j-ésima variável contribuída pelos m fatores comuns é chamada de COMUNALIDADE.

A porção de Var(Xj)=σjj devida ao fator específico é chamada variância específica, outro termo também usado é uniqueness.

pjhlllXVar jjjjmjjjjj ,...,2,1,)( 2222

21

Page 13: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

ANÁLISE FATORIAL

O modelo fatorial assume que as p+p(p-1)/2=p(p+1)/2 variâncias e covariâncias de X podem ser reproduzidas pelas pm cargas e p variâncias específicas (uniqueness).

Quando m=p, qualquer pode ser reproduzida exatamente por LLT tal que =0.

Porém, quando m<<p, a análise fatorial é mais útil. Nesse caso o modelo fatorial fornece uma explicação simples da estrutura de covariância de X com poucos parâmetros em relação aos p(p+1)/2 parâmetros originais em .

Por exemplo, se p=12 e m=2, p(p+1)/2=78 e pm+p=36. Observação: a maioria das matrizes de covariância não pode ser

escrita na forma: =LLT+ com m<<p.

Page 14: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Análise Fatorial

Quando m>1, existe uma ambigüidade associada com o modelo fatorial. Para verificar essa característica faça Q uma matriz ortogonal de ordem pxp, tal que QQT=I.

,)( e 0][

Como

.e

com,)(

**

**

**

IFCOVFE

FQFLQL

FLFQLQFLX

T

T

é impossível, com base nas observações em X, distinguir as cargas em L das cargas em L*.

Page 15: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Análise Fatorial

Conclusão: os fatores F e F*=QTF possuem as mesmas propriedades estatísticas e, apesar das cargas em L* serem diferentes das cargas em L, ambas gerarão a mesma matriz de covariância , isto é:

LLT+LQQTLT+L*(L*)T+. Essa ambigüidade fornece fundamentos para os

“fatores de rotação”, pois matrizes ortogonais correspondem à matrizes de rotação (e reflexões) do sistema de coordenadas de X.

Page 16: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Análise Fatorial As cargas dos fatores L são determinadas somente através da matriz

ortogonal Q tal que L*=LQ e L ambas fornecem a mesma representação.

As comunalidades dadas pelos elementos da diagonal de (LLT=L*(L*)T) também não são afetadas pela escolha de Q.

A análise do modelo fatorial prossegue com a imposição de condições que permitam a estimação de L e de forma única.

Obtidas as estimativas, a matriz L é então rotacionada de modo que a matriz de rotação Q é escolhida por algum critério de “facilidade de interpretação”.

Uma vez que cargas e variâncias específicas são obtidas, fatores são identificados e valores dos fatores são estimados para cada observação. Esses valores são chamados escores dos fatores.

Page 17: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Análise Fatorial: Métodos de Estimação

Sejam x1, x2, ..., xn n observações sobre p variáveis correlacionadas.

“O modelo de análise fatorial (ANFAT) com um pequeno número de fatores representa os dados de forma adequada?”

Em essência: lidamos com esse problema de modelagem verificando a relação LLT+.

Page 18: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Análise Fatorial: Métodos de Estimação

A matriz de covariância amostral S é um estimador não tendencioso de .

Se os elementos fora da diagonal de S são pequenos ou as correlações amostrais em R são desprezíveis, as variáveis não são correlacionadas e o modelo ANFAT não será útil.

Nessas circunstâncias, os fatores específicos tomam o papel dominante, enquanto que o foco principal da ANFAT é determinar poucos, porém, importantes, fatores comuns às p variáveis originais.

Page 19: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Análise Fatorial: Métodos de Estimação

Se parece desviar-se significativamente de uma matriz diagonal, então ANFAT pode ser considerada e o problema inicial será de estimar as cargas dos fatores, ljk , e as variâncias específicas (uniqueness), j.

Os métodos mais populares de estimação em ANFAT são o método das componentes principais e o método da máxima-verossimilhança.

A solução obtida qualquer que seja o método empregado pode ser rotacionada de modo a facilitar a interpretação dos fatores.

É sempre prudente tentar mais de um método. Se, de fato, o modelo ANFAT for adequado aos dados, as soluções obtidas por métodos distintos serão consistentes umas com as outras.

Page 20: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Método das componentes principais

Tpp

T

T

pp

Tppp

TT

p

jj

e

e

e

eee

eeeeeeΣ

eX

22

11

2211

222111

21

...

Então .0...

com de vetores-auto valores,-auto de pares os

),( e )(Var Sejam

Page 21: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Método das componentes principais

A última equação ajusta por =LLT+0=LLT. (*) Exceto pelo fator de escala , as cargas do j-ésimo fator

serão os coeficientes da j-ésima CP. Apesar da representação ANFAT de em (*) ser exata, ela não

é particularmente útil. Ela emprega tantos fatores comuns quantas são as variáveis

originais do problema, não permitindo variações nos fatores específicos j, j=1,2,...,p.

É preferível um modelo que explique a estrutura de covariância em função de poucos fatores comuns.

j

Page 22: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Método das componentes principais

Uma abordagem aqui, quando os últimos (p-m) auto-valores são bem pequenos, é desprezar a contribuição de

para .

Desprezando essa contribuição, obtemos:

Tppp

Tmmm

Tmmm eeeeee ...222111

T

Tmm

T

T

mm LL

e

e

e

eee

22

11

2211

com L de dimensão pxm.

Page 23: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Método das componentes principais

A representação de obtida assume que os fatores específicos são de menor importância e podem ser ignorados na decomposição da matriz.

Se fatores específicos são incluídos no modelo, suas variâncias podem ser tomadas como os elementos da diagonal de -LLT.

Permitindo fatores específicos a aproximação torna-se

Page 24: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

m

kjkjjj

pTmm

T

T

mmT

pjl

e

e

e

eeeLL

1

2

2

1

22

11

2211

.,...,2,1 para com

00

00

00

Para aplicar essa abordagem a um conjunto de n observaçõesx1, x2, ..., xn sobre p variáveis correlacionadas é costume primeirosubtrair das observações o vetor de média amostral .

x

Lembre que as observações centradas têm a mesma matriz covariância amostral S.

Page 25: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Método das componentes principais

Nos casos em que as variáveis apresentam ordens de magnitude muito diferentes, geralmente é preferível trabalhar com a matriz de correlação amostral R.

A padronização evita problemas de se ter uma variável com variância grande comparada à magnitude das demais variâncias, influenciando fortemente a determinação das cargas dos fatores.

A decomposição obtida, quando aplicada à matriz de covariância amostral S ou à matriz de correlação amostral R é conhecida como solução de componentes principais.

O nome é devido ao fato de que as cargas dos fatores são os coeficientes, amenos de uma constante de proporcionalidade, das primeiras CP’s.

Page 26: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Solução do método das CP’s

A ANFAT via método das CP’s da matriz S é especificada em função de seus pares de auto-valores, auto-vetores 0.ˆ...ˆˆ com ,...,2,1),ˆ,ˆ( p21 pje jj

Seja m<p o número de fatores comuns. A matriz estimada das cargas dos fatores é dada por:

.ˆˆˆˆˆˆ~2211

mm eeeL

Page 27: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Solução do método das CP’s

As variâncias específicas estimadas são fornecidas pelos elementos da diagonal de

.~

ˆ

com

}ˆ,...,ˆ,ˆ{ˆ que tal~~

1

2j

21

m

kjkjj

pT

ls

diagΨLLS

As comunalidades são estimadas por .~~

1

22

m

kjkj lh

Page 28: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Solução do método das CP’s

A ANFAT via CP’s da matriz de correlação amostral R é obtida usando-se R no lugar de S.

Na solução via CP’s, as cargas estimadas dos fatores não se alteram se aumentarmos o número de fatores a serem considerados.

Pela definição de , os elementos da diagonal de S serão iguais aos elementos da diagonal de

j

.ˆ~~ TLL

Page 29: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Quantos fatores reter?

Se o número de fatores não é determinado por considerações a priori, tais como pela teoria subjacente aos dados ou o trabalho de outros pesquisadores, a escolha de m pode ser baseada nos auto-valores estimados da mesma forma que em ACP.

Considere a matriz residual Os elementos da diagonal dessa matriz são nulos e se os outros

elementos dessa matriz forem pequenos, podemos subjetivamente considerar como apropriado o modelo ANFAT a m fatores.

(I) ~~~ TLLS

Page 30: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Quantos fatores reter?

Analiticamente, tem-se:

Soma de quadrados dasentradas da matriz residual (II) ˆˆˆ~~~ 22

22

1 λλLLS pmmT

Conseqüentemente, um valor pequeno da soma de quadradosdos auto-valores desprezados, implica num valor pequeno da

soma de quadrados dos erros de aproximação.

De modo ideal, as contribuições dos primeiros poucos fatores àsvariâncias amostrais das variáveis deve ser grande. A contribuiçãopara a variância amostral sjj do primeiro fator comum é 2

1jl

Page 31: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Quantos fatores reter?

A contribuição total para a variância amostral tr(S)= s11+ s22+...+ spp devido ao primeiro fator é:

,ˆˆˆˆˆˆ...ˆˆ11111

21

221

211

eelll

T

p

A proporção da variação total devida ao j-ésimo fator é:

R viaANFAT para ,ˆ

S viaANFAT para ,)(

ˆ

p

Str

j

j

Page 32: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Quantos fatores reter?

O número de fatores retidos no modelo vai aumentando até que uma “proporção adequada” da variação total amostral seja explicada.

Outra regra também usada, quando a ANFAT é via R, é fazer m igual ao número de auto-valores maiores que 1.

Page 33: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Método da máxima-verossimilhança

Se os fatores comuns F e os fatores específicos podem ser supostos como normalmente distribuídos, então as estimativas de máxima-verossimilhança das cargas dos fatores e das variâncias específicas podem ser obtidas.

Quando Fj e j são conjuntamente normais as observações

iii FLX

Page 34: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Função de verossimilhança sob normalidade

Tp

Ti

n

ii

npn

TTi

n

ii

nnp

xxn

xxxx

xxnxxxxL

)()(2

exp||)2(

))((tr2

1exp||)2(

))(())((tr2

1exp||)2(),(

12

1

2

1

12

)1(

2

)1(

1

122

A f.v. depende de L e através de LLT+.

Page 35: TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO A estrutura de correlações iguais para todos os pares de variáveis é uma estrutura importante na qual os autovalores.

Método da máxima-verossimilhança

O modelo ainda não está bem definido devido à multiplicidade de escolhas para L.

É desejável impor condição de unicidade:

LLT 1 deve ser uma matriz diagonal.

Observação: No pacote R, a função factanal (factor analysis)Sempre ajusta o modelo ANFAT usando o método da máxima-verossimilhança.