Análise Multivariada

G. Amaral

Getúlio Amaral

Universidade Federal de Pernambuco

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.

Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatisticalMardia, Kent and Bibby (1979) Multivariate AnalysisJohnson and Wichern (1982) Applied Multivariate StatisticalAnalysisAvaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatistical

Mardia, Kent and Bibby (1979) Multivariate AnalysisJohnson and Wichern (1982) Applied Multivariate StatisticalAnalysisAvaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatisticalMardia, Kent and Bibby (1979) Multivariate Analysis

Johnson and Wichern (1982) Applied Multivariate StatisticalAnalysisAvaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatisticalMardia, Kent and Bibby (1979) Multivariate AnalysisJohnson and Wichern (1982) Applied Multivariate StatisticalAnalysis

Avaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatisticalMardia, Kent and Bibby (1979) Multivariate AnalysisJohnson and Wichern (1982) Applied Multivariate StatisticalAnalysisAvaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

G. Amaral

Pesquisas HistóricasNormal Bivariada: Adrian (1808) Laplace (1811) Gauss (1823)Galton Geneticista - Correlação, Regressão eHomocedasticidadeKarl Pearson - Coeficiente de correlação para estudar problemasem genética, biologia e outras áreas.Fisher - Métodos para agricultura, botanica e outras áreas.

G. Amaral

Normal MultivariadaTem sido adequada para problemas de várias áreas doconhecimento como psicologia, engenharia, economia e outros.Métodos não Paramétricos (serão abordados em seminários)Modernos, boas possibilidades de pulicações, melhores resultadosem muitos casos.Bootstrap Distribuição Empírica c/reamostragemKernel Distribuição estimada dos dados

G. Amaral

Matrix de dados

x11 . . . x1p...

...xn1 . . . xnp

Seja xi a i-ésima linha escrita como coluna, que é dada por

x ′i = (xi1, . . . , xip)

Seja x(j) a j-ésima coluna de X

x ′(j) = (x1j , . . . , xnj)

G. Amaral

Vetor de Médias

x ′ = (x1, . . . , xp)

onde xi = 1n

∑nr=1 xri .

Matriz de covariância

S = (sij),

onde sij = 1n

∑nr=1(xri − xi )(xrj − xj).

Notação Matricial

x =1nX ′1,

onde 1′ = (1, . . . , 1) é um vetor de dimensão n.Para a matriz de covarianância

S =1n(X ′X − 1

nX ′11′X ),

ou ainda, se H = I − 1n11′,

S =1nX ′HX

G. Amaral

Matriz de Correlação

R = (rij),

onde rij =sijsi sj

Exercício 1 (Mardia et al, 1979, p. 11) Exemplo 1.4.1 (dados de28 árvores).Calcular, usando o R ou outro programa, o vetor de médias, amatriz de covariância e a matriz de correlação.Exercício 2Fazer o download do "Atlas do desenvolvimento Humano doRecife."Escolher uma variável quantitativa e calcular as mesmasquantidades do exercício 1.

G. Amaral

Combinações lineares

yr = a1xr1+, . . . , apxrp

Transformação de Escala

yr = D−1(xr − x),

onde r = 1, . . . , n, D = diag(si ) e diag(.) denota uma matrizdiagonal.Esta mudança torna unitária a variância das variáveis.Transformação de Mahalanobiszr = S−1/2(xr − x),onde S−1/2S−1/2 = S é inversa da matriz raiz quadrada de S .S−1/2 é definida a partir dos autovalores e autovetores de S .Se Γ é matriz de autovetores de S e λ1, . . . , λp os autovalores deS ,a matriz raiz quadrada é dada por

S1/2 = ΓΛ1/2Γ′,

onde Λ1/2 = diag(λ1/2i ).

A inversa de S1/2 é por

S−1/2 = ΓΛ−1/2Γ′,

onde Λ−1/2 = diag(λ−1/2i ).

G. Amaral

NotaçãoX :Matriz de Dados;xi : uma observação;x(j) uma variável;Xi um vetor aletório cujo o valor observado é xi .

G. Amaral

Distribuições MultivariadasConsidere p variáveis aleatórias X1, . . . ,Xp, a função dedistribuição de probabilidade (fdp) é dada por

F (x1, . . . , xp) = P(X1 ≤ x1), . . . ,Xp ≤ xp).

A função de densidade (fd) é definida por

∂F (x1, . . . , xn)

∂x1 . . . ∂xp= f (x1, . . . , xp).

F (x1, . . . , xp) =

∫ xp

−∞. . .

∫ x1

−∞f (u1, . . . , up)du1 . . . dup.

G. Amaral

IndependênciaSeja F (x1, . . . , xp) a fdp de X1, . . . ,Xp, o conjunto de variáveisaleatórias X1, . . . ,Xp, é mutuamente independente seF (x1, . . . , xp) = F1(x1) . . .Fp(xp),onde

Fi (xi ) =

∫ ∞

−∞. . .

∫ ∞

−∞f (u1, . . . , up)du1 . . . dup,

onde uj 6= xi

G. Amaral

Transformação de VariáveisSe a densidade de X1, . . . ,Xp é f (x1, . . . , xp), considere asseguintes p funções

yi = yi (x1, . . . , xp)

A transformaç ao inversa é

xi = xi (y1, . . . , yp).

Considere as p variáveis aleatórias

Yi = yi (x1, . . . , xp)

A densidade de Y1, . . . ,Yp é

g(y1, . . . , yp) = f (x1(y1, . . . , yp), . . . , xp(y1, . . . , yp))

|J(y1, . . . , yp)|,onde

J(y1, . . . , yp) =

∂x1∂y1

. . . ∂x1∂yp

......

∂xp∂y1

. . .∂xp∂yp

G. Amaral

Amostra AleatóriaSeja X1, ...,Xn uma amostra aleatória de uma distribuição F (x)com vetor de médias µ e matriz de covariância Σ.O estimador

∑ni=1 Xi

é centrado, isto é, E (X ) = µ.Além disto, cov(X ) = 1

G. Amaral

É possível mostrar também que

E (Sn) =n − 1

onde Sn =∑n

j=1(Xj − X )(Xj − X )′.Exercício 3Se um vetor aleatório V tem E (V ) = µv e Cov(V ) = Σv , proveque E (VV ′) = Σv + µvµ′v .

G. AmaralNormal MultivaridaNormal univariada

f (x ;µ, σ) = k exp−12(x − µ)σ−1(x − µ)

As quantidades univariadas podem ser redefinidas para o casomultivariado

x1...xn

µ1...

G. Amaral

σ1,1 . . . σ1,m...

. . ....

σk,1 . . . σk,m

Substituindo-se x , µ e σ por suas versões multivariadas, temos

f (x ;µ, σ) = k exp−12 (x−µ)′Σ−1(x−µ) .

A única incógnita para determinar a distribuição de x é k.

G. Amaral

Cálculo da Constante k

∫ ∞

−∞. . .

∫ ∞

−∞exp−

12 (x−µ)′Σ−1(x−µ) dxp . . . dx1.

Usando-se o corolário A.1.6 (Vide Anderson, 1984, p. 586), se Σé positiva definida, então existe uma matriz não singular C talque

C ′Σ−1C = I ,I é a matriz identidade e C ′ é a tranposta de C .Considere

x − µ = Cy ,

onde y ′ = (y1, . . . , yp).Temos que

(x − µ)′Σ−1(x − µ) = y ′C ′Σ−1Cy = y ′y .

J = |C |,a constante de interesse é dada por

k∗ = Mod |C |∫ ∞

−∞. . .

∫ ∞

−∞exp−

12 y ′y dyp . . . dy1.

G. Amaral

Simplificando-se o integrando, temos

exp−12 y ′y =

p∏i=1

exp−12 y2

O valor da constante de interesse é dado por

k = Mod |C |∫ ∞

−∞. . .

∫ ∞

−∞exp−

1 . . .

exp−12 y2

p dyp . . . dy1

= Mod |C |∫ ∞

−∞exp−

p dyp . . .∫ ∞

−∞exp−

= Mod |C |(√

2π)p.

Calculando-se o determinante de C, tem-se

|C ′||Σ−1||C | = I ,o que resulta em

Mod |C | = 1√|Σ−1|

Assim, a constante de interesse é

Σ−1(2π)−12 p.

Portanto, a função de densidade da normal multivariada é dadapor

√|A|(2π)

− 12 (x−µ)′Σ−1(x−µ)

G. Amaral

Exercício 4Considere uma distribuição multivariada do vetor (x , y). Paraobter este vetor, seja u and v N(0, 1) independentes e definax = u se uv ≤ 0 enquanto x = −u se uv < 0. Defina y = v .Mostre que x e y são N(0, 1), porém (x , y) não tem distribuiçãonormal bivariada.

G. Amaral

Esperança e CovariânciaEsperança de Um VetorSe X ′ = (X1, . . . ,Xp), o valor esperado de X é dado por

E (X ) =

E (X1)...

E (Xp)

G. Amaral

Se Y = DX + b, onde X é um vetor aleatório, podemos afirmarque

E (Y ) = DE (X ) + b

V (Y ) = DV (X )D ′.

Prova: Anderson (1984, p. 19).

G. Amaral

Se a função de densidade de X é definida como

√|A|(2π)

− 12 (x−µ)′Σ−1(x−µ)

Temos que

E (X ) = µ

V (X ) = Σ.

Prova: Anderson (1984, pp. 19-20).Notação: N(µ,Σ) denota uma normal multivariada com média µe matriz de covariância Σ.

G. Amaral

Teorema. Se X ∼ N(µ,Σ), a transformação

Y = CX

tem distribuição N(Cµ,CΣC ′), onde C é não singular.Prova: Vide Anderson (1984, pp. 25-26).

G. Amaral

Teorema. A função característica de X ∼ N(µ,Σ) é igual a

φ(t) = E (expit′X ) = expit′µ− 12 t′Σt ,

onde t é um vetor real.Prova: Anderson (1984, p. 46).

G. Amaral

Exercício 5Encontre µ e Σ nas densidades:a) 1

2π exp−12 [(x−1)2+(y−2)2]

b) 12π exp−

12 [x2+y2+4x−6y+13]

Exercício 6Prove que se Σ é positiva definida, tem-se

|Σ| = |Σ11 − Σ12Σ−122 Σ21||Σ22|.

(Vide Anderson, 1984, p. 35).

G. Amaral

Exercício 7Se X ∼ N(µ, Σ), onde

Σ−1 =

7 3 23 4 12 1 2

qual é a distribuição de X1 + 2X2 − 3X3.Exercício 8 Quais são as densidades marginais de X e Y em (a)e (b) do exercício 5.

G. Amaral

Distribuição de (X − µ)′Σ−1(X − µ)Seja X distribuida como uma N(µ,Σ), com |Σ| > 0, os seguintesresultados são válidos:

1. (X − µ)′Σ−1(X − µ) ∼ χ2p.

2. P[(X − µ)′Σ−1(X − µ) ≤ χ2p] = 1− α é um elipsoide.

G. Amaral

Verificação da Hipótese de Normalidade Multivariada

1. Obter q-q plots e aplicar testes de normalidade (Kolmogorovou outro), para cada variável individualmente.

2. Fazer diagramas de dispersão (XY) e verifique se o conjuntodos pontos possuem aproximadamente a forma de umaelipse.

3. Verificar se existem pontos aberrantes que precisam sercuidadosamente analisados.

G. Amaral

4 Calcular

d2j = (xj − x)′S−1(xj − x) j = 1, . . . , n,

onde x1, . . . , xn são as observações amostrais.Em seguida, verificar por um Q-Q plot se os d ′j s seguem umadistribuição χ2

G. AmaralEstimação de Máxima Verossimilhança

Função de VerossimilhançaConsidere uma a.a. X1, . . . ,Xn onde Xi tem f.d.p f (xi ; θ), onde θé um vetor de parâmetros. A função de verossimilhança édefinida como

L(x1, . . . , xn; θ) =n∏

f (xi ;µ).

O log da função de verossimilhança é é dado por

l(x1, . . . , xn; θ) =n∑

log f (xi ;µ).

L(x1, . . . , xn; θ) =n∏

f (xi ;µ).

l(x1, . . . , xn; θ) =n∑

log f (xi ;µ).

L(x1, . . . , xn; θ) =n∏

f (xi ;µ).

l(x1, . . . , xn; θ) =n∑

log f (xi ;µ).

G. AmaralDistribuição Normal

Caso da Normal Multivariada

l(x1, . . . , xn; θ) = −n2

log |2πΣ| − 12

n∑i=1

(xi − µ)′Σ−1(xi − µ)

l(x1, . . . , xn; θ) = −n2

log |2πΣ|−n2trΣ−1S−n

2(x−µ)′Σ−1(x−µ).

(Vide Mardia et al, 1979, pp. 96-97).

G. AmaralDistribuição Normal

Caso da Normal Multivariada

l(x1, . . . , xn; θ) = −n2

log |2πΣ| − 12

n∑i=1

(xi − µ)′Σ−1(xi − µ)

l(x1, . . . , xn; θ) = −n2

2(x−µ)′Σ−1(x−µ).

(Vide Mardia et al, 1979, pp. 96-97).

G. AmaralEscores e Matrix de Informação

Função Escore

S(x1, . . . , xn; θ) =∂

∂θl(X ; θ)

Matriz de Informação de Fisher

F = −E(

∂2l∂θ∂θ

G. AmaralEstimadores de Máxima Verossimilhaça

O máximo de l(X ; θ) é obtido quando

(∂l/∂θ) = 0,

para um certo valor θ, que é o estimador de máximaverossimilhança de θ.Exercício 9 Verifique que no exemplo 4.1.4 (Vide Mardia et al,1979, p. 100) têm-se

l(X ; θ) = log c−n log 4+x1 log 2 + θ+(x2+x3)log(1−θ)+x4 log θ,

s(X ; θ) =∂l(X ; θ)

∂θ=

2 + θ− x2 + x3

1− θ+

F =n(1 + 2θ)

2θ(1− θ)(2 + θ).

G. Amaral

Exercício 10 Encontre o estimador de máxima verossimilhançado exercício 9 por solucionar a equação s(X ; θ) = 0.

Os problemas descritos acima tratam da distribuição descrita porFisher (1970, p. 305), que é um experimento com 4 resultadoscujas as probabilidades destes resultados são(2 + θ)/4, (1− θ)/4, (1− θ)/4 e θ/4. Esta distribuição é umamultinomial.

G. AmaralMaximizando a Verossimilhaça da NormalMultivariada

Log Verossimilhança

l(x1, . . . , xn; θ) = −n2

2(x−µ)′Σ−1(x−µ).

Estimadores

µ = x , Σ = S .

Para garantir que o ponto crítico é o máximo, usa-seTeorema Se A é uma matrix p × p fixa, o máximo de

f (Σ) = |Σ|−n/2 exp(−12trΣ−1A)

é Σ = n−1A.

G. AmaralInferência Bayesiana(Vide Gelman et al, 1995, pp. 3-82).

1. Existe um modelo probabilístico completo, isto é, umadistribuição de probabilidade conjunta para todas asquantidades observáveis e não observáveis.

2. Obter uma distribuição condicionada aos dados observados.3. Avaliar o modelo e a distribuição obtida a posteriori. Caso o

modelo não seja adequado, as etapas 1, 2 e 3 devem serrepetidas.

O pensamento Bayesiano facilita uma interpretação dasconclusões estatísticas associadas ao bom senso.Um intervalo de confiança bayesiano para uma quantidade deinterese desconhecida pode ser considerado como tendo uma altaprobabilidade de conter o parâmetro verdadeiro.Por outro lado, o intervalo frequentista, não pode ter a mesmainterpretação. O que pode ser dito é que em uma grandequantidade de realizações de um experimento espera-se que ointervalo contenha o valor verdadeiro em uma grande proporçãodestas realizações.

G. Amaral

Notação Bayesianaθ - Vetor de quantidades não observáveis.y - Dados observadosy - Quantidade desconhecida que, porém, é potencialmenteobservável.p(θ) - Priori, representa o conhecimento subjetivo que opesquisador da área de estudo (medicina, oceanografia,engenharia) têm a respeito de θ.p(y |θ) - Verossimilhança, representa as informações provinientesdos dados.p(θ|y) - Posteriori, é a distribuição final que é utilizada paraconstruir regiões de confiança e para testar hipóteses.Regra de Bayes

p(θ|y) = p(θ)p(y |θ).

G. Amaral

Verossimillhança para um ponto da Normal univariadaVerossimilhança

P(y |θ) =1√2πσ

exp−1

2σ2 (y−θ)2

Priori

p(θ) ∝ exp(− 1τ20

(θ − µ0)2),

θ ∼ N(µ0, τ20 ), onde µ0 e τ2

0 são hyperparâmetros.Posteriori

P(θ|y) ∝ exp(−12

[(y − θ)2

σ2 +(θ − µ0)

]Simplificandos-se (completando-se quadrados e etc),

P(θ|y) ∝ exp(− 12τ2

1(θ − µ1)

1τ20µ0 + 1

σ2 y1τ2 + 1

=1τ20

+1σ2 .

G. Amaral

Normal MultivariadaVerossimilhança

P(y |µ,Σ) ∝ |Σ| exp(−1

2(y − µ)′Σ−1(y − µ)

)para uma amostra Y1, . . . ,Yn,

P(y1, . . . , yn) ∝ |Σ|−n/2 expn∑

(yi − µ)′Σ−1(yi − µ)

Posterior Distribution

P(µ|y ,Σ) ∝ exp

[(µ− µ0)

′Λ−10 (µ− µ0) +

n∑i=1

(yi − µ)′Σ−1(yi − µ)

ou ainda,

P(µ|y ,Σ) = N(µ|µn,Λn),

µn = (Λ−10 + nΣ−1)−1(Λ−1

0 µ0 + nΣ−1y),

Λ−1n = Λ−1

0 + nΣ−1.

G. AmaralTestes de Hipóteses

Teste da Razão de VerossimilhançaSeja X1, . . . ,Xn uma a.a. de F (θ). Sejam H0 : θ ∈ Ω0 eH1 : θ ∈ Ω1. A razão de verossimilhança é definida por

λ(x) =L?

onde L?i é o maior valor que a função de verossimilhança assume

na região Ωi , i = 0, 1.Para simplificar, usa-se a estatística

−2logλ = 2(l?1 − l?0 ),

onde l?1 = log L?1 e l?0 = log L?

G. AmaralHipótese H0 : µ = µ0, ΣConhecido

l?0 = l(µ0,Σ) = −12nlog |2∗piΣ|−1

2trΣ−1S−1

2n(x−µ0)

′Σ−1(x−µ0)

Não existe restrições para µ em H1, logo, E.M.V de µ é x .Usando-se a razão de verossimilança,

−2logλ = 2(l?1 − l?0 ) = n(x − µ0)′Σ−1(x − µ0)

G. AmaralHipótese H0 : µ = µ0, Σ desconhecido (Teste deHotelling para Uma Amostra)Σ deve ser estimado sob H0 e H1.Usando os resultados de Mardia et al (1979, pp. 102-108),Sob H0, µ = µ0 e Σ = S + dd ′ onde d = x − µ0.Sob H1, µ = x e Σ = S .Logo,

l?0 = l(µ0,S +dd ′) = −12plog2π+ log |S |+ log(1+d ′S−1d)+p

e l?1 = l(x ,S) é obtido por colocar d = 0 na expressão acima.Logo,

−2logλ = 2(l?1 − l?0 ) = nlog(1 + d ′S−1d).

A estatística

d ′S−1d

é chamada de T 2 de Hotelling.

G. Amaral

A distribuição da estatística

n − pp

d ′S−1d ∼ Fp,n−p.

falicita o uso do teste acima em muitos problemas reais.

G. AmaralHipótese H0 : Σ = Σ0, onde µ Desconhecido

Sob H0, temos µ = x e Σ = Σ0.Sob H1, temos µ = x e Σ = SLogo,

l?0 = −12nlog |2πΣ0| −12ntrΣ−1

l?1 = −12nlog |2πΣ| − 12np

−2logλ = ntrΣ−10 S − nlog |Σ−1

0 S | − np.

Distribuição muito complexa, alternativas: bootstrap,verossimilhança empírica.

G. Amaral

Se w e v são variáveis aletórias unidimensionais independentes esuas distribuições são σ2χ2

α e σ2χ2β , respectivamente, o termo

w/v têm distribuição Fα,β .

Distribuição de Wishart

Se M(p) pode ser escrita como M = X ′X , one X (n) é umamatriz de dados de N(0,Σ), a distribuição da matriz M é umaWishart com matriz de escala Σ e com n graus de liberdade. Aforma padrão da distribuição ocorre quando M = I .A distribuição de Wishart é denotada po Wp(Σ, n).

G. Amaral

No caso multivariado, Se A ∼ W (Σ,m) e B ∼ W (Σ, n) sãoindependentes, define-se que

Λ = |A|/|A + B | = |I + A−1B|−1 ∼ Λ(p,m, n),

onde Λ(p,m, n) é a distribuição lambda de Wilks.

G. AmaralTeste T 2 de Hotelling para 2 Amostras

Se x e M são independentes e distribuidas como N(µ,Σ) eWp(Σ,m), respectivamente, têm-se

m(x − µ)′M−1(x − µ) ∼ T 2(p,m),

onde T 2(p,m) é a distribuição de Hotelling com parâmetros m ep.

TheoremT2(p, n) = np/(n − p + 1) ∼ Fp,n−p+1

(n − p)/p(x − µ)Σ−1(x − µ) ∼ Fp,n−p

Suponha duas amostras de tamanho n1 e n2, onde n1 + n2 = n.

G. Amaral

Teste de Hotelling p/ Duas PopulaçõesH0 : µ1 = µ2Considera-se que as matrizes de covariância são iguais.O núcleo da estatística do teste é

D2 = (x1 − x2)′S−1

c (x1 − x2),

onde (Sc = n1S1 + n2S2)/(n − 2) é a matriz de covariânciacombinada.Usando os resultados anteriores, temos

n1n2(n − p − 1)

n(n − 2)pD2 ∼ F(p,n−p−1).

G. AmaralProblema de Várias AmostrasAnálise de Variância com um FatorConsidereH0 : µ1 = . . . = µp, dado que Σ1 = . . . = ΣkSob H0, os EMV’s de µ e Σ são x e S , respectivamente.Sob H1, a log-verossimilhaça é dada por

l?0 = −12

p∑i=1

[ni log |2πΣ|+ ni trΣ−1(Si + did ′i )],

onde Si é a matriz de covariância da i-ésima amostra edi = xi − µi .O EMV de µi é xi e

l?0 = −12log |2πΣ| − 1

2trΣ−1W , onde W =

p∑i=1

niSi .

Derivando a equação acima com respeito a Σ e igualando a zero,temos

Σ = n−1W .

G. AmaralProblema de Várias Amostras

W = soma de quadrados e produtos (SQP) dentro dos gruposA razão das verossimilhanças é dada por

|W ||nS |

= |T−1W |n/2,

onde T = nS é a SQP total.Como W é a SQPD e T é a SQPT, temos a seguinte relação

B = T −W = ni (xi − x)(xi − x)′,

onde a matriz B é considerada a SQP entre os grupos ou SQPE.Logo podemos escrever

λ =|W |

|B + W |= |I + W−1B|−1.

Antes de determinar a distribuição desta estatística, é necessáriointroduzir algumas definições.

G. Amaral

Exercício 11 A densidade de uma normal bivariada éExiste uma elipse associada a esta densidade. Os eixos e faça umgráfico desta elipse.Exercício 12 Se X ∼ N(0,Σ), onde

(4 22 1

Ache a tal que X = a′Y e Y tem distribuição normal nãosingular. Apresente a densidade de Y .

G. Amaral

Exercício 13 Considere (X1,Y1)′, (X2,Y2)

′, (X3,Y3)′, onde

(Xi ,Yi )′ são i.i.d com distribuição N(µ,Σ), com

µ′ = (µx , µy )

Σ = .

G. AmaralAnálise de Agrupamento

HistóricoHindus usaram o sexo, características físicas e comportamentaispara classificar pessoas em seis tipos, os quais eles usaram nomesde animais.Romanos usaram Caraterísticas Físicas e gregos novetemperamentos.Existem muitos critérios para classificar, o genêro, a espécie eoutros.

G. Amaral

Matriz de Dados

x11 . . . x1p...

. . ....

xn1 . . . xnp

Classificação das técnicas de agrupamento:i)Técnicas Hierárquicas;ii)Técnicas de Partição-Otimização.

G. Amaral

Idéia geral de alguns métodos:1)Cálculo das distâncias;2)Algoritmo para agrupar as observações.Distância EuclideanaA distância entre os objetos "i"e "j"pode ser calculada por

d(xi , xj) =√

(xi1 − xj1)2+, . . . ,+(xip − xjp)2

G. AmaralMétodos Aglomerativos

Inicia com o cálculo das distâncias ou similaridades entre osobjetos, o que produz uma matriz n × n com estas medidas.Como existem vários métodos para calcular distâncias ousimilaridades, existirá para um certo método aglomerativo váriasopções.Além das medidas de distâncias e similaridades, é fundamentalestabelecer o algoritmo utilizado para formar os grupos deentidades.

G. AmaralMétodo do Vizinho Mais PróximoInicialmente, se existem n indivíduos, existirão n grupos. Emcada etapa existe uma fusão entre os grupos mais próximos.Exemplo:Suponha que a matriz de distâncias é:

0.0 2.0 6.0 10.0 9.02.0 0.0 5.0 9.0 8.06.0 5.0 0.0 4.0 5.010.0 9.0 4.0 0.0 3.09.0 8.0 5.0 3.0 0.0

No primeiro passo, ocorre o agrupamento de 1 e 2, e novasdistâncias são calculadas usando

d(12)3 = Mind13, d23 = d23 = 5.0A nova matriz é:

0.0 5.0 9.0 8.05.0 0.0 4.0 5.09.0 4.0 0.0 3.08.0 5.0 3.0 0.0

No passo seguinte, as observações 4 e 5 são agrupadas, e têm-se:

0.0 5.0 8.05.0 0.0 4.08.0 4.0 0.0

G. AmaralMétodo da Ligação Completa

As mesmas etapas devem ser seguidas. Porém, em cadaagrupamento a nova distância deve ser calculada como

d(12)3 = maxd13, d23 = d13 = 6.0

G. AmaralMétodo do Centróide

Calcula-se a matriz de distâncias entre todos os objetos. Osobjetos com a menor distância irão forma um novo grupo.Calcula-se o centróide de um novo grupo e usa-se esta medidapara obter a matriz distância relativa a este grupo.A distância entre os grupos é calculada como a distância entre oscentróides dos grupos.

G. AmaralDistâncias, Similaridades e seus Axiomas

1. D(x , y) ≥ 0;

2. D(x , y) = 0 sse x = y ;

3. D(x , y) = D(y , x), ∀ x , y ∈ Rd ;

4. D(x , y) ≤ D(x , z) + D(y , z), ∀x , y , z ∈ Rd ;

1. s(A,B) = s(B,A)

2. s(A,B) > 03. s(A,B) ∝ similaridade entre A e B

G. AmaralMedidas de Distância

Nome Fórmula

Euclideana∑p

j=1 wj(xrj − xsj)21/2

Karl Pearson wj1s2k

Mahalanobis (xr − xs)Σ−1(xr − xs)1/2

Manhanttan∑p

j=1 wj |xrj − xsk |

Tabela: Distâncias, Mardia et al. (1979, p. 381)

Variáveis Qualitativas

r =ad − bc

(a + b)(c + d)(a + c)(b + d).

G. AmaralMétodo de K-Médias

Este método adiciona cada item ao grupo que tem o centróide(média) mais próxima.A versão mais simples deste método têm as seguintes etapas:

1. Decidir qual o valor de K2. Particionar os itens em K grupos3. Para cada item, verificar que grupo é mais próximo. Caso

exista um grupo mais próximo do item do que seu grupoatual, retirar este item do grupo atual e recolocá-lo nogrupo mais próximo. Em seguida, os novos centróides decada grupo devem ser recalculados.

4. repetir a etapa 3 até que nenhum item precise ser movido.

G. AmaralAnálise Discriminante

Considere g populações ou grupos Π1, . . . ,Πg , onde se xi ∈ Πjentão xi ∼ fj(x).O objetivo é alocar um certo objeto "i"a uma das populações Πj ,usando o vetor de variáveis xi .Esta alocação deve minimizar o erro de classificação.Duas situações principais de classificação:a)Análise de Agrupamento - A população do objeto "i"não éconhecida (classificação não supervisionada)b)Análise discriminante - A população do objeto "i"é conhecida(classificação supervisionada)

G. AmaralModelos de ClassificaçãoExistem 2 principais casos de interesse:

1. A f.d.p. associada a Πj é fj(x), isto é, uma densidade deforma conhecida;

2. Um método empírico, onde nenhuma forma particular para af.d.p. associada a Πj é assumida.

Regra de alocação: Alocar o objeto x a uma das populaçõesΠ1, . . . ,Πg que produz o maior valor da verossimilhança para x .Assim,

Li (x) = MaxiLi (x).

Para os próximos exemplos, considere que

P(Li (x) = Lk(x)para algum i 6= k|Πi ) = 0.

Distribuição Normal: Caso de duas PopulaçõesΠ1 = N(µ1, σ

Π2 = N(µ2, σ22)

Li (x) = (2πσ2i )−1/2 exp

(x − µi

G. Amaral

λ =L1(x)

L2(x)=

σ1exp

[(x − µ1

(x − µ2

Simplificando,

1− 1

)− 2x

σ21− µ2

)< 2 log

Esta regra é utilizada para alocar x a Π1 ou Π2.TeoremaSe Π = Np(µi ,Σ), i = 1, . . . , g e Σ > 0, x é alocado a Πj se

(x − µj)′Σ−1(x − µj)

é o valor mínimo de a′iΣ−1ai , onde ai = (x − µi ), para

i = 1, . . . , g .

G. Amaral

Quando g = 2, a regra é alocar x a Π1 se

α′(x − µ) = [Σ−1(µ1 − µ2)]′(x − 1

2(µ1 − µ2))

= (µ1 − µ2)′Σ−1(x − µ1

2− µ2

2) > 0.

G. AmaralEstimando a Regra Discriminante

Condições:

1. Matriz de Dados X (n × p);

2. Π1, . . . ,Πg são conhecidos com fi (µ,Σ) normal, e µ e Σdevem ser estimados;

3. As linhas de X são particionadas em g gruposX ′ = (X ′

1, . . . ,X′g );

4. x1, . . . , x ′g e Su =P

niSi(n−g) são os estimadores não viesados de

µ1, . . . , µg e Σ.

Se g = 2, A regra é alocar x a Π1 se

(x1 − x2)S−1x − 1/2(x1 + x > 0.

G. Amaral

Componentes Principais

A média representa uma combinação linear que é dada por

151x = (

15)′x .

Porém, esta combinação linear atribui o mesmo peso à todas asvariáveis.O método de componentes principais fornece uma combinaçãolinear com pesos diferentes.DefiniçãoSe x é um vetor aleatório com média µ e matriz de covariânciaΣ, as componentes principais são definidas por

y = Γ′(x − µ),

onde Γ é ortogonal, Γ′ΣΓ = Λ = diagλ1, . . . , λp.Tem-se que λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0 e Γ é a matriz deautovetores.

G. Amaral

Teorema Se x ∼ (µ,Σ), a transformação y = Γ′(x − µ) satisfazos seguintes resultadosa)E (Yi ) = 0b) V (Yi ) = λic) Cov(Yi ,Yj) = 0, i 6= jb)V (Y1) ≥ V (Y2) ≥ . . . ≥ V (Yp) ≥ 0e)∑p

i=1 V (Yi ) = trΣf)∏p

i=1 V (Yi ) = |Σ|Teorema: Nenhuma combinação linear de x tem variância maiordo que λ1, a variância da primeira componente principal.

G. Amaral

Se α = a′x é uma combinação linear de x que não écorrelacionada com as com as primeiras k componentesprincipais de x , então a variância de α é maximizada quando α éa (k + 1)−ésima componente principal.Componentes Principais Amostrais

X = (x1, . . . , xn)

Xa é uma soma ponderada das colunas de X .

V (Xa) = a′Sa

Primeira componente principal

Y(1) = (X − 1X ′)e(1)

Y(i) = (X − 1X ′)e(i).

O conjunto dos componentes principais é dado por

Y = (X − 1X ′)G .

G. AmaralPropriedades das Componentes Principais

a)A proporção da variabilidade explicada pelas k componentesprincipais é dado por

(λ1 + . . . + λk)

(λ1 + . . . + λp).

b)Componentes principais são afetadas por mudança de escala.Isto pode ser solucionada por padrozinar as variáveis ou usar amatriz de correlação.c)O posto de x = r < p, a variabilidade total pode ser explicadapelas r primeiras componentes.d)Elipsóide

(x − µ)S−1(x − µ) = Tα

G. AmaralEliminação de Componentes

hipótesesH0 : λp = λp−1 = . . . = λk+1.O log da estatística da razão de verossimilhança é dada por

−2logλ = np(a− 1− log g),

onde a e g são as médias geométricas dos autovalores de Σ−1S ,onde Σ de Σ. Os autovalores de S são os mesmos de Σ.Sejam a0 =

(λk+1,...,+λp)

(p−k) e g0 = (λk+1×, . . . ,×λp).

A estatística para testar a hipótese acima, com a aplicação dacorreção de Bartlett, é dada

(n − 2p + 116

)(p − k) log(a0

g0) ∼ χ2

(p−k+2)(p−k−1)/2,

O mesmo pode ser feito com a matriz de correlação (VideMardia et al (1979, p. 236).

G. AmaralComponentes Principais e Análise de Regressão

Para várias explicativas muito correlacionadas, o método decomponentes principais torna-se uma boa alternativa.O critério de escolha das componentes não é mais o testeanteriormente descrito. Este critério é o mesmo usado para asvariáveis explicativas do modelo de regressão, onde estasvariáveis explicativas são as componentes principais.As principais vantagens do uso de componentes principais emanálise regressão são:

O uso de componentes principais faz com que todas as variáveispossam ser utilizadas na análise.

As componentes principais permitem que o efeito individual decada variável seja melhor quantificado.

G. AmaralFormulação do Modelo

Modelo de regressão

y = Xβ + ε, onde ε ∼ N(0, σ2H) e H = I − n−111′.

O modelo de regressão com as componentes principais W = XGé definido como

y = Wα + ε,

onde α = G ′β.

G. AmaralRegressão Múltipla Multivariada

Modelo

Y(n×m) = Zn×(p+1)β(p+1)×m) + ε(n×m),

z11 z12 . . . z1m...

.... . .

...zn1 zn2 . . . znm

β01 β02 . . . β0m...

.... . .

...βp1 βp2 . . . βpm

ε11 ε12 . . . ε1m...

.... . .

...εn1 εn2 . . . εnm

G. Amaral

Anderson, T. W., (1971). An Introduction to MultivariateStatistical Analysis, John Wiley & Sons, New York.

Everitt, B., (1974). Cluster Analysis , HeinemannEducational Books, London.

Mardia, K. V., Kent, J. T. and Bibby, J. M. (1979).Multivariate Analysis, Academic Press, London.

G. AmaralCritérios de Avaliação - Atlas Banco de Dados

1. Usar latex;2. Usar R ou OX;3. A avaliação é competitiva, isto é, o melhor trabalho recebe a

melhor nota e força a redução das notas dos outrostrabalhos;

4. Justificar a escolha das variáveis e o objetivo de sua análise;5. Usar as informações dos livros porque as notas de aula são

apenas slides;6. Explicar os modelos utilizados (equações e idéias);7. Colocar referências bibliográficas;8. Escrever notas explicativas nos programas desenvolvidos e

colocar todos os programas em um apêndice.

As melhores análises serão enviadas para secretaria deplanejamento da cidade do Recife. Nossa expectativa é receberalguma retroalimentação.

G. AmaralCalendário

Prova 17.10.06

Análise do Banco de Dados:Atlas (Recife) 24.10.06

Seminário: 19.10.06

G. Amaral

Os trabalhos entregues 2 dias antes do prazo têm um acréscimode 20% no valor da nota.

Método Datada En-trega

Abraão Fábio Juliana

Agrupamento 24.10 2,6 2,4 2,2Discriminante 10.11 2,6 2,4 2,4ComponentesPrincipais

20.11 2,4 2,4 2,2

RegressãoMultivariada

30.11 2,6 2,4 2,3

Tabela: Cronograma e Avaliação

G. Amaral

Os alunos José Luis e Edson já estão reprovados.

Aluno SeminárioProva AnáliseDados

MédiaFinal

Abraão 9,5 7,5 10 9,0Edson 4 0,7 0Fábio 8,5 7,0 9,6 8,4Jose Luis 5 0 0Juliana 8,5 4,5 9.1 7,4

Tabela: Resultados Parciais

Análise Multivariada - Rede Linux IME-USPhugobz/estatistica/analise multivariada... · Análise...

Documents

Transcript of Análise Multivariada - Rede Linux IME-USPhugobz/estatistica/analise multivariada... · Análise...

Analise Multivariada de Dados

Ferreira (1996) - Análise Multivariada

Matrizes e Determinantes - Matemática IFBA · Formalmente, uma matriz diagonal e uma matriz quadrada A = (a ij ) nxn , tal que a ij 2 R se i = j e a ij = 0, se i 6= j. Exerc cio

PROJETO DE EXTENSÃO - softwarelivrer.files.wordpress.com · Capacitação em R e RStudio - 2015 ... 5.3 Noções de regressão multivariada: covariáveis categoriais, covariáveis

MAE 5776 ANÁLISE MULTIVARIADA

1hemeroteca.ciasc.sc.gov.br/republica/1891/REP1891388.pdf · -' t'~ . 4.">. iJ p 't .'S ,IJ!!I r.,.: .o VI!!.! i'r~~ ', h!\t, :.4,' pode /ti ',ahi',r ,fti . t" ;'!'itorio . naCí

Análise Multivariada Aplicada à Contabilidade

Conteúdos e Data: Revisão EXAME FINAL e...35) Escreva a matriz A = (a ij) do tipo 3x4 sabendo que a ij = 2i – 3j. 36) Escreva a matriz A = (a ij) do tipo 3x4 sabendo que: a ij

Apostila de Analise Multivariada

Modelo de Insumo-Produto - usp.br · Modelo Inter-regional • Modelo regional: não reconhece as inter- ... LM LM ij L ij j ML ML ij ij M j MM MM ij L ij j LL LL ij ij X z a X z

regressão multivariada

Calibração multivariada 2

Análise Multivariada - trabalho

Análise multivariada - Aquifero Cabeças

ANÁLISE FATORIAL MULTIVARIADA APLICADA A …

swis.acp.ac.thswis.acp.ac.th/html_edu/acp/temp_news/3228.pdf · 2/4 iJ.3/3 IJ.2/1 iJ.2/2 IJ.2/3 u.3/7 iJ.2/l u.3/5 u. 1/1 iJ.3/4 u. 3/4 EP 2/3 EP 3/4 EP 3/2 EP 2/2 30 24.5 24.5 23

ANÁLISE MULTIVARIADA DE PARCELAMENTOS

Homicides among women in the different Brazilian regions ... · ij]) = ln ( ) = m + a i + b j + g k, where E[r ij] is the expected mortality rate at age i in period j, q ij the number

Geovisualização Multivariada