MAE0317 - Planejamento e Pesquisa I

33
MAE0317 - Planejamento e Pesquisa I AN ´ ALISE DE DIAGN ´ OSTICO - ANOVA 24 de abril de 2014 Denise A. Botter MAE0317 24 de abril de 2014 1 / 33

Transcript of MAE0317 - Planejamento e Pesquisa I

Page 1: MAE0317 - Planejamento e Pesquisa I

MAE0317 - Planejamento e Pesquisa I

ANALISE DE DIAGNOSTICO - ANOVA

24 de abril de 2014

Denise A. Botter MAE0317 24 de abril de 2014 1 / 33

Page 2: MAE0317 - Planejamento e Pesquisa I

INTRODUCAO

Sequencia de passos no ajuste um modelo estatıstico:

Definicao e ajuste do modelo escolhido

Diagnostico do modelo ajustado, visando validar suposicoes

Se o modelo nao e apropriado, adote medidas como transformacoesou modifique o modelo para que as suposicoes se tornem validas

Realize inferencias no modelo bem ajustado

Nosso objetivo e verificar se as suposicoes levantadas na especificacao domodelo de ANOVA sao validas apos o ajuste do modelo.

Denise A. Botter MAE0317 24 de abril de 2014 2 / 33

Page 3: MAE0317 - Planejamento e Pesquisa I

ANALISE DE RESIDUOS

Consideremos o modelo de Anova

yij = µi + eij

para o qual levantamos a

eij ∼ N(0, σ2), independentes,

i = 1, . . . , r e j = 1, . . . , ni.

Denise A. Botter MAE0317 24 de abril de 2014 3 / 33

Page 4: MAE0317 - Planejamento e Pesquisa I

Definimos os seguintes resıduos:

Resıduo observado: eij = yij − yij = yij − yi.

Resıduo studentizado: rij =eij√

var(eij),

sendo var(eij) =QMR(ni − 1)

ni

Denise A. Botter MAE0317 24 de abril de 2014 4 / 33

Page 5: MAE0317 - Planejamento e Pesquisa I

Graficos de resıduos

Os seguintes graficos de resıduos podem ser construıdos:

Resıduos versus Valores ajustados: verificacao da homocedasticidadedos erros aleatorios; os resıduos devem distribuir-se aleatoriamente aoredor do valor zero seguindo o mesmo padrao aproximadamente paracada nıvel do fator (mesma amplitude). Este grafico tambem podeser utilizado para verificar a omissao de variaveis independentesimportantes

Resıduos versus Sequencia em que as observacoes foram obtidas:verificacao da independencia entre os erros aleatorios; os resıduosdevem distribuir-se aleatoriamente ao redor do valor zero

Grafico de probabilidade normal dos resıduos: verificacao danormalidade dos erros aleatorios; aspecto do grafico deve seraproximadamente linear

Grafico das distancias de Cook versus Sequencia em que asobservacoes foram obtidas: deteccao de pontos influentes

Denise A. Botter MAE0317 24 de abril de 2014 5 / 33

Page 6: MAE0317 - Planejamento e Pesquisa I

EXEMPLO - Tecnicas de Limpeza

22 23 24 25 26

-2-1

01

23

Valores ajustados

Re

síd

uo

s S

tud

en

tiza

do

sResíduos studentizados vs Valores ajustados

Grafico 1. Dispersao de Y por tratamento

A variabilidade de Y por tratamento parece constante.

Denise A. Botter MAE0317 24 de abril de 2014 6 / 33

Page 7: MAE0317 - Planejamento e Pesquisa I

EXEMPLO - Tecnicas de Limpeza

-2 -1 0 1 2

-2-1

01

23

Quantis teóricos

Re

síd

uo

s S

tud

en

tiza

do

sGráfico de probabilidade normal

Grafico 2. Dispersao de Y por tratamento

Denise A. Botter MAE0317 24 de abril de 2014 7 / 33

Page 8: MAE0317 - Planejamento e Pesquisa I

Testes de hipoteses para verificacao da suposicao denormalidade

Os seguintes testes podem ser aplicados:

Teste qui-quadrado

Teste de Kolmogorov-Smirnov

Teste de Lilliefors

Teste de Shapiro-Wilk

Teste de Anderson-Darling

Denise A. Botter MAE0317 24 de abril de 2014 8 / 33

Page 9: MAE0317 - Planejamento e Pesquisa I

Testes de hipoteses para verificacao da suposicao dehomocedasticidade

Os seguintes testes podem ser aplicados:

Teste de Bartlett: supoe normalidade para os erros aleatorios, requerni ≥ 5, i = 1, . . . , r, ni’s podem ser diferentes

Teste de Brown-Forsythe: nao requer normalidade para os errosaleatorios, n =

∑ni deve ser relativamente grande, i = 1, . . . , r, ni’s

podem ser diferentes

Denise A. Botter MAE0317 24 de abril de 2014 9 / 33

Page 10: MAE0317 - Planejamento e Pesquisa I

Teste de Bartlett

Consideremos r populacoes normais. De cada populacao obtemos umaamostra aleatoria de tamanho ni, i = 1, . . . , r.

Para testar H0 : σ21 = . . . = σ2

r versus H1 : os σ2i nao sao todos iguais,

calculamos a estatıstica

B =(n− r)ln(QMR)−

∑ri=1(ni − 1)ln(s2

i )

1 + 13(r−1)

[∑ri=1

(1

ni−1

)−(

1n−r

)] ,

sendo s2i , a variancia amostral das observacoes sob o tratamento i.

Sob H0,B ∼ χ2

r−1.

Valores grandes de B indicam a rejeicao de H0.

Denise A. Botter MAE0317 24 de abril de 2014 10 / 33

Page 11: MAE0317 - Planejamento e Pesquisa I

Teste de Brown-Forsythe

Calcular dij = |yij − yi.|, sendo yi. a mediana das observacoes sob oi-esimo tratamento, i = 1, . . . , r.

Se as r variancias σ2i sao iguais, temos que E(dij) sao iguais; se as

variancias σ2i sao diferentes, entao E(dij) nao sao iguais; a estatıstica de

teste e a estatıstica F ∗ para testar a igualdade das r medias populacionais,mas baseada nos desvios dij .

Assim, para testar H0 : σ21 = . . . = σ2

r versus H1 : os σ2i nao sao todos

iguais, calculamos a estatıstica

F ∗BF =QMTrat

QMR,

sendo

QMTrat =

∑ri=1 ni(di. − d..)2

r − 1,

Denise A. Botter MAE0317 24 de abril de 2014 11 / 33

Page 12: MAE0317 - Planejamento e Pesquisa I

Teste de Brown-Forsythe

QMR =

∑ri=1

∑nij=1(dij − di.)2

n− r

di. =

ni∑j=1

dij/ni

e

d.. =

r∑i=1

ni∑j=1

dij/n.

Sob H0,F ∗ ∼ F[r−1,n−r],

aproximadamente. Valores grandes de F ∗ indicam a rejeicao de H0.

Denise A. Botter MAE0317 24 de abril de 2014 12 / 33

Page 13: MAE0317 - Planejamento e Pesquisa I

Exemplo

Um experimento foi realizado com o objetivo de comparar 5 tipos de soldautilizadas na soldagem de juntas de circuitos eletricos. 40 circuitoseletricos foram selecionados aleatoriamente. Cada tipo de solda foidesignada ao acaso para ser utilizada em 8 dos 40 circuitos eletricos. Apos4 semanas de aplicacao da solda, os 40 circuitos foram testados e foiavaliada a forca (Y ), em pounds, para romper certa junta do circuito. Osdados seguem na Tabela 1.

Denise A. Botter MAE0317 24 de abril de 2014 13 / 33

Page 14: MAE0317 - Planejamento e Pesquisa I

Tabela 1. Forca (em pounds).

Solda I Solda II Solda III Solda IV Solda V14,87 18,43 16,95 8,59 11,5516,81 18,76 12,28 10,90 13,3615,83 20,12 12,00 8,60 13,6415,47 19,11 13,18 10,13 12,1613,60 19,81 14,99 10,28 11,6214,76 18,43 15,76 9,98 12,3917,40 17,16 19,35 9,41 12,0514,62 16,40 15,52 10,04 11,95

y1. = 15, 420 y2. = 18, 528 y3. = 15, 004 y4. = 9, 741 y5. = 12, 340y1. = 15, 170 y2. = 18, 595 y3. = 15, 255 y4. = 10, 010 y5. = 12, 105s21 = 1, 531 s22 = 1, 570 s23 = 6, 183 s24 = 0, 667 s25 = 0, 592n1 = 8 n2 = 8 n3 = 8 n4 = 8 n5 = 8

Denise A. Botter MAE0317 24 de abril de 2014 14 / 33

Page 15: MAE0317 - Planejamento e Pesquisa I

EXEMPLO

I II III IV V

1014

18

For

ca

Grafico 3. Dispersao de Y por tratamento

A variabilidade de Y por Tipo de Solda nao parece constante.

Denise A. Botter MAE0317 24 de abril de 2014 15 / 33

Page 16: MAE0317 - Planejamento e Pesquisa I

EXEMPLO

Tabela 2. Tabela de ANOVA.

FV gl SQ QM F valor P

Solda 4 353,61 88,403 41,926 < 0, 001Resıduo 35 73,80 2,109

Total 39 427,41

Denise A. Botter MAE0317 24 de abril de 2014 16 / 33

Page 17: MAE0317 - Planejamento e Pesquisa I

EXEMPLO

10 12 14 16 18

-2-1

01

23

Valores ajustados

Re

síd

uo

s S

tud

en

tiza

do

sResíduos studentizados vs Valores ajustados

Grafico 4. Graficos de resıduosA suposicao de homocedasticidade

nao parece satisfeita. Ha um ponto influente.

Denise A. Botter MAE0317 24 de abril de 2014 17 / 33

Page 18: MAE0317 - Planejamento e Pesquisa I

EXEMPLO - Teste de Brown-Forsythe

Tabela 3. Tabela de ANOVA para os Desvios absolutos ao redor damediana.

FV gl SQ QM F valor P

Solda 4 9,3477 2,33693 2,9358 0, 03414Resıduo 35 27,8606 0,79602

Total 39 37,2083

Ao nıvel de 5% de significancia, rejeitamos a hipotese dehomocedasticidade.

Denise A. Botter MAE0317 24 de abril de 2014 18 / 33

Page 19: MAE0317 - Planejamento e Pesquisa I

EXEMPLO - Grafico de Probabilidade Normal

Na presenca de heterocedasticidade, definimos o seguinte Resıduo

Studentizado: rij =eij√

s2i (ni − 1)

ni

,

420-2

99

95

90

80

70

60

50

40

30

20

10

5

1

3,01,50,0-1,5-3,0

99

95

90

80

70

60

50

40

30

20

10

5

1

resstud

%

resstudmMean -1,95677E-16

StDev 1,013

N 40

AD 0,333

P-Value 0,502

resstud

Mean -4,24660E-16

StDev 1,013

N 40

AD 0,259

P-Value 0,698

resstudm

Grafico 5. Graficos de probabilidade normal:Resıduos Studentizados e Studentizados Modificados

Denise A. Botter MAE0317 24 de abril de 2014 19 / 33

Page 20: MAE0317 - Planejamento e Pesquisa I

Medidas para remediar a violacao das suposicoes

1. Normalidade e Heterocedasticidade: Mınimos quadradosponderados

2. Nao normalidade e Heterocedasticidade: Transformacao da variavelresposta ou Procurar outro modelo

3. Nao normalidade e Homocedasticidade: Testes nao parametricos

4. Erros aleatorios nao independentes: Procurar outro modelo

5. Para o modelo de Anova com um fator fixo, a falta de normalidade so eimportante se for excessiva.

6. O efeito da desigualdade entre as variancias sobre o teste F deigualdade de medias pode ser minimizado utilizando-se amostras detamanhos iguais ou proximos.

Denise A. Botter MAE0317 24 de abril de 2014 20 / 33

Page 21: MAE0317 - Planejamento e Pesquisa I

Mınimos Quadrados Ponderados

Modelo: yij = µi + eij ,sendo eij ∼ N(0, σ2

i ), independentes, i = 1, . . . , r e j = 1, . . . , ni.

Como σ2i e desconhecido, consideramos sua estimativa amostral s2

i ,i = 1, . . . , r.

Consideramos tambem o seguinte peso para a j-esima observacao doi-esimo nıvel do fator, wij = 1/s2

i .

Queremos testar H0 : µ1 = . . . = µr = µ.

Construımos dois modelos, um Completo ou Irrestrito (r parametros,µ1, . . . , µr) e outro Reduzido sob H0 (1 parametro, µ)

Ajustamos os dois modelos, obtendo β = (X>WX)−1X>WY, sendo

Denise A. Botter MAE0317 24 de abril de 2014 21 / 33

Page 22: MAE0317 - Planejamento e Pesquisa I

Mınimos Quadrados Ponderados

Yn×1

=

y11y12

...y1n1y21y22

...y2n2

...yr1yr2

...yrnr

o vetor de observacoes,

Denise A. Botter MAE0317 24 de abril de 2014 22 / 33

Page 23: MAE0317 - Planejamento e Pesquisa I

Mınimos Quadrados Ponderados

Xn×r

=

1 0 . . . 01 0 . . . 0...

.... . .

...1 0 . . . 00 1 . . . 00 1 . . . 0...

.... . .

...0 1 . . . 0...

.... . .

...0 0 . . . 10 0 . . . 1...

.... . .

...0 0 . . . 1

no modelo Completo,

Denise A. Botter MAE0317 24 de abril de 2014 23 / 33

Page 24: MAE0317 - Planejamento e Pesquisa I

Mınimos Quadrados Ponderados

Xn×1

=

11...11

no modelo Reduzido,

βr×1

=

µ1

µ2...µr

no modelo Completo, β

1×1= µ, no modelo Reduzido e

Denise A. Botter MAE0317 24 de abril de 2014 24 / 33

Page 25: MAE0317 - Planejamento e Pesquisa I

Mınimos Quadrados Ponderados

Wn×n

=

1/s2

1 0 . . . 0 00 1/s2

1 . . . 0 0...

.... . .

......

0 0 . . . 1/s2r 0

0 0 . . . 0 1/s2r

a matriz diagonal de pesos (para os dois modelos).

Denise A. Botter MAE0317 24 de abril de 2014 25 / 33

Page 26: MAE0317 - Planejamento e Pesquisa I

Mınimos Quadrados Ponderados

Das tabelas de ANOVA dos dois modelos de regressao, extraımos as somasde quadrados dos resıduos, SQRP (C) e SQRP (R), correspondentes aosmodelos Completo e Reduzido, respectivamente.

Finalmente, calculamos a estatıstica

F ∗P =SQRP (R)− SQRP (C)

r − 1/SQRP (C)

n− r,

que, sob H0, tem distribuicao F[r − 1, n− r], aproximadamente. Quandoos ni’s sao grandes a aproximacao e boa.

Exemplo. Componentes eletronicos

Temos: w1j = 1/1, 531 = 0, 653, w2j = 1/1, 570 = 0, 637,w3j = 1/6, 183 = 0, 162, w4j = 1/0, 667 = 1, 499,w5j = 1/0, 592 = 1, 689 e

Denise A. Botter MAE0317 24 de abril de 2014 26 / 33

Page 27: MAE0317 - Planejamento e Pesquisa I

Mınimos Quadrados Ponderados

F ∗P =359, 2− 35, 0

4/

35, 0

35= 81, 05,

o que nos leva a rejeitar a hipotese nula H0 : µ1 = . . . = µ5, ao nıvel de1% de significancia.

O diagnostico do modelo Completo e intervalos de confianca para µipodem ser construıdos com base em resultados apresentados no Capıtulo11 de Kutner et al, (2004).

Observacoes.1) No modelo de mınimos quadrados ponderados, µi = yi.2) Quando wij = 1/s2

i , SQRP (C) = n− r.3) O metodo de mınimos quadrados ponderados esta implementado emalguns pacotes computacionais.

Denise A. Botter MAE0317 24 de abril de 2014 27 / 33

Page 28: MAE0317 - Planejamento e Pesquisa I

Transformacoes para a Variavel Resposta

Dependendo da relacao funcional existente entre a media e a variancia davariavel resposta sob os diferentes tratamentos, podemos realizar umatransformacao na variavel resposta de forma a estabilizar a variancia (e,em muitos casos, obter distribuicao normal para a variavel transformada).As transformacoes que seguem foram obtidas por meio de consideracoesteoricas (ver, por exemplo, Siqueira, A. L., 1983, Dissertacao de Mestrado,IME/USP).

Algumas Transformacoes

Variancia (σ2i ) e proporcional a media (µi). A variancia amostral (s2

i )tende a ser proporcional a media amostral (yi.). Ocorre em geral quando avariavel resposta Y e uma contagem. Transformacao: Z =

√Y ou

Z =√Y +

√Y + 1.

Denise A. Botter MAE0317 24 de abril de 2014 28 / 33

Page 29: MAE0317 - Planejamento e Pesquisa I

Transformacoes para a Variavel Resposta

Desvio padrao (σi) e proporcional a media (µi). O desvio padraoamostral (si) tende a ser proporcional a media amostral (yi.).Transformacao: Z = log10Y ou Z = lnY .

Desvio padrao (σi) e proporcional ao quadrado da media (µ2i ). O

desvio padrao amostral (si) tende a ser proporcional ao quadrado damedia amostral (y2

i.). Transformacao: Z = 1/Y .

A variavel resposta e uma proporcao. Transformacao:Z = 2arcsen

√Y .

Como ilustracao, vamos considerar o seguinte exemplo.

Exemplo. Os dados abaixo representam medidas da resistencia de telhas,quando sujeitas a pressao de baixo para cima. Foram considerados noexperimento vaos de fixacao de 5 tamanhos diferentes no sentido docomprimento da telha.

Denise A. Botter MAE0317 24 de abril de 2014 29 / 33

Page 30: MAE0317 - Planejamento e Pesquisa I

Transformacoes para a Variavel Resposta

Vao (metros)1,080 1,690 2,300 2,910 3,520

yi. 268,40 199,87 131,00 98,27 82,13s2i 859,40 416,84 133,86 88,37 14,41si 29,32 20,42 11,57 9,40 3,80

Na Tabela 1, calculamos algumas estatısticas que relacionam a mediaamostral com a variancia ou o desvio padrao amostral.

Tabela 1. Estatısticas

is2iyi.

siyi.

siy2i.

1 3,20 0,11 0,0004072 2,09 0,10 0,0005113 1,02 0,09 0,0006744 0,90 0,10 0,0009735 0,18 0,05 0,000563

Denise A. Botter MAE0317 24 de abril de 2014 30 / 33

Page 31: MAE0317 - Planejamento e Pesquisa I

Transformacoes para a Variavel Resposta

Os resultados da Tabela 1 indicam que o desvio padrao parece serproporcional a media. Assim, adotamos a transformacao Z = lnY .Transformando os dados, obtemos as estatısticas da Tabela 2.

Tabela 2. Estatısticas para os dados transformados

i zi. s2zi

1 2,426 0,00252 2,299 0,00193 2,116 0,00154 1,991 0,00175 1,914 0,0004

Denise A. Botter MAE0317 24 de abril de 2014 31 / 33

Page 32: MAE0317 - Planejamento e Pesquisa I

Transformacoes para a Variavel Resposta

Observando as novas variancias amostrais, temos indicacao de que avariavel transformada parece ter variancias iguais nos 4 primeiros grupos evariancia menor no ultimo.

O quociente entre a maior e a menor variancias nos dados originais era59,64 enquanto que para os dados transformados este quociente e igual a6,25. Isto indica que a transformacao nos dados reduziu bastante asdiferencas entre as variancias.

Segundo Scheffe (1959) podemos analisar os dados transformados pormeio de um modelo de ANOVA para dados homocedasticos uma vez que oteste F e robusto para diferencas entre variancias da magnitude dasobservadas nos dados transformados.

Denise A. Botter MAE0317 24 de abril de 2014 32 / 33

Page 33: MAE0317 - Planejamento e Pesquisa I

Transformacoes para a Variavel Resposta

Observacoes.1) Conclusoes sao em geral obtidas somente para os dados transformados.Somente conclusoes dos testes de hipoteses valem para os dados naotransformados. Procedimentos de estimacao nao sao em geral validos paraos dados originais.2) Uma analise de diagnostico deve ser realizada para o modelo deANOVA com os dados transformados.3) Procedimento de Box e Cox pode ser utilizado na busca de umatransformacao estabilizadora da variancia do tipo Y λ.

Denise A. Botter MAE0317 24 de abril de 2014 33 / 33