Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf ·...

Post on 01-Dec-2018

225 views 0 download

Transcript of Inferência para várias populações normais análise de ...fmachado/MAE229/AULA9.pdf ·...

Inferência para várias populações normais –análise de variância (ANOVA)

Capítulo 15, Estatística Básica(Bussab&Morettin, 8a Edição)

9a AULA – 11/05/2015

MAE229 - Ano letivo 2015Lígia Henriques-Rodrigues

9a aula (11/05/2015) MAE229 1 / 24

Motivação

Ideia chave: Construir um teste para comparar k (k > 2) populaçõesnormais com a mesma variância.

Exemplos:

Para curar uma certa doença existem quatro tratamentos possíveis: A, B,C e D. Pretende-se saber se existem diferenças significativas nostratamentos no que diz respeito ao tempo necessário para eliminar adoença.

Comparar três lojas quanto ao volume médio de vendas.

. . ..

9a aula (11/05/2015) MAE229 2 / 24

Seja Y a v.a. de interesse de uma determinada população (indivíduos,animais, empresas....), e admita-se que os elementos da população podemser classificados em níveis de um fator.

Exemplo: Consideremos:Y – altura dos indivíduos (variável de interesse)P – população constituída por todos os indivíduos,fator: sexo (com dois níveis F e M) (i = 1,2).

Extraímos uma amostra de dimensão n1 da população P1 : pessoas do sexomasculino (y11, y12, . . . , y1n1).

Extraímos uma amostra de dimensão n2 da população P2 : pessoas do sexofeminino (y21, y22, . . . , y2n2),

e suporemos que as amostras recolhidas são independentes

9a aula (11/05/2015) MAE229 3 / 24

Seja:

E(Y ) = µ – a média global da v.a. Y para a população P (média das alturasde todos os indivíduos)

E(Y |P1) = µ1 – a média da v.a. Y para a subpopulação P1 (média dasalturas do homens)

E(Y |P2) = µ2 – a média da v.a. Y para subpopulação P2 (média das alturasdas mulheres)

Neste exemplo, a hipótese a testar é,

H0 : µ1 = µ2 = µ versus H1 : µ1 6= µ2

A questão é saber se o factor exerce alguma influência na variação dacaracterística em estudo.

9a aula (11/05/2015) MAE229 4 / 24

No caso mais geral, admitimos que temos k amostras independentes, de ksubpopulações (populações) P1,P2, . . . ,Pk , e onde k representa o númerode níveis do fator,

subpopulação P1 =⇒ amostra y11, y12, . . . , y1n1

subpopulação P2 =⇒ amostra y21, y22, . . . , y2n2

· · · · · · · · ·subpopulação Pk =⇒ amostra yk1, yk2, . . . , yknk

onde

P1 ∼ N(µ1, σ2)

P2 ∼ N(µ2, σ2)

· · · · · · · · ·Pk ∼ N(µk , σ

2)

9a aula (11/05/2015) MAE229 5 / 24

Sejam:

Yij – v.a.’s que representam as observações (i = 1, . . . , k e j = 1, . . . ,ni )ni – dimensão da subpopulação Pi (i = 1, . . . , k )k – número de níveis do fatorµi – média da subpopulação Pi (i = 1, . . . , k )µ – média global (de todas as subpopulações)

τi = µ− µi – o efeito do nível i (∑k

i=1 τi = 0)eij – v.a’s que representam o erro aleatório de cada observação e quesupomos independentes entre si (E(eijeim) = 0 e E(e1je2m) = 0), e comvariância σ2.

Modelo

Yij = µi + eij , i = 1, . . . , k j = 1, . . . ,ni

= µ+ τi + eij , i = 1, . . . , k j = 1, . . . ,ni

9a aula (11/05/2015) MAE229 6 / 24

Objetivo

Admitindo que temos um fator com k níveis, o objetivo é estimar as médiasde cada uma das subpopulações µi (i = 1, . . . , k ) e testar a hipótese

{H0 : µ1 = µ2 = . . . = µk = µH1 : µi 6= µj , para algum par (i , j)

ou {H0 : τ1 = τ2 = . . . = τk = 0H1 : τi 6= 0, para algum i

Nota: O modelo anterior é designado de modelo de efeitos (níveis) fixos umavez que as subpopulações, determinadas pelos níveis do fator, sãopré-determinadas.

9a aula (11/05/2015) MAE229 7 / 24

Exemplo: Para curar uma certa doença existem quatro tratamentospossíveis: A, B, C e D.

Pretende-se saber se existem diferenças significativas nos tratamentos noque diz respeito ao tempo necessário para eliminar a doença.

Temos apenas um factor, Tratamento, que se apresenta em quatro níveis, A,B, C e D.

Através da aplicação da análise de variância com um factor ou one-wayANOVA, podemos saber se os tratamentos produzem os mesmos resultadosno que diz respeito à característica em estudo.

9a aula (11/05/2015) MAE229 8 / 24

Pressupostos:

A aplicação da análise de variância pressupõe a verificação das seguintescondições:

As amostras devem ser aleatórias e independentes.

As amostras devem ser extraídas de populações normais.

As populações devem ter variâncias iguais σ21 = σ2

2 = . . . = σ2k , ou seja, o

modelo é homocedástico.

9a aula (11/05/2015) MAE229 9 / 24

Temos então duas situações possíveis:

H0 é verdadeiro: As diferenças observadas entre as médias amostrais sãodevidas a flutuações amostrais e portanto todas as amostras provêm depopulações com médias iguais. Como se supôs que todas as populações sãonormais e têm variâncias iguais, isto é o mesmo que extrair todas asamostras de uma única população.

H0 é falso: As diferenças observadas entre as médias amostrais sãodemasiado grandes para serem devidas unicamente a flutuações amostrais.As médias das populações não são iguais e as amostras recolhidas provêmde populações diferentes.

9a aula (11/05/2015) MAE229 10 / 24

Análise Variância - ANOVAA análise de variância vai estimar a variância por dois métodos diferentes, umsob a validade da hipótese nula e o outro não.

As duas estimativas obtidas são depois comparadas para tomarmos umadecisão: se os grupos tiverem todos a mesma média (isto é, se H0 éverdadeiro), as duas estimativas devem estar próximas uma da outra, casocontrário (isto é, se H1 é verdadeiro) devem diferir significativamente.

9a aula (11/05/2015) MAE229 11 / 24

Decomposição da soma de quadradosSeja

N =k∑

i=1

ni , y i =

∑nij=1 yij

ni, y =

∑ki=1∑ni

j=1 yij

N=

∑ki=1 niy i

N.

k∑i=1

ni∑j=1

(yij − y)2

︸ ︷︷ ︸SQTot

=k∑

i=1

ni(y i − y)2

︸ ︷︷ ︸SQEnt

+k∑

i=1

ni∑j=1

(yij − y i)2

︸ ︷︷ ︸SQDen

SQTot = SQEnt + SQDen

9a aula (11/05/2015) MAE229 12 / 24

• SQTot –> é a soma de quadrados total e mede a variação total nos dados;

• SQEnt –> é a soma de quadrados entre os níveis, ou grupos, do factor emede a variação entre grupos (populações); é por vezes designada porvariação explicada, pois ela é explicada pelo facto de as amostras poderemprovir de populações diferentes;

• SQDen –> é a soma de quadrados dentro dos níveis, ou grupos, do factor emede a variação dentro dos grupos (populações); é por vezes designada porvariação não explicada ou residual, pois é atribuída a flutuações dentro domesma população, portanto não pode ser explicada pelas possíveisdiferenças entre os grupos (populações).

9a aula (11/05/2015) MAE229 13 / 24

Estimativa entre da variância:Mostra-se que:

SQEntσ2 =

∑ki=1 ni(y i − y)2

σ2 ∼H0

χ2(k−1)

e que a estimativa da variância σ2 é dada por:

QMEnt =SQEntk − 1

.

Estimativa dentro da variância:Mostra-se que:

SQDenσ2 =

∑ki=1∑ni

j=1(yij − y i)2

σ2 ∼H0

χ2(N−k)

e que a estimativa da variância σ2 é dada por:

QMDen =SQDenN − k

.

9a aula (11/05/2015) MAE229 14 / 24

Estatística de TesteA estimativa dentro da variância, QMDen , não é afectada pela veracidade oufalsidade de H0.

Ao contrário, a estimativa entre da variância, QMEnt, já o é, sendoaproximadamente igual a QMDen quando H0 é verdadeira e maior do queesta se H0 é falsa.

F =QMEntQMDen

∼H0

F(k−1,N−k)

• Se H0 é verdadeira, σ2 pode ser estimada pelos dois processos e como asduas estimativas serão aproximadamente iguais, a razão F será próxima de 1.

• Se H0 for falsa, as diferenças nas médias populacionais vão provocar maiorvariabilidade nas médias amostrais e portanto QMEnt será também grandecomparativamente com QMDen. A razão F tomará um valor maior que 1.

Região CríticaRC=(c,+∞), onde P(F(k−1,N−k) > c) = α

9a aula (11/05/2015) MAE229 15 / 24

Tabela de Análise de Variância

Fonte da graus de SQ QM FVariação (F.V.) liberdade (g.l.)

Entre k − 1 SQEnt QMEnt=SQEntk − 1

QMEntQMDen

grupos

Dentro N − k SQDen QMDen=SQDenN − k

dos gruposTotal N − 1 SQTot QMTot

9a aula (11/05/2015) MAE229 16 / 24

Fórmulas para cálculo das somas de quadrados

• SQTot =∑k

i=1∑ni

j=1 y2ij − Ny2;

• SQDen =∑k

i=1(ni − 1)S2i =

∑ki=1

(∑nij=1 y2

ij − niy2i

)• SQEnt =

∑ki=1 ni(y i − y)2 =

∑ki=1 niy

2i − Ny2

Dados balanceadosSe n1 = n2 = . . . = nk = n então N = nk .

9a aula (11/05/2015) MAE229 17 / 24

Exemplo (pág. 431): Uma escola analisa seu curso por meio de umquestionário com 50 questões sobre diversos aspectos de interesse. Cadapergunta tem uma resposta, numa escala de 1 a 5 (a v.a. Y ), em que a maiornota significa melhor desempenho. Na última avaliação, usou-se umaamostra de alunos de cada período, e os resultados estão na tabela abaixo.Existem as indicações estatísticas para dizer que o desempenho no cursotem uma influencia de período de aplicação do curso?

PeríodoManhã Tarde Noite

4,2 2,7 4,64,0 2,4 3,93,1 2,4 3,82,7 2,2 3,72,3 1,9 3,63,3 1,8 3,54,1 3,4

2,8

9a aula (11/05/2015) MAE229 18 / 24

Fator: período com 3 níveis

i = 1 – manhã (n1 = 7)i = 2 – tarde (n2 = 6)i = 3 – noite (n2 = 8)

N = 7 + 6 + 8 = 21

Hipóteses: H0 : µ1 = µ2 = µ3 versus H1 : µi 6= µj , para algum par (i , j)

Estatística de Teste: F =QMEntQMDen

∼H0

F(2,18)

TABELA ANOVA

9a aula (11/05/2015) MAE229 19 / 24

Teste de HomocedasticidadeUma das suposições para a aplicação da técnica da ANOVA é que avariância é igual em todos os níveis, mas nem sempre é possível garantir queeste pressuposto é válido. Este teste tem como pressuposto que aspopulações tenham distribuição normal. Além disso, só é aplicável quando asdiferentes amostras envolvidas têm dimensões ni ≥ 4 (∀i).

Teste de Bartlett• Hipótese Nula: H0 : σ2

1 = σ22 = . . . = σ2

k

• Calcular a variância comum

S2 =

∑ki=1(ni − 1)S2

iN − k

=SQDenN − k

= QMDEn

• Calcular

M = (N − k) ln S2 −k∑

i=1

(ni − 1) ln S2i

9a aula (11/05/2015) MAE229 20 / 24

• Calcular

C = 1 +1

3(k − 1)

[k∑

i=1

( 1ni − 1

)−( 1

N − k

)]

• Estatística de Teste (distribuição aproximada válida para amostras grandes):

MC∼H0

χ2(k−1)

• Região Crítica: RC=(c,+∞), com α = P(χ2(k−1) > c).

9a aula (11/05/2015) MAE229 21 / 24

Exemplo: Suponha que é director de marketing de uma empresa quepretende relançar um produto no mercado. Você estudou três campanhas demarketing diferentes, cada uma deles combina de modo diferente factorescomo o preço do produto, a apresentação do produto, promoçõesassociadas, etc. Qualquer uma destas campanhas é levada a cabo no pontode venda, não havendo qualquer publicidade nos meios de comunicação.Para saber se há diferença entre as três campanhas relativamente à suaeficácia, cada uma delas é feita num conjunto de lojas seleccionadasaleatoriamente, durante um período de duração limitada. Note que as lojassão seleccionadas de modo a que as três amostras sejam aleatórias eindependentes entre si. As vendas (em unidades monetárias) registradasdurante este período constam da tabela seguinte.

9a aula (11/05/2015) MAE229 22 / 24

Campanha 1 Campanha 2 Campanha 38 10 76 8 55 12 86 7 67 9 7

10 511

Total 32 67 38

Seja Yi a v.a. que representa o volume de vendas da loja sujeita à campanhai (i = 1,2,3).

Estatísticasy1 = 6.4; y2 = 9.5714; y3 = 6.3333; y = 7.611SQEnt = 44.04; QMEnt = 22.015; SQDen = 30.2476; QMDen = 2.0165

9a aula (11/05/2015) MAE229 23 / 24

• H0 : σ21 = σ2

2 = σ23 versus H1 : σ2

i 6= σ2j , para algum par (i , j)

• QMDen = 22.015

• M = 1.065

• C = 1.09167

• MC∼H0

χ2(2)

• RC = (9.21,+∞)

• M/C = 0.976 /∈ RC

Ao nível de significância de 0.01, não se pode rejeitar a hipótese de que astrês variáveis populacionais tenham iguais variâncias.

TABELA ANOVA

9a aula (11/05/2015) MAE229 24 / 24