Teste de hipóteses para médias e proporções...

Post on 07-Aug-2020

3 views 0 download

Transcript of Teste de hipóteses para médias e proporções...

Teste de hipóteses para médias e proporções amostrais

Prof. Marcos Pó

Métodos Quantitativos para Ciências Sociais

Uma sanitarista desconfia que, em geral, os recém-nascidos de determinada região podem estar abaixo do peso esperado. Para verificar isso ela obtém os dados de 36 recém-nascidos e verifica uma média de 3,150kg e um desvio-padrão de 0,600kg. A média de peso esperada é de 3,300kg de acordo com a OMS.

Verifique se a amostra permite afirmarmos que o peso médio dos recém-nascidos nessa é menor que o padrão da OMS, com probabilidade de 5% da amostra ter obtido um resultado que não reflete o parâmetro real da população.

2

Exemplo: dados amostrais x parâmetros da população

3

É uma metodologia que define regras de decisão para julgar se as evidências estatísticas amostrais permitem suportar – ou refutar – uma hipótese quantitativa sobre um parâmetro populacional, com base nas probabilidades de cometer determinados tipos de erro.

Temos dois tipos de hipóteses:

► H0 - Hipótese nula: sempre possui uma afirmação de igualdade. É nula no sentido de negar o fenômeno investigado. Assim, os valores amostrais verificados seriam resultado apenas de um acaso amostral.

► HA - Hipótese alternativa: é o complemento da hipótese nula e significa que os valores encontrados na amostra trazem evidências fortes da existência do fenômeno. Costuma ser a hipótese de trabalho, que só será aceita se a evidência estatística for forte.

4

Teste estatístico de hipótese

Testes possíveis

Diferença entre médias ou proporções

Diferença entre desvios-padrão (será tratado juntamente com ANOVA)

5

Uma cooperativa quer usar o vergalhão tipo A em suas obras. Há um lote à venda, mas não é possível identificar se é do tipo A ou do tipo B, cujos parâmetros estão na tabela. Para a tomada de decisão será disponibilizada a média do teste de resistência à tração de uma amostra aleatória de 25 peças.

(a). Com a regra de decisão “se a média do teste for superior à 1500kg considero que são do tipo A e compro; caso contrário devem ser do B e não compro”, que erros podemos cometer?

(b). Como poderíamos estabelecer uma regra de decisão para que o risco de comprar peças comuns seja inferior a 5%?

6

Erros de decisão

Tipo Resistência à tração Desvio-padrão

A 1.600 kg 300 kg

B 1.400 kg 400 kg

Erros de decisão em um teste de hipótese

Contexto da decisão: temos uma hipótese, ou seja, fazemos uma afirmação sobre um parâmetro da realidade .

Realidade

Rejeitar hipótese nula

Não rejeitar hipótese nula

Julg

ame

nto

da

amo

stra

Rejeitar hipótese nula

Erro Tipo I (α)

Rejeitar uma hipótese verdadeira

Não rejeitar hipótese nula

Erro Tipo II (β) Aceitar uma hipótese

falsa

7

Erros de julgamento: α (alfa) e β (beta)

A probabilidade de incorrermos no Erro Tipo I (α) é chamada de nível de significância do teste. O resultado da amostra é tanto mais significante quanto menor for o α. Normalmente é fixado em:

É difícil determinar a probabilidade de incorrer no Erro Tipo II (β), pois normalmente não temos muitos elementos sobre a hipótese alternativa de um problema.

Ao se diminuir a probabilidade de α , aumenta-se a de β. Para escolher que risco queremos correr é necessário analisar o contexto da pesquisa e seus possíveis impactos.

8

10%

5% * Evento raro

1% ** Evento raríssimo

0,1% *** Evento raríssimo

Exemplo de raridade

9

Como sabemos que determinado card de Pokémon é raro para fazer uma boa troca?

Regra de decisão: Região Crítica

Testar uma hipótese significa verificar se a nossa evidência amostral é forte o suficiente para podermos rejeitar a Hipótese Nula. Para isso estabelecemos um intervalo onde consideraremos ser adequado fazer essa rejeição, a região crítica, com base no nosso alfa ().

► Se a estatística do teste estiver na região crítica consideramos haver evidência significativa de H0 ser falsa, portanto podemos aceitar HA.

► Caso não esteja na região crítica dizemos que não há evidência amostral significativa para rejeitar H0.

10

Regiões críticas de teste de médias e proporções

11 Prof. Marcos Vinicius Pó

H0 HA Tipo de teste Ilustração

μ=100

p=0,50

μ≠100

p≠0,50 Bicaudal

μ≤100

p≤0,50

μ>100

p>0,50 Unicaudal

μ≥100

p≥0,50

μ<100

p<0,50 Unicaudal

Imag

ens:

Wik

iped

ia C

om

mo

ns

R.C.

R.C.

R.C.

R.C.

Probabilidade de significância (p-valor)

Alternativamente a se definir arbitrariamente um valor para α, podemos determinar o p-valor do teste.

Nesse caso, em vez de se calcular a região crítica para aceitar ou rejeitar a hipótese, calcula-se a probabilidade de ocorrer ao acaso tal valor para 𝑥 ou 𝑝 .

A seguir julga-se se isso consiste em uma evidência suficiente para rejeitar a hipótese nula, ou seja, um evento raro ou dizemos que H0 é rejeitada a um determinado nível de p-valor.

12

Roteiro para o teste de hipótese

1. Definir as hipóteses.

► Nula (H0)

► Alternativa (HA)

2. Especificar as evidências estatísticas.

► Estimadores e propriedades da estatística (distribuição, média, desvio-padrão...)

3. Fixar a probabilidade de cometer o Erro Tipo I (α) e especificar a regra de decisão.

► Referência para aceitar ou rejeitar a hipótese (região crítica)

4. Apreciar a evidência.

5. Decidir e interpretar o resultado.

13

14

Exemplo: proporção x população (baseado em fatos reais)

2. Desconfiada dos resultados do sorteio de grupos realizado por seu professor de Métodos Quantitativos, a aluna R. resolveu testar o dado utilizado fazendo 600 lançamentos, onde o lado três foi sorteado 123 vezes.

(a) Qual o p-valor do teste?

(b) Podemos afirmar, ao nível de 5%, que o dado é viciado em relação ao lado três?

(c) Podemos afirmar que o dado é viciado ao nível de 1%?

15

Os julgamentos no teste de hipóteses de médias e

proporções podem se dar em situações distintas, de acordo

com as informações que possuímos.

Pressuposto: as variâncias das amostras ou populações são iguais (homocedásticas)

16

Situações para julgamentos de médias e proporções

CONTRA UMA POPULAÇÃO

Temos as estatísticas da amostra e sabemos os

parâmetros da população

CONTRA OUTRA AMOSTRA

Conhecemos apenas as estatísticas amostrais

AMOSTRAS INDEPENDENTES

Não há relação entre as amostras selecionadas

AMOSTRAS DEPENDENTES (PAREADAS)

As amostras são relacionadas

• Populações: normais e homocedásticas (σX = σY = σ)

• Lembrar que:

• Podemos definir um intervalo de confiança da diferença da média das amostras X e Y, com n e m elementos respectivamente.

No caso da distribuição t, o gl será n+m-2 (se soubermos o σ da população) ou o tamanho da menor amostra menos 1 (se só conhecermos os s das amostras).

17

Considerações para amostras independentes

mnNYXE YX

22

;0~)(

mn

YXZ

YX 22

)()()( YEXEYXE

)()()( YEXEYXE

)()()( YVarXVarYXVar

IC do teste da diferença de duas médias

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20- +

0

(0,1)N

z -z

2

2

1

0)( YXE

)()()( YVarXVarYXVar mn

YXz

s11

.

19

Exemplo: diferença entre amostras

3. Uma rede de lojas testou duas estratégias de venda em lojas de mesmo porte e perfil do público. Para compará-las utilizou-se amostras de 50 clientes, obtendo-se as médias de gasto de R$62 e R$71. Sabendo-se que o desvio-padrão em ambos os casos é de R$20, é possível afirmar que as estratégias obtiveram resultados diferentes? Dê um intervalo de confiança para a diferença.

20

Cena de mercado. Século 15 www.wga.hu

Amostras dependentes (pareadas)

Nesse caso, a quantidade de elementos de X e Y são iguais.

As amostras podem ser entendidas como pares (X1-Y1,..., Xn- Yn) e, assim, podemos definir a variável D = X–Y, resultando na amostra D1,...,Dn.

Assim reduzimos o problema a uma única população e amostra, com as seguintes características:

21

YXYXn

Dn

i ii 1

1

n

iD DDi

nS

1

22

1

1

Exemplo: amostras pareadas

4. Uma lanchonete quer saber se a introdução de uma pausa afeta a produtividade dos seus funcionários. Para isso verificou o total de lanches produzidos por cada um de seus 6 chapeiros ao longo de dias aleatórios sem e com o intervalo. Os resultados indicam melhora na produtividade?

22

Chapeiro Sem

intervalo Com

intervalo Diferença

(Sem-Com)

1 23 28 -5

2 35 38 -3

3 29 29 0

4 33 37 -4

5 43 42 1

6 32 30 2

média 32,5 34 -1,5 dpad 6,63 5,76 2,88

Teste de hipótese para proporção

Idêntico ao teste de médias, considerando que a estatística 𝑝 tem distribuição aproximadamente normal.

n

pppNp

)1(,~ˆ

23

m

pp

n

ppNppE

)1()1(;0~)ˆˆ( 2211

21

A distribuição das proporções amostrais tende a uma normal, com valor esperado p e variância igual a p(1-p)/n

A diferença de duas proporções amostrais tende a uma distribuição normal, com valor esperado 0 (zero) e variância igual a somas das variâncias das duas proporções amostrais

O valor observado de Z é a diferença das duas proporções amostrais sobre o desvio-padrão da distribuição de diferenças (raiz da soma das duas variâncias amostrais)

𝒁𝒐𝒃𝒔 = 𝒑𝟏 − 𝒑𝟐

𝒑𝟏(𝟏 − 𝒑𝟏)𝒏𝟏

+𝒑𝟐(𝟏 − 𝒑𝟐)𝒏𝟐