Aula 5. Intervalos de Confiança - Universidade de Aveirosweet.ua.pt/gladys/ME/Acetatos/Aula...

16
1 Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán Aula 5. Intervalos de Confiança 2 Duas Fases da Estatística Estatística Descritiva: descrever e estudar uma amostra Estatística Indutiva (inferencial): a partir de uma amostra inferir sobre as características de uma população Fonte Diagrama: Projecto ALEA – Noçoes de Estatística http://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html

Transcript of Aula 5. Intervalos de Confiança - Universidade de Aveirosweet.ua.pt/gladys/ME/Acetatos/Aula...

1

Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán

Aula 5. Intervalos de Confiança

2

Duas Fases da Estatística� Estatística Descritiva: descrever e estudar uma amostra

� Estatística Indutiva (inferencial): a partir de umaamostra inferir sobre as características de umapopulação

Fonte Diagrama: Projecto ALEA – Noçoes de Estatísticahttp://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html

2

3

População vs. Amostra

População: colecção de unidades individuais (pessoas ou resultados experimentais) com uma ou mais características comuns, que se

pretendem estudar.

Amostra: Conjunto de dados ou observações, recolhidos a partir de um subconjunto da população, que se estuda com o objectivo de tirar conclusões para a população de

onde foi recolhida

Podemos inferir (deduzir) determinadas características de uma população se extraímos uma amostra representativa desta

amostragem

Imagens extraídas da referência 2

4

Amostragem

� Amostragem Aleatória Simples: cada elemento da amostra é retirado

aleatoriamente de toda a população (com ou sem reposição)

⇒⇒⇒⇒ cada possível amostra tem a mesma probabilidade de ser recolhida

� Amostragem Estratificada: subdividir a população em, pelo menos,

dois subgrupos distintos que partilham alguma característica e, em

seguida, recolher uma amostra de cada um dos subgrupos (estratos)

� Amostragem por clusters: dividir a população em secções (clusters);

seleccionar aleatoriamente alguns desses clusters; escolher todos os

membros dos clusters seleccionados.

Processo pelo qual se extraem dados de uma população

Vamos usar apenas este tipoExistem vários tipos de amostragem:

3

6

Amostra Aleatória

Note que usamos letras maiúsculas, pois estamos a definir variáveis

aleatórias e medidas em função dessas variáveis

Note que usamos letras minúsculas pois estamos a definir concretizações (observações) de variáveis aleatórias

acetato adaptado de referencia 1

7

� Parâmetro – Medida usada para descrever a distribuição da população� a média µ e o desvio padrão σ2 são parâmetros de uma distribuição Normal - N(µ,σ2)

� a probabilidade de sucesso p é um parâmetro da distribuição Binomial - B(n,p)

� Estatística – Função de uma amostra aleatória que não depende de parâmetros desconhecidos � Média amostral:

� Variância amostral:

� Amplitude da amostra:

Parâmetro vs. Estatística

2

1

2 )(1 ∑ =−= n

i i XXnS

∑ == n

i iXnX1

1

nnn XXR :1: −=

4

8

Parâmetro vs. Estatística

Proporção dos inquiridos de raça branca

numa população e numa amostra

ππππ ≈≈≈≈ p

exemplo extraído da referência 2

9

Estimação de ParâmetrosPopulação Amostra

Distribuição da População

Parâmetros

Distribuição Amostral

Estatísticas(valor fixo)

estimar

(função da amostra)

pontual (estatísticas)

por intervalo (intervalos de confiança)Estimação

OBS: estatística: é a v.a. que estima (pontualmente) um parâmetro (populacional)as vezes é chamada simplesmente de estimador

estimativa: é o valor do estimador obtido para uma amostra específica

acetato adaptado de referencia 3

5

13

Intervalo de Confiança

Um intervalo de confiança para um parâmetro θθθθ, a um grau de confiança 1-αααα,

é um intervalo aleatório (Linf, Lsup) tal que:

P(Linf < θθθθ < Lsup) = 1-αααα , αααα ∈∈∈∈ (0,1)

onde αααα deve ser um valor muito reduzido por forma a temos confianças elevadas

Valores usuais para o grau de confiança: 95%, 99% e 90%

14

Intervalo de Confiança (IC)

I. IC para a média µ com variância conhecida

� Caso 1: população Normal

� Caso 2: população qualquer (n>>30) aproximada pela Normal

II. IC para a média µ com variância desconhecida

� Caso 1: população Normal

� Caso 2: população qualquer (n>>30) aproximada pela Normal

III. IC para a diferença de médias de duas populações Normais

� Caso 1: duas amostras independentes, variâncias conhecidas

� Caso 2: duas amostras independentes, variâncias desconhecidas

� Caso 3: amostras emparelhadas, variâncias desconhecidas

IV. IC para uma proporção

6

15

IC para µ com variância conhecidaCaso 1: População Normal

~ ?X

~ ?X

n

µσ−

(0,1)N (Normal Padrão)

( ) 1P z Z z α− < < = −

( ) 1X

P z z

n

µ ασ−− < < = −

( ) 1P z X zn n

σ σµ α− < − < = −

( ) 1P X z X zn n

σ σµ α− < < + = −

2~ ( , )X N µ σ µ desconhecido, mas σ2 conhecido2

~ ( , )X Nn

σµ

IC para µ a grau de confiança 1-α

+−= −−−n

zXn

zXICσσµ ααα 2121)1( ,)(

-∞ +∞0

(0,1)N

2

α2

α

z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2

Zz-z

1 α−

acetato adaptado de referencia 3

centrando e reduzindo:

Linf Lsup

16

Interpretação do IC para µPara uma amostra aleatória de tamanho 50 seguindo uma distribuição

Normal com média µ = 10 e variância σ2 = 4 ,

determinamos o IC para µ com 95% de grau confiança:

2 2( 1,96 1,96 ) 95%

50 50P X Xµ− < < + =

~ (10,4)X N→

( 0,5544 0,5544) 95%P X Xµ− < < + = ( )5544.0,5544.0)(%95 +−= XXIC µ

Interpretação: 95% dos possíveis ICsobtidos a partir de uma amostra de tamanho 50, conterão de facto o verdadeiro valor da média µ=10

µ=10

7

17

IC para µ com variância conhecidaCaso 1: População Normal

Uma v.a. qualquer tem uma distribuição Normal com média µ desconhecida e variância σ2 = 16. Retira-se uma amostra de 25 valores e calcula-se a média amostral. Construa um IC de 95% para µ supondo que 12,7.X =

(11,132 14,268) 0,95P µ< < =

+−= −−−n

zXn

zXICσσµ ααα 2121)1( ,)(

+−=n

zXn

zXICσσµ 9750.09750.0%95 ,)(

+−=25

496.17,12,

25

496,17,12

( )568,17,12 ,568,17,12 +−=

( )268.14 ,132.11)(%95 =µIC

Exemplo:

2,5%

z0,9750=1,96

2,5%

012.7

95%

Java Applet em:

http://psych.colorado.edu/~mcclella/java/normal/normz.html

18

Determinando o Quantil de Ordem 1-α/2Distribuição Normal Padronizada

Tabela 3.a. Normal Distribution Para grau de confiança (1-α)x100 = 95%⇒ nível de significância αααα=0.05

⇒ φ(z) = P(Z < z) = 1 - α/2 ⇔ z = z 1 - α/2

quantil de ordem 1-α/2

φ(z) = P(Z < z) = 1- (0.05/ 2) = 0.975

buscar valor de z na tabela:

φφφφ(z) = 0.9750 ⇔ z = 1.96

2

α2

α

2.5899%

1.9695%

1.6590%

Valor zGrau de Confiança

90% grau de confiança – existem 10 possibilidades de 100 que o IC não contenha a média populacional95% grau de confiança – existem 5 possibilidades de 100 que o IC não contenha a média populacional99% grau de confiança – existe 1 possibilidade de 100 que o IC não contenha a média populacional

8

19

Como poderia obter intervalos de confiança mais estreitos,ou seja, com limites mais próximos a média verdadeira?

Diminuindo o grau de confiança

IC & Grau de Confiança

Diminuindo o grau de confiança de 99% a 95%, aumentamos o risco de estar errados: de 1% de risco passamos a 5% de risco, ou seja temos mais

possibilidades (5/100 em vez de 1/100) de que o IC não contenha a média populacional. Ao aumentar o risco, o intervalo deve ser mais preciso

figura extraída da referência 2

20

IC & Dimensão da Amostra

Como poderia obter intervalos de confiança mais estreitos,ou seja, com limites mais próximos a média verdadeira?

Aumentando a dimensão da amostra

Tabela extraída da referência 2

9

21

-∞ +∞0

(0,1)N

-∞ +∞0-∞ +∞0

(0,1)N

1 α−

z-z

2

α2

α

z1 - α/2quantil de ordem 1-α/2

z-z

2

α2

α2

α2

α

z1 - α/2quantil de ordem 1-α/2 z1 - α/2quantil de ordem 1-α/2

IC para µ com variância conhecidaCaso 2: População Genérica aproximada pela Normal

IC para µ a grau de confiança 1-α

+−≈ −−−n

zXn

zXICσσµ ααα 21211 ,)(

Se uma distribuição qualquer tiver média µµµµ (desconhecida) e variância σσσσ2 (conhecida) e se forem validas as condições do TLC (n>>30) podemos obter um IC aproximado para a média µµµµ

22

2º caso

A expressão é chamada

erro padrão (standard error)

IC para µ com variância conhecidaResumo

IC para µµµµ a grau de confiança 1-αααα

nzXIC

σµ αα 21)( −±=

quanto maior n⇒ menor o erro padrão⇒ IC mais preciso

quanto maior z⇒ IC menos preciso

Se aumentarmos o grau de confiança⇒ a precisão diminui porque aumenta o valor z

se 90% ⇒ z = 1.65se 95% ⇒ z = 1.96se 99% ⇒ z = 2.58

µµµµ desconhecido, mas σσσσ2 conhecido

nzXIC

σµ αα 21)( −±≈

nzX

σ±

1º caso

n

σ

10

23

IC para µ com variância desconhecidaSe o valor de σ2 é desconhecido ⇒ substituir por uma estimativa

∑=

−==n

ii XX

nS

1

2)(1σ⌢ ∑

=

−−

==n

iic XX

nS

1

2)(1

1σ⌢

Estimadores pontuais para o desvio padrão σ :

desvio padrão amostral não-corrigido desvio padrão amostral corrigido

Se σσσσ2 desconhecida podemos distinguir dois casos:

⇒−=⇔ −1~),(~ 2

n

c

tnS

XTNX

µσµ

Caso1. população Normal ⇒⇒⇒⇒ usar distr.t de Student

Caso2. q.q. distribuição aproximada pela Normal, amostras grandes

⇒⇒⇒⇒ usar distribuição Normal padronizada

⇒−=⇔>> )1,0(30 com q.q. ~N

nS

XZnX

ac

µ

+−= −−−−−n

StX

n

StXIC c

nc

n 1211211 ,,,)( ααα µ

+−≈ −−−n

SzX

n

SzXIC cc

21211 ,)( ααα µ

24

-∞ +∞0

24t

t-t

2,5%2,5%

Distribuição t de Student com24 graus de liberdade

95%

IC para µ com variância desconhecidaCaso 1: População Normal

Uma v.a. qualquer tem uma distribuição Normal com média µ e variância σ2desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e

variância amostral . Construa um IC de 95% para µ supondo que e S2 = 16

?t0,9750, 24 = 2,06

+−= −−−−−n

StX

n

StXIC nn 1,21121)1( ,,)( ααα µ

+−=n

StX

n

StXIC 24,9750.024,9750.0%95 ,)(µ

+−=25

406,27,12 ,

25

406,27,12

( )648,17,12 ,648,17,12 +−=

( )648.13 ,052.11)(%95 =µIC

12,7X =

Exemplo:

11

25

Determinando t1-αααα/2, n-1 - quantil de ordem 1-αααα/2 de

uma distribuição t-Student com n-1 graus de liberdade

Tabela 8. Student s t-Distribution Por definição de quantil de ordem 1-αααα/2:

z = z 1 - α/2 ⇔ F(z) = P(Z < z) =1 - α/2Para grau de confiança 95% ⇒⇒⇒⇒ nível de significância αααα=0.05

F(z) = P(Z < z) = 1- (0.05/ 2) = 0.975 ⇒ F(z) = 0.9750 Para n=25 ⇒ 24 graus de liberdade

Determinar t0.9750, 24 usando Tabela 8:

t0.9750, 24 = 2.06

26

IC para µ com variância desconhecidaCaso 1: População Normal

Uma amostra aleatória de 20 cigarros foi analisada para estimar a quantidade de nicotina por cigarro, observando-se a média de 1,2 mg e variância amostral corrigida de 0.04. Pressupondo que as observações têm distribuição Normal, determine um IC para o valor médio da quantidade de nicotina por cigarro, grau de confiança de 99%

Usando esta amostra determinamos um IC aproximado para µµµµ a 99%:

exercício 5, capítulo 4

+−= −−−−−n

StX

n

StXIC c

nc

n 1,211,21)1( ,)( ααα µ

+−=n

StX

n

StXIC CC

19,995.019,995.0%99 ,)(µ

( )044721,086,22,1 ,044721,086,22,1 ×+×−= ( )3279.1 ,0721.1)(%99 =µIC

Para grau de confiança 99%:

(1-α) x 100% = 99% ⇒ (1-α) =0.99 ⇒ αααα=0.01Por definição de quantil de ordem 1-αααα/2: F(z) = P(Z < z) = 1- (0.01/ 2) = 0,995 ⇒ F(z) = 0.995

Para n=20 ⇒ 19 graus de liberdade

Determinar t0.995, 19 usando Tabela 8

+−=

20

04,086,22,1 ,

20

04,086,22,1)(%99 µIC

t0.995, 19 = 2.86

12

27

IC para µ com variância desconhecidaExemplo: População qualquer, amostra grande

porto-riquenhos

mexicanos

cubanos

Origem

$8 647$12 5875908

$9 414$13 3425729

$3 069$16 3683895

Desvio Padrão

Amostral

Rendimento Médio

Nºpessoasamostra

Ingressos dos emigrantes hispânicos em EU segundo censo de 1980

IC para µ a grau de confiança 95%

+−≈n

SX

n

SXIC 96.1,96.1)(%95 µ

� cubanos:

� mexicanos:

� porto-riq.:

17.493985

3069padrão erro ==

41.1245729

9414padrão erro ==

5.1125908

8647padrão erro ==

17.4996.116368)(%95 ×±≈µIC

IC ≈≈≈≈ ( 16272, 16464 )

41.12496.113342)(%95 ×±≈µIC

IC ≈≈≈≈( 13098, 13586 )

5.11296.112587)(%95 ×±≈µIC

IC ≈≈≈≈ ( 12367, 12807 )

28

IC para µ com variância desconhecidaExemplo: População qualquer, amostra grande

Exemplo adaptado de referência 2

13

29

Inferência entre parâmetrosde duas populações

P1 P2

Mesmo não se conhecendo as médias µ1 e µ2, seria possível verificar se elas são iguais a partir de seus valores amostrais?

Se µ1 e µ2 são iguais, então µ1 - µ2 = 0.

acetato adaptado de referencia 3

n

X

m

Y

XXE µ=)( YYE µ=)(

Podemos a partir da diferença das médias amostrais inferir o valor da diferença das médias de duas populações

YX −

30

Intervalo de Confiança para µ1 - µ2Duas populações Normais. Amostras independentes

Sejam X1,…, Xn e Y1, …, Ym duas amostras aleatórias constituídas por observações independentes e provenientes de duas populações Normais

N(µX, σX2) e N(µY, σY

2), respectivamente

Caso 1: variâncias conhecidas

Caso 2: variâncias desconhecidas mas iguais

IC para µ1−µ2 a grau de confiança 1-α

14

31

Intervalo de Confiança para µ1 - µ2Populações Normais. Amostras emparelhadas

Sejam X1,…, Xn e Y1, …, Yn duas amostras provenientes de populações Normais

Amostras emparelhadas: se pares de observações (Xi, Yi) sãodependentes sendo todos os restantes pares (Xi, Yj), i≠j independentes

Consideram-se as diferenças:

� µD= µ

X- µ

Y– diferença das médias populacionais

� σD– desvio padrão das diferenças - desconhecido

mas pode ser estimado através das diferenças D1, …, Dn

⇒ D1, D2, ...Dn – a.a. com população Normal e variância desconhecida

12 ~),(~ −

−=⇔ n

c

DD t

nS

DTND

D

D

µσµ

+−= −−−−−

n

StD

n

StDIC DD C

nc

nD 1211211 ,,,)( ααα µ

IC para µµµµD= µµµµX-µµµµY a grau de confiança 1-αααα

ScD– desvio padrão amostral

corrigido das diferenças

),(~)( 2DDiii NYXD σµ−=

32

-∞ +∞0

(0,1)N

2

α2

α

z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2

z-z

1 α−

-∞ +∞0

(0,1)N

-∞ +∞0-∞ +∞0

(0,1)N

2

α2

α

z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2

z-z

1 α−

2

α2

α2

α2

α2

α

z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2

z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2

z-z

1 α−

z-z

1 α−1 α−

Intervalo de Confiança para Proporção

n

Xp =ˆ

(n,p)X Binomial~

npp

pnX

npp

pp

)1()1(

ˆ

−=

−−

Se p- desconhecido, um estimador pontual para p é a proporção amostral:

(se n é grande, pelo TLC)

, Yi ~ Bernoulli sendo p = P(Xi = 1), a probabilidade de se seleccionar um bola vermelha

∑=

=n

iiYX

1

)n

pppNp

a

)1(,(ˆ ~

Considere que uma urna contêm bolas vermelhas e azúis e que n bolas são escolhidas ao acaso (com reposição), definindo-se

X como o número de bolas vermelhas entre as n seleccionadas

centrando e reduzindo:

Z)1 ,0(~N

a

( ) 1P z Z z α− < < = −

I.C. para Z com grau de confiança 1-α

α−=−+−− 1))ˆ1(ˆˆ,)ˆ1(ˆˆ( nppzpnppzpP

15

33

Intervalo de Confiança para Proporção

−+−−≈ −−− n

ppzp

n

ppzppIC

)ˆ1(ˆˆ,

)ˆ1(ˆˆ)( 2121)1( ααα

n

Xp =ˆSeja a proporção de indivíduos com uma certa característica de

interesse numa amostra aleatória de dimensão n, e p a proporção de

indivíduos com essa característica na população.

Um intervalo de confiança aproximado para p, a um grau de confiança 1-αααα, é dado por:

34

z0,9750=1,96

IC para uma proporçãoExemplo: Proporção de acessos a páginas de Internet nacionais

3.0100

30ˆ ===

n

Xp

Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas nacionais. Determine um IC a 95% para a proporção de acessos a páginas nacionais

( )04582,096,13,0 ,04582,096,13,0)(%)95( ×+×−≈pIC

( )089818,03,0 ,089818,03,0 +−=( ).38980 ,2102.0)(%95 ≈pIC

04582,0100

7,03,0)ˆ1(ˆ=×=−=

n

ppSp

( )pp SzpSzppIC 9750.09750.0%)95( ˆ,ˆ)( +−≈ ( )pp SpSppIC ×+×−≈ 96,1ˆ,96,1ˆ)(%)95(

)100Binomial(~ ,pXX - número de acessos á páginas de internet nacionais

p – proporção de acessos a páginas nacionais (em geral) p – desconhecido

Usando esta amostra determinamos um IC aproximado para p a 95%:

exercício 16, capítulo 4

( )pp SzpSzppIC 2121)1( ˆ,ˆ)( ααα −−− +−≈n

ppSp

)ˆ1(ˆ −=n

Xp =ˆcom e

1º. Determinar z1-αααα/2 para αααα=0,05

3º. Substituir na fórmula:

2º. Determinar as estimativas p e Sp^

16

35

FormulárioF

O

R

M

U

L

Á

R

I

O

36

ReferênciasLivro: Grande Maratona de Estatística no SPSSAndreia Hall, Cláudia Neves e António PereiraCapítulo 4.1 Intervalos de Confiança

Acetatos disponíveis on-line usados na elaboração destes acetatos:

� Estatística Inferencial e Intervalos de Confiança, AmostragemAndreia HallURL: http://www2.mat.ua.pt/pessoais/AHall/me/files/acetatos.htm

http://www2.mat.ua.pt/pessoais/AHall/Bioestat%EDstica/Bioestat%EDstica.htm

� Chapter 11: Sampling and Sampling Distribution, Chapter 12: EstimationProf. J. Schwab , University of Texas at Austindisciplina: Data Analysis I (spring 2004)URL: www.utexas.edu/courses/schwab/sw318_spring_2004/TextbookLectureNotes

� EstimaçãoCamilo Daleles Rennó, Instituto Nacional de Pesquisas Espaciais, Brasildisciplina:Estatística: Aplicação ao Sensoriamento Remoto (2008) URL: http://www.dpi.inpe.br/~camilo/estatistica/notas.html

� Estimação por IntervalosAna Pires, IST Lisboadisciplina: Probabilidades e Estatística URL: : http://www.math.ist.utl.pt/~apires/materialpe.html