ESTIMAESTIMAÇÇÃO PARA A MÃO PARA A MÉÉDIADIA
ObjetivoObjetivo
Estimar a média de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.
µ
Exemplos:: peso médio de homens na faixa etária de 20 a 30
anos, em uma certa localidade;
µ
: salário médio dos empregados da indústria metalúrgica em São Bernardo do Campo, em 2001;µ
: taxa média de glicose em indivíduos do sexo feminino com idade superior a 60 anos, em determinada localidade;
µ
: comprimento médio de jacarés adultos de uma certa raça.µ
: idade média dos habitantes do sexo feminino na cidade de Santos, em 1990;µ
• Vamos observar nn elementos, extraídos ao acaso e com reposição da população; • Para cada elemento selecionado, observamos o valor da variável X de interesse.
Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X1, X2, ..., Xn.
sendo ε o erro amostral (margem de erro) calculado a partir da distribuição de probabilidade de .
. nX
n
1i
i n
nX ...
2X
1X
X ∑∑∑∑====
========++++++++++++
Uma estiestimadormador pontualpontual para é dado pela média amostral,
µ
[[[[ ]]]], X ; - X εεεε++++εεεε
Uma estimaestimadordor intervalarintervalar ou intervalo de confiança para tem a formaµ
X
DistribuiDistribuiçção amostral da mão amostral da méédiadia
Exemplo 1: Considere uma população em que uma variável X assume um dos valores do conjunto {1, 3, 5, 5, 7}. A distribuição de probabilidade de X é dada por
1/5
7
2/51/51/5P(X=x)
531x
É fácil ver que x = E(X) = 4,2 ,
σσσσx2 = Var(X) = 4,16.
µ
Vamos relacionar todas as amostras possíveis de tamanho n = 2, selecionadas ao acaso e com reposição dessa população, e encontrar a distribuição da média amostral
, 2X 1X
2X
++++====
sendo
X1: valor selecionado na primeira extração; e
X2: valor selecionado na segunda extração.
Amostra (X1,X2) Probabilidade Média Amostral
(1,1) 1/25 1
(1,3) 1/25 2(1,5) 2/25 3(1,7) 1/25 4(3,1) 1/25 2(3,3) 1/25 3(3,5) 2/25 4(3,7) 1/25 5(5,1) 2/25 3(5,3) 2/25 4(5,5) 4/25 5(5,7) 2/25 6(7,1) 1/25 4(7,3) 1/25 5(7,5) 2/25 6(7,7) 1/25 7
1
6/25
4
5/252/251/25
321
1/25
7
4/256/25
65
)P( x X =
x
A distribuição de probabilidade de para n = 2 éX
.2
2,08)XVar(
4,2)XE(caso,Neste2x
x
σσσσ========
µµµµ======== e
Repetindo o mesmo procedimento, para amostras de tamanho n = 3, temos a seguinte distribuição de probabilidade de ,X
1 1/1255/3 3/1257/3 9/1253 16/125
11/3 24/12513/3 27/125
5 23/12517/3 15/12519/3 6/125
7 1/12513/3
)P( x X=x
31,39)XVar(
4,2)XE(
caso,Neste
2x
x
σσσσ========
µµµµ======== e
.
Figura 1: Histogramas correspondentes às distribuições de X e de , para amostras de {1,3,5,5,7}.X
• para n suficientemente grande, a forma do histograma aproxima-se de uma distribuição normal.
• conforme n aumenta, os valores de tendem a se concentrar cada vez mais em torno de
X
E( ) = 4,2 = x ,
uma vez que a variância vai diminuindo;
X µ
Dos histogramas, observamos que
• os casos extremos passam a ter pequena probabilidade de ocorrência;
Figura 2: Histogramas correspondentes às distribuições de para amostras de algumas populações.
X
4ª 2002, 273
Esses gráficos sugerem que,
quando n aumenta, independentemente daforma da distribuição de X , a distribuição de probabilidade da média amostral aproxima-se de uma distribuição normal.
X
Teorema do Limite CentralTeorema do Limite Central
Seja X uma v. a. que tem média e variância σσσσ2. Para uma amostra X1, X2, ..., Xn , retirada ao acaso e com reposição de X, a distribuição de probabilidade da média amostral aproxima-se, para n grande, de uma distribuição normal, com média e variância σσσσ2 / n , ou seja,
X
µ
µ
mente.aproximada grande, n para , n
2, N ~X
σσσσµµµµ
Comentários:
• Se a distribuição de X é normal, então tem distribuição normal exata, para todo n.
X
• O desvio padrão , que é
o desvio padrão da média amostral, também édenominado erro padrão.
n
σ
n
2σ
=
Intervalo de ConfianIntervalo de Confianççaa
Pergunta: Como determinar εεεεεεεε ?
[ ]ε+ε X ; - X
Como vimos, o estimador por intervalo para amédia tem a formaµ
Seja P(εεεε) = γγγγ, a probabilidade da média amostral
estar a uma distância de, no máximo εεεε, da média populacional (desconhecida), X
µ
(((( )))) (((( ))))
, n
Z n
P
n
n
- X
n
P
X P - X P
σσσσ
εεεε≤≤≤≤≤≤≤≤
σσσσ
εεεε−−−−≅≅≅≅
σσσσ
εεεε≤≤≤≤
σσσσ
µµµµ≤≤≤≤
σσσσ
εεεε−−−−====
εεεε++++µµµµ≤≤≤≤≤≤≤≤εεεε−−−−µµµµ====εεεε≤≤≤≤µµµµ====γγγγ
sendo Z ~ N(0,1) .
ou seja,
que temos , zn
Denotando =σ
ε
Assim, conhecendo-se o coeficiente de confiança γγγγ obtemos z.
. z) Z (-z P ≤≤=γ
Erro na estimativa intervalarErro na estimativa intervalar
por dado é amostral erro o
que segue , n
z igualdade Da
εεεε
σσσσ
εεεε====
N(0,1). ~ Z com , z) Z (-z P que tal z sendo ≤≤=γ
, n
σ z ε ====
µO intervalo de confianintervalo de confiançça a para a mpara a méédiadia , com com coeficiente de confiancoeficiente de confiançça a γγγγγγγγ fica, então, dado por
, n
σ z X ;
n
σ z - X
++++
X. de padrão desvio o sendo σ
Exemplo 2:Não se conhece o consumo médio de combustível de automóveis da marca T. Sabe-se, no entanto, que o desvio padrão do consumo de combustívelde automóveis dessa marca é 10 km/l. Na análisede 100 automóveis da marca T, obteve-se consumo médio de combustível de 8 km/l. Encontre um intervalo de confiança para o consumo médio de combustível dessa marca de carro. Adote um coeficiente de confiança igual a 95%.
n = 100 ⇒⇒⇒⇒ (média amostral) = 8 km/lx
X: consumo de combustível de automóveis da marca Tσσσσ = 10 km/l
γγγγ = 0,95 ⇒⇒⇒⇒ z = 1,96
Observe que o erro amostral εεεε é 1,96 km/l.
[ ][ ] 9,96 ; 6,04
1,96 8 ; 1,96 - 8 +
Pelo Teorema do Limite Central, o intervalo de confiança de 95% é dado, aproximadamente, por
=+
n
z X ;
n
z - X
σσ
=+
100
10 1,96 8 ;
100
10 1,96 - 8
Exemplo 3:
Deseja-se estimar o tempo médio de estudo (em anos) da população adulta de um município. Sabe-se que o tempo de estudo tem distribuição normal com desvio padrão σσσσ = 2,6 anos. Foram entrevistados n = 25 indivíduos, obtendo-se para essa amostra, um tempo médio de estudo igual a 10,5 anos. Obter um intervalo de 90% de confiança para o tempo médio de estudo populacional.
n = 25 ⇒⇒⇒⇒ = 10,5 anosγγγγ = 0,90 ⇒⇒⇒⇒ z = 1,65
x
X : tempo de estudo, em anos e X ~ N( ; 2,62)µ
[ ][ ].11,36;9,64
0,8610,5;0,86-10,5 +
A estimativa intervalar com 90% de confiança é dada por (em anos):
=+
n
z x ;
n
z - x
σσ
=+
25
2,5 1,65 10,5 ;
25
2,5 1,65 - ,510
DimensionamentoDimensionamento dada amostraamostra
conhecendo-se o desvio padrão σσσσσσσσ de X, o erroεεεε da estimativa e o coeficiente de confiança γγγγ
do intervalo, sendo z tal que
,σε
zn 2
2
====
, n
z relação da partirA
σσσσ====εεεε
N(0,1). ~ Z e z) Z (-z P ≤≤=γ
o tamanho da amostra nn é determinado por
n = ?? tal que εεεε = 50 reais,γγγγ = 0,95 ⇒⇒⇒⇒ z = 1,96
Exemplo 4:A renda per-capita domiciliar numa certaregião tem distribuição normal com desviopadrão σ = 250 reais e média µ desconhecida. Se desejamos estimar a renda média µ com erro ε = 50 reais e com uma confiança γγγγ = 95%, quantos domicílios devemos consultar?
X : renda per-capita domiciliar na regiãoX ~ N( ; 2502)µ
Aproximadamente 97 domicílios devem ser consultados.
( )
96,04
25050
1,96 2
2
=
=
22
z n
Então,
σ
ε=
Exemplo 5:A quantidade de colesterol X no sangue das alunasde uma universidade segue uma distribuição de probabilidades com desvio padrão σσσσ = 50 mg/dl e média µ desconhecida. Se desejamos estimar a quantidade média µ de colesterol com erro εεεε = 20 mg/dl e confiança de 90%, quantas alunas devemrealizar o exame de sangue?
X: quantidade de colesterol no sangue das alunasda universidadeσσσσ = 50 mg/dl
n = ?? tal que εεεε = 20 mg/dlγγγγ = 0,90 ⇒⇒⇒⇒ z = 1,65
Assim, aproximadamente 207 alunas devemrealizar o exame de sangue.
( )
206,25
5020
1,65 2
2
=
=
Supondo que o tamanho da amostra a ser selecionada é suficientemente grande, pelo Teorema do Limite Central temos:
22
z n σ
ε=
Na prática, a variância populacional σσσσ2 édesconhecida e é substituída por sua estimativa,
A estimativa amostral do desvio padrão σσσσé . s s 2
=
(((( )))) . n
1i X - iX
1-n1
S22
∑∑∑∑====
====
Temos duas opções ao padronizar a variável
Se σσσσ for desconhecido, usamos seu estimador, o desvio padrão amostral S , e consideramos a seguinte variável padronizada
Se σ σ σ σ , o desvio padrão populacional, for conhecido, usamos
σ
µ
σ
µ −=
−=
Xn
n
XZ
S
Xn
n
S
XT
µµ −=
−=
X
• Se a variável na população tem distribuição normal, então
• Se o tamanho n da amostra é grande, então
Z tem distribuição N(0,1)
e T tem distribuição t de Studentcom n-1 graus de liberdade.
Z e T têm distribuição aproximadamente N(0,1).
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
T1
T5
T30
Z
Assim, uma estimativa intervalar aproximadapara a média populacional , quando o tamanho da amostra é grande e σσσσ édesconhecido , é
µ
, n
s z x ,
n
s z - x
++++
sendo ss o desvio padrão amostral e z tal que N(0,1). ~ Z com z) Z (-z P ≤≤=γ
Exemplo 6:Para estimar a renda semanal média de garçons de restaurantes em uma grande cidade, é colhida uma amostra da renda semanal de 75 garçons. A média e o desvio padrão amostrais encontrados são R$ 227 e R$ 15 respectivamente. Determine um intervalo de confiança, com coeficiente de confiança de 90%, para a renda média semanal.
n = 75 ⇒⇒⇒⇒ = 227 e s = 15γγγγ = 0,9 ⇒⇒⇒⇒ z = 1,65
x
X: renda semanal de garçons da cidade
=+
57
51 1,65 227 ;
57
51 1,65 - 227
[[[[ ]]]][[[[ ]]]] 229,86 ; 224,14
2,86 227 ; 2,86 - 227 ====++++
====++++
n
s z x ,
n
s z - x
O intervalo de 90% de confiança é dado, aproximadamente, por (em reais).
Top Related