Resumo -estimacao

Instituto Superior de Engenharia de Lisboa

Área Departamental de MatemáticaResumos sobre Probabilidades e Estatística

Estimação

A Estatística Descritiva tem por objectivo resumir ou descrever característi-cas importantes de dados populacionais conhecidos. Na Inferência Estatísticautilizamos os dados amostrais para fazer inferências (ou generalizações) sobrea população. As duas principais aplicações da estatística inferencial envol-vem a utilização de dados amostrais para estimar o valor de um parâmetropopulacional e para formular uma conclusão sobre a população.

Vamos estudar como, a partir de estatísticas baseadas numa amostraaleatória, podemos fazer inferências ou generalizações acerca do valor deparâmetros de uma distribuição.

1 Estimador e estimativa

Um estimador (ou estimador pontual) de um parâmetro θ de uma popula-ção é uma estatística amostral pΘ utilizada para obter uma aproximação doparâmetro populacional θ. Por exemplo, a média amostral X é estimadorpontual da média μ da população.

Uma estimativa de um parâmetro θ de uma população é um valor espe-cífico pθ, de uma estatística amostral pΘ, usado para aproximar o parâmetropopulacional θ. Por exemplo, o valor x do estimador X, calculado de umaamostra aleatória é estimativa da média μ da população.

1.1 Métodos para determinar estimadores

Existem dois métodos gerais para obter estimadores de parâmetros da popu-lação: o método dos momentos e o método da máxima verosimilhança.

O método dos momentos - devido a Karl Pearson - é um dos mais antigosmétodos de estimação pontual. De fácil aplicação, apesar de falta de umasólida justificação teórica, fornece frequentemente estimadores aceitáveis.

O método da máxima verosimilhança é um método melhor, o qual requerusualmente soluções numéricas de equações não lineares. E se antes o métododos momentos se popularizou face a esta dificuldade, a sua razão de ser desa-pareceu face às facilidades computacionais actuais. Deve dizer-se, contudo,que as estimativas do método dos momentos são ainda usadas como primeiraaproximação nos procedimentos iterativos para a resolução das equações deverosimilhança.

O estudo destes dois métodos não faz parte do programa da disciplina deProbabilidades e Estatística.

EstimaçãoC. Fernandes & P. Ramos

1/23



1.1.1 Propriedades dos estimadores

1. Consistência: A consistência indica que, quanto maior for a amostra,maior é a probabilidade do valor estimado do parâmetro estar próximo

de θ. Um estimador dir-se-á consistente se e só se P”| pΘ ´ θ |ď ε

ıÑ 1

quando n Ñ 8, @ε ą 0. Note-se que a consistência é fundamental-mente, uma propriedade para grandes amostras.

2. Não enviesamento: Um estimador diz-se não enviesado se o valor espe-

rado por amostragem do estimador pΘ coincidir com θ, isto é, E”pΘı

“θ. Caso E

”pΘı‰ θ, o estimador pΘ diz-se enviesado e a função b pθq,

dada por

b´pΘ¯

“ E”pΘı

´ θ

mede o enviesamento do estimador.

3. Eficiência e erro quadrático médio: Entre estimadores não-enviesados,preferimos o estimador com menor variância, isto é, o estimador maiseficiente. A eficiência de um estimador não-enviesado é a variância dasua distribuição amostral. O erro quadrático médio de um estimadorpontual pΘ é definido como sendo o valor esperado do quadrado dadistância entre pΘ e θ, isto é,

EQM´pΘ¯

“ E

„´pΘ ´ θ¯2

j.

O erro quadrático médio é igual à soma da variância com o quadradodo enviesamento. Assim, o erro quadrático médio de um estimador é asua variância quando o estimador é não-enviesado:

EQM´pΘ¯

“ V ar”pΘı

`”b

´pΘ¯ı2.

Podemos, então, generalizar o conceito de eficiência: a eficiência de umestimador é o erro quadrático médio da sua distribuição amostral.

4. Suficiência: Se for possível condensar, numa simples estatística, todaa informação amostral relevante para o parâmetro a estimar, essa es-tatística diz-se um estimador suficiente para o parâmetro em análise.A estatística pΘ diz-se suficiente (ou exaustiva) para θ, se retira daamostra observada x1, x2, . . . , xn toda a informação desejada sobre θ.Qualquer outra informação contida na amostra, além do valor da es-tatística suficiente, não contém mais informações sobre θ. Isto implica


2/23



que as inferências sobre θ, obtidas de amostras distintas que conduzamao mesmo valor pθ de pΘ, são as mesmas, ou seja, a distribuição con-dicional da amostra aleatória X1, X2, . . . , Xn, dado o valor de pΘ, nãodepende de θ.

1.2 Estimação por intervalos de confiança

Em vários problemas de inferência estatística está-se interessado em construiruma família de conjuntos - colecções de pontos - que contenham o verdadeirovalor do parâmetro desconhecido com uma probabilidade alta especificada.Tais colecções são vulgarmente conhecidas por intervalos de confiança.

Um intervalo de confiança (ou estimativa intervalar) é uma amplitude(ou um intervalo) de valores que tem probabilidade de conter o verdadeirovalor da população. Um intervalo de confiança está associado a um nívelde confiança que é uma medida da nossa certeza de que o intervalo con-tém o parâmetro populacional. Pretende-se construir intervalos que conte-nham o valor do parâmetro populacional desconhecido com uma certa pro-babilidade. Um intervalo de confiança aleatório para o parâmetro θ é um

intervaloıpΘ1; pΘ2

”, onde pΘ1 e pΘ2 são duas estatísticas amostrais tais que

P”pΘ1 ă θ ă pΘ2

ı“ 1 ´ α, com 0 ă α ă 1, onde 1 ´ α é o nível de confi-

ança e α o nível de significância. Para uma amostra em particular obtêm-seestimativas para as estatísticas amostrais pθ1 e pθ2. Diferentes amostras produ-zem estimativas de intervalo diferentes, obtendo-se o intervalo deterministaıpθ1; pθ2”. O nível de confiança é a probabilidade 1´α (normalmente expressa

como valor percentual equivalente) de o intervalo de confiança aleatório con-ter o verdadeiro valor do parâmetro populacional. O nível de confiança étambém chamado grau de confiança ou coeficiente de confiança.

O nível de significância α pα P s0, 1rq é a probabilidade do intervalo deconfiança aleatório não conter o verdadeiro valor do parâmetro θ. Quantomais pequena for a amplitude de um intervalo de confiança, maior é a precisãodesse intervalo. Idealmente, um intervalo de confiança deverá ter amplitudepequena e nível de confiança elevado. Infelizmente, para um tamanho daamostra fixo, o coeficiente de confiança só pode aumentar, se a amplitude dointervalo também aumentar. Além disso, em geral, para valores do coefici-ente de confiança elevados, a amplitude do intervalo de confiança aumentarapidamente.

São escolhas comuns para o nível de confiança: 90% (com α “ 0, 1), 95%(com α “ 0, 05) e 99% (com α “ 0, 01). A mais comum é a opção 95%, por-que proporciona bom equilíbrio entre a precisão (reflectida na amplitude do


3/23



intervalo de confiança) e a confiabilidade (expressa pelo nível de confiança),no entanto, pode ser utilizado outro nível de confiança.

Como vimos, a estimativa intervalar consiste em um intervalo e está asso-ciada a um nível de confiança. O nível de confiança 1´α deve ser interpretadocomo uma probabilidade, do intervalo de confiança aleatório conter o parâme-tro θ, anterior à realização da amostragem e portanto, anterior à estimaçãodos limites do intervalo. Este aspecto da probabilidade ser anterior à realiza-ção da amostragem é fundamental. Na prática, não se sabe se um intervalo

deterministaıpθ1, pθ2”

, obtido de uma amostra particular, contém ou não o

parâmetro θ, porque o valor de θ é desconhecido. Devemos ter em conta queθ é um valor fixo e não uma variável aleatória; portanto, é errado dizer quehá 95% de hipóteses de θ estar no intervalo determinista. Qualquer intervalode confiança contém, ou não contém θ e como θ é fixo e desconhecido, nãoexiste a probabilidade de θ estar num intervalo.

Existe a probabilidade condicional, posterior à realização da amostragem,

P”pΘ1 ă θ ă pΘ2 | pΘ1 “ pθ1; pΘ2 “ pθ2ı

“"

0 , se o intervalo não contém θ

1 , se o intervalo contém θ.

O nível de confiança não se refere ao evento condicional

pΘ1 ă θ ă pΘ2 | pΘ1 “ pθ1; pΘ2 “ pθ2,o intervalo de confiança observado, que nada tem de aleatório, mas refere-seao intervalo pΘ1 ă θ ă pΘ2 e indica a probabilidade deste intervalo aleatórioconter o parâmetro θ. Ou seja, o nível de confiança indica a proporção de

vezes que os intervalos observadosıpθ1, pθ2” contêm o parâmetro θ. Interpre-

tamos este intervalo de confiança como se segue: Se seleccionássemos muitasamostras diferentes de tamanho n da população e construíssemos um inter-valo de 95% de confiança análogo para cada amostra, 95% desses intervalosconteriam efectivamente o parâmetro populacional θ.

Para a construção de um intervalo de confiança deverá proceder-se daseguinte forma:

1. identificar a população, a sua distribuição e o parâmetro a estimar;

2. estabelecer um nível de confiança e o tamanho da amostra;

3. escolher a variável fulcral, que é a estatística a escolher para estimar oparâmetro. A variável fulcral contém o parâmetro a estimar na sua ex-pressão e a sua distribuição não pode depender do parâmetro a estimarnem de quaisquer outros valores que se desconheçam;


4/23



4. identificar a distribuição amostral da variável fulcral;

5. construir o intervalo de confiança aleatório;

6. determinar os extremos do intervalo de confiança a partir dos valoresda amostra observada, obtendo o intervalo de confiança determinista.

Nota 1.1. Consultar o quadro resumo sobre intervalos de confiança parauma e duas populações.

1.2.1 Intervalo de confiança para a média

• Se σ é conhecido, X é uma variável aleatória com distribuição normale n qualquer então

sI1´αrμ “jX ´ σ?

nZ1´α

2;X ` σ?

nZ1´α

2

„,

onde Z1´α2

“ Φ´1`1 ´ α

2

˘é o percentil 100 ˆ `

1 ´ α2

˘da distribuição

N p0; 1q;

α/2 α/2

1− α

01− α/2−Z 1− α/2Z

• Se σ é conhecido, X é uma variável aleatória com distribuição arbitráriae n ą 30 então

sI1´αrμ “jX ´ σ?

nZ1´α

2;X ` σ?

nZ1´α

2

„,

onde Z1´α2

“ Φ´1`1 ´ α

2


1 ´ α2

˘da distribuição

N p0; 1q;• Se σ é desconhecido, X é uma variável aleatória com distribuição arbi-

trária e n ą 30 então

sI1´αrμ “jX ´ S?

nZ1´α

2;X ` S?

nZ1´α

2

„,

onde Z1´α2

“ Φ´1`1 ´ α

2


1 ´ α2

˘da distribuição

N p0; 1q;


5/23



• Se σ é desconhecido, X é uma variável aleatória com distribuição nor-mal e n qualquer então

sI1´αrμ “jX ´ S?

ntn´1;1´α

2;X ` S?

ntn´1;1´α

2

„,

onde tn´1;1´α2

é o percentil 100 ˆ `1 ´ α

2

˘da distribuição tn´1.

α/2 α/2

1− α

0n−1;1− α/2−t n−1;1− α/2t

Quando utilizamos dados amostrais para estimar uma média populacionalμ, a margem de erro, denotada por E, é a diferença máxima provável (comprobabilidade 1´α) entre a média amostral observada X e a verdadeira médiapopulacional μ. A margem de erro E também é chamada erro máximo daestimativa e pode ser obtida por:

σ?nZ1´α

2

ouS?nZ1´α

2

ouS?ntn´1;1´α

2,

conforme o caso.Assim, antes de efectuar a amostragem, pode estimar-se, com um nível

de confiança de 1 ´ α dado, o tamanho n da amostra que garante um erromáximo de estimativa (precisão) que não ultrapasse um valor ε desejado.Para isso, consoante o caso, resolvemos a inequação:

σ?nZ1´α

2ď ε

ouS?nZ1´α

2ď ε,


6/23



em ordem a n, obtendo-se, respectivamente:

n ěˆσZ1´α

2

ε

˙2

ou

n ěˆSZ1´α

2

ε

˙2

,

pelo que basta tomar para n o menor inteiro que satisfaz a desigualdade.É imediato concluir que para diminuir o erro é necessário aumentar o

tamanho da amostra. Nos casos em que a variância populacional σ2 é desco-nhecida, antes de se determinar a ordem de grandeza de n recorre-se a umaamostra preliminar de tamanho n ą 30 para calcular S.

Exemplo 1.1. Um fabricante produz peças de peso especificado em 200 gra-mas. Querendo estimar o verdadeiro peso médio num grande lote a fornecerao seu maior cliente, seleccionou 35 peças ao acaso, que depois de pesadasforneceram os seguintes valores:

ř35

i“1xi “ 7140 e

ř35

i“1pxi ´ xq2 “ 560.

(a) Apresente uma estimativa para o peso médio das peças do lote;

Como X “řn

i“1Xi

nobtém-se x “

ř35

i“1xi

35“ 7140

35“ 204 gramas.

(b) Construa um intervalo de confiança a 95% para o peso médio das peçasdo lote;

Seja X - “peso, em gramas, das peças do lote”. Pretendemos um inter-valo de confiança para o verdadeiro peso médio das peças.

– Parâmetro a estimar: μ;

– Tipo de população: desconhecida;

– Dimensão da amostra: n “ 35;

– Nível de confiança: 1 ´ α “ 0, 95;

– Variável fulcral: X´μS?n

9„N p0; 1q;

– Outros dados: Como S “cřn

i“1pXi´Xq2

n´1obtém-se s “

bř35

i“1pxi´xq234

“b560

34“ 4, 058;


7/23



α/2 α/2

1− α

01− α/2−Z 1− α/2Z

com ´Z1´α2

“ ´Z0,975 “ ´1, 96 e Z1´α2

“ Z0,975 “ 1, 96.

Logo tem-se

P

„´Z1´α

2ă X´μ

S?n

ă Z1´α2

j“ 1 ´ α ô

ô P

„´1, 96 ă X´μ

S?n

ă 1, 96

j“ 0, 95 ô

ô P”´1, 96 ˆ S?

nă X ´ μ ă 1, 96 ˆ S?

n

ı“ 0, 95 ô

ô P”X ´ 1, 96 ˆ S?

nă μ ă X ` 1, 96 ˆ S?

n

ı“ 0, 95.

Obtendo-se, o intervalo aleatório:

sI0,95rμ

“jX ´ 1, 96 ˆ S?

n;X ` 1, 96 ˆ S?

n

„e o intervalo determinista:

sI0,95r˚μ

“j204 ´ 1, 96 ˆ 4, 058?

35; 204 ` 1, 96 ˆ 4, 058?

35

„“

“ s202, 656; 205, 344r .

Estima-se, com um nível de confiança de 95%, que o peso médio daspeças do lote se situe entre 202, 656 gramas e 205, 344 gramas.

(c) Qual deve ser a dimensão mínima da amostra para que a amplitude dointervalo de confiança a 95% para o peso médio seja inferior a 1, 75?

Amplitude do intervalo “´X ` 1, 96 ˆ S?

n

¯´

´X ´ 1, 96 ˆ S?

n

¯“ 2ˆ

1, 96 ˆ S?n. Pretende-se que Amplitude ă 1, 75 ô 2 ˆ 1, 96 ˆ 4,058?

nă

1, 75 ô n ą 80, 63. A dimensão mínima da amostra é de 81 peças.


8/23



Exemplo 1.2. O tempo em horas de funcionamento sem falha de um com-ponente electrónico tem distribuição aproximadamente normal. Para esti-mar os parâmetros da referida distribuição foi recolhida uma amostra aleató-ria de 15 componentes para os quais foram observados os tempos de fun-cionamento. Obtiveram-se os seguintes resultados:

ř15

i“1xi “ 147180 eř15

i“1x2i “ 1446552944.

(a) a) Indique estimativas pontuais do tempo médio de funcionamento semfalha e do desvio padrão do tempo de funcionamento sem falha destetipo de componentes.

Como X “řn

i“1Xi

nobtém-se x “

ř15

i“1xi

15“ 147180

15“ 9812 horas.

Como S “břn

i“1X2

i ´nX2

n´1obtém-se s “

b1446552944´15ˆ98122

14“ ?

173056 “416 horas.

(b) b) Construa um intervalo de confiança a 95% para o tempo médio defuncionamento sem falha de um componente electrónico.

Seja X - “tempo de funcionamento sem falha de um componente electró-nico em horas”. Pretendemos um intervalo de confiança para o tempomédio de funcionamento sem falha de um componente electrónico.

– Parâmetro a estimar: μ;

– Tipo de população: normal;

– Dimensão da amostra: n “ 15;

– Nível de confiança: 1 ´ α “ 0, 95;

– Variável fulcral: X´μS?n

„ tn´1;

– Outros dados: x “ 9812 e s “ 416;

α/2 α/2

1− α

0n−1;1− α/2−t n−1;1− α/2t

com ´tn´1;1´α2

“ ´t14;0,975 “ ´2, 1448 e tn´1;1´α2

“ t14;0,975 “2, 1448.


9/23



Logo tem-se

P

„´tn´1;1´α

2ă X´μ

S?n

ă tn´1;1´α2

j“ 1 ´ α ô

ô P

„´2, 1448 ă X´μ

S?n

ă 2, 1448

j“ 0, 95 ô

ô P”´2, 1448 ˆ S?

nă X ´ μ ă 2, 1448 ˆ S?

n

ı“ 0, 95 ô

ô P”X ´ 2, 1448 ˆ S?

nă μ ă X ` 2, 1448 ˆ S?

n

ı“ 0, 95.


sI0,95rμ

“jX ´ 2, 1448 ˆ S?

n;X ` 2, 1448 ˆ S?

n


sI0,95r˚μ

“j9812 ´ 2, 1448 ˆ 416?

15; 9812 ` 2, 1448 ˆ 416?

15

„“

“ s9581, 625; 10042, 375r .Estima-se, com um nível de confiança de 95%, que o tempo médio defuncionamento sem falha de um componente electrónico se situe entre9581, 625 horas e 10042, 375 horas.

1.2.2 Intervalo de confiança para a proporção

Se n ą 30 (amostras grandes) então

sI1´αrp “ffpp ´ Z1´α

2

c pp p1 ´ ppqn

; pp ` Z1´α2

c pp p1 ´ ppqn

«,

onde Z1´α2

“ Φ´1`1 ´ α

2

˘é o percentil 100ˆ`

1 ´ α2

˘da distribuição N p0; 1q.

Erro máximo da estimativa:

E “ Z1´α2

c pp p1 ´ ppqn

.

Tamanho da amostra:

n ě pp p1 ´ ppqˆZ1´α

2

ε

˙2

,

onde ε é o valor do erro pretendido.


10/23



Exemplo 1.3. O dono de uma ervanária produz um chá, relativamente aoqual, afirma ser eficaz em pelo menos 85% dos casos para curar dores decabeça. Num inquérito feito a 250 pessoas, 198 concordaram que o chá curade facto as dores de cabeça. Construa um intervalo de confiança com umnível de 95% para a percentagem de potenciais consumidores que concordamcom o dono da ervanária.

Seja X - “número de consumidores que concorda com o dono da ervaná-ria”. Pretendemos um intervalo de confiança para a percentagem de potenci-ais consumidores que concordam com o dono da ervanária.

• Parâmetro a estimar: p;

• Tipo de população: Bernoulli;

• Dimensão da amostra: n “ 250;

• Nível de confiança: 1 ´ α “ 0, 95;

• Variável fulcral: pp´pb ppp1´ ppqn

9„N p0; 1q;

• Outros dados: pp “ 198

250“ 0, 792;

α/2 α/2

1− α

01− α/2−Z 1− α/2Z

com ´Z1´α2

“ ´Z0,975 “ ´1, 96 e Z1´α2

“ Z0,975 “ 1, 96.

Logo tem-se

P

„´Z1´α

2ă pp´pb ppp1´ ppq

n

ă Z1´α2

j“ 1 ´ α

P

„´1, 96 ă pp´pb ppp1´ ppq

n

ă 1, 96

j“ 0, 95 ô

ô P

„´1, 96 ˆ

b ppp1´ppqn

ă pp ´ p ă 1, 96 ˆb ppp1´ppq

n

j“ 0, 95 ô

ô P

„pp ´ 1, 96 ˆb ppp1´ppq

nă p ă pp ` 1, 96 ˆ

b ppp1´ppqn

j“ 0, 95.


11/23



Obtendo-se o intervalo aleatório:

sI0,95rp “ffpp ´ 1, 96 ˆ

c pp p1 ´ ppqn

; pp ` 1, 96 ˆc pp p1 ´ ppq

n

«e o intervalo determinista:

sI0,95r˚p

“ff0, 792 ´ 1, 96 ˆ

c0, 792 ˆ 0, 208

250;

0, 792 ` 1, 96 ˆc

0, 792 ˆ 0, 208

250

«“

“ s0, 7417; 0, 8423r .Estima-se que a percentagem de potenciais consumidores que concordam como dono da ervanária se situe entre 74, 17% e 84, 23%, a um nível de confiançade 95%.

1.2.3 Intervalo de confiança para a variância duma população nor-

mal

sI1´αrσ2 “ff

pn ´ 1qS2

χ2n´1;1´α

2

;pn ´ 1qS2

χ2n´1;α

2

«,

onde χ2n´1;1´α

2

é o percentil 100 ˆ `1 ´ α

2

˘da distribuição χ2

n´1 e χ2n´1;α

2

é o

percentil 100 ˆ α2

da distribuição χ2n´1.

Este resultado não deve ser usado no caso de populações claramente nãonormais.

α/2

1− α

n −1;1− α/2χ

α/2

2n −1;α/2χ2

Se pretendermos obter o intervalo de confiança para o desvio padrão faz-se

sI1´αrσ “ffd

pn ´ 1qS2

χ2n´1;1´α

2

;

dpn ´ 1qS2

χ2n´1;α

2

«.


12/23



Exemplo 1.4. Um laboratório pretende avaliar a variabilidade associada aoresultado de um determinado método de análise química. Com esse objectivo,efectuaram-se 17 análises a uma determinada substância em que se seguiuo referido método, em condições perfeitamente estabilizadas. A variânciaamostral dos resultados, expressos numa determinada unidade, foi de 2, 70.Admitindo que o resultado das análises segue uma distribuição normal, cons-trua um intervalo de confiança a 95% para o desvio padrão dos resultados dométodo de análise química.

Seja X - “resultado de um determinado método de análise química”. Pre-tendemos um intervalo de confiança para o verdadeiro desvio padrão dosresultados do método de análise química. Vamos começar por construir ointervalo de confiança para a variância.

• Parâmetro a estimar: σ2;

• Tipo de população: normal;

• Dimensão da amostra: n “ 17;


• Variável fulcral: pn´1qS2

σ2 „ χ2n´1;

• Outros dados: s2 “ 2, 70;

α/2

1− α

n −1;1− α/2χ

α/2

2n −1;α/2χ2

com χ2n´1;α

2

“ χ216;0,025 “ 6, 9077 e χ2

n´1;1´α2

“ χ216;0,975 “ 28, 8454.

Logo tem-se

P”χ2n´1;α

2

ă pn´1qS2

σ2 ă χ2n´1;1´α

2

ı“ 1 ´ α ô

ô P”6, 9077 ă pn´1qS2

σ2 ă 28, 8454ı

“ 0, 95 ôô P

”6,9077

pn´1qS2 ă 1

σ2 ă 28,8454

pn´1qS2

ı“ 0, 95 ô

ô P”

pn´1qS2

28,8454ă σ2 ă pn´1qS2

6,9077

ı“ 0, 95.


13/23




sI0,95rσ2 “jpn ´ 1qS2

28, 8454;

pn ´ 1qS2

6, 9077


sI0,95r˚σ2 “

j16 ˆ 2, 70

28, 8454;16 ˆ 2, 70

6, 9077

„“

“ s1, 4976; 6, 2539r .Estima-se, com um nível de confiança de 95%, que variância dos resultadosdo método de análise química se situe entre 1, 2238 e 2, 5008.

O intervalo de confiança para o desvio padrão será:

sI0,95r˚σ

“ s1, 4976; 6, 2539r .Estima-se, com um nível de confiança de 95%, que o desvio padrão dos re-sultados do método de análise química se situe entre 1, 2238 e 2, 5008.

1.2.4 Intervalo de confiança para a diferença de valores médios

com duas amostras independentes

• Se σ1 e σ2 são conhecidos, X1 e X2 seguem uma distribuição normal en1 e n2 quaisquer então

sI1´αrμ1´μ2“

fifl`X1 ´ X2

˘ ´d

σ21

n1

` σ22

n2

Z1´α2;

`X1 ´ X2

˘ `d

σ21

n1

` σ22

n2

Z1´α2

»– ,

onde Z1´α2

“ Φ´1`1 ´ α

2


1 ´ α2

˘da distribuição

N p0, 1q;• Se σ1 e σ2 são conhecidos, X1 e X2 seguem uma distribuição arbitrária

e n1 ą 30 e n2 ą 30 então

sI1´αrμ1´μ2“

fifl`X1 ´ X2

˘ ´d

σ21

n1

` σ22

n2

Z1´α2;

`X1 ´ X2

˘ `d

σ21

n1

` σ22

n2

Z1´α2

»– ,


14/23



onde Z1´α2

“ Φ´1`1 ´ α

2


1 ´ α2

˘da distribuição

N p0, 1q;• se σ1 e σ2 são desconhecidos, X1 e X2 seguem uma distribuição arbi-

trária e n1 ą 30 e n2 ą 30 então

sI1´αrμ1´μ2“

fifl`X1 ´ X2

˘ ´d

S12

n1

` S22

n2

Z1´α2;

`X1 ´ X2

˘ `d

S12

n1

` S22

n2

Z1´α2

»– ,

onde Z1´α2

“ Φ´1`1 ´ α

2


1 ´ α2

˘da distribuição

N p0, 1q;• Se σ1 e σ2 são desconhecidos, as populações são homocedásticas pσ2

1 “ σ22q,

X1 e X2 seguem uma distribuição normal e n1 e n2 quaisquer então

sI1´αrμ1´μ2“ ‰`

X1 ´ X2

˘ ´ A ˆ tn1`n2´2;1´α2;`

X1 ´ X2

˘ ` A ˆ tn1`n2´2;1´α2

“,

onde

A “d

pn1 ´ 1qS12 ` pn2 ´ 1qS2

2

n1 ` n2 ´ 2

ˆ1

n1

` 1

n2

˙e tn1`n2´2;1´α

2é o percentil 100 ˆ `

1 ´ α2

˘da distribuição tn1`n2´2;

• Se σ1 e σ2 são desconhecidos, as populações são heterocedásticas pσ21 ‰ σ2

2q,X1 e X2 seguem uma distribuição normal e n1 e n2 quaisquer então

sI1´αrμ1´μ2“

fifl`X1 ´ X2

˘ ´d

S 112

n1

` S 122

n2

tr;1´α2;

`X1 ´ X2

˘ `d

S12

n1

` S22

n2

tr;1´α2

»– ,

onde r é o número natural mais próximo de r˚ e este é dado por

r˚ “´

S12

n1

` S22

n2

¯2

1

n1´1

´S1

2

n1

¯2

` 1

n2´1

´S2

2

n2

¯2.


15/23



Exemplo 1.5. Um campo experimental foi utilizado para testar o cresci-mento de duas espécies florestais, A e B. Analisaram-se 200 árvores daespécie A com 2 anos de idade, obtendo-se uma altura média de 145cm e umdesvio padrão de 15cm. Uma amostra de 150 árvores da espécie B, com amesma idade, conduziu a uma altura média de 141cm e um desvio padrão de12cm. Pretende-se determinar o intervalo de confiança a 95% para a dife-rença entre os valores esperados das alturas das duas espécies ao fim de doisanos.

Sejam X1 - “altura, em cm, das árvores da espécie A” e X2 - “altura, emcm, das árvores da espécie B”. Pretendemos um intervalo de confiança paraa diferença entre os valores esperados das alturas das duas espécies ao fimde dois anos.

• Parâmetro a estimar: μ1 ´ μ2;

• Tipos de população: Quaisquer;

• Dimensão das amostras: n1 “ 200 e n2 “ 150;


• Variável fulcral:pX1´X2q´pμ1´μ2qc

S21

n1`S2

2

n2

9„N p0; 1q;

• Outros dados: x1 “ 145, x2 “ 141, s1 “ 15 e s2 “ 12;

α/2 α/2

1− α

01− α/2−Z 1− α/2Z

com ´Z1´α2

“ ´Z0,975 “ ´1, 96 e Z1´α2

“ Z0,975 “ 1, 96.

Logo tem-se

P

»–´Z1´α2

ă pX1´X2q´pμ1´μ2qcS21

n1`S2

2

n2

ă Z1´α2

fifl “ 1 ´ α

P

»–´1, 96 ă pX1´X2q´pμ1´μ2qcS21

n1`S2

2

n2

ă 1, 96

fifl “ 0, 95 ô


16/23



ô P

„´1, 96 ˆ

bS2

1

n1

` S2

2

n2

ă `X1 ´ X2

˘ ´ pμ1 ´ μ2q ă 1, 96ˆ

ˆb

S2

1

n1

` S2

2

n2

j“ 0, 95 ô

ô P

„`X1 ´ X2

˘ ´ 1, 96 ˆb

S2

1

n1

` S2

2

n2

ă μ1 ´ μ2 ă `X1 ´ X2

˘ ` 1, 96ˆ

ˆb

S2

1

n1

` S2

2

n2

j“ 0, 95.


sI0,95rμ1´μ2

“fifl`

X1 ´ X2

˘ ´ 1, 96 ˆd

S21

n1

` S22

n2

;

`X1 ´ X2

˘ ` 1, 96 ˆd

S21

n1

` S22

n2

»–e o intervalo determinista:

sI0,95r˚μ1´μ2

“ff

p145 ´ 141q ´ 1, 96 ˆc

152

200` 122

150;

p145 ´ 141q ` 1, 96 ˆc

152

200` 122

150

«“

“ s1, 1698; 6, 8302r .Estima-se que a diferença entre os valores esperados das alturas das duasespécies ao fim de dois anos se situe entre 1, 1698cm e 6, 8302cm, a um nívelde confiança de 95%.

Exemplo 1.6. Um determinado método de análise permite determinar oconteúdo de enxofre no petróleo bruto. Os ensaios efectuados em 10 e 8

amostras de 1kg de petróleo bruto, provenientes de furos pertencentes respec-tivamente aos campos A e B, revelaram os seguintes resultados (em gramas):

• Campo A: 105, 111, 114, 112, 106, 110, 109, 107, 112, 110.

• Campo B: 101, 106, 104, 105, 103, 110, 108, 109.

Considere que o conteúdo de enxofre por quilograma de petróleo bruto, medidoem gramas para os dois campos, se pode considerar normal com variânciasiguais e que as amostras obtidas são independentes. Determine um intervalo,


17/23



com 95% de confiança, para a diferença entre os valores médios da quantidadede enxofre por quilograma de petróleo proveniente de cada campo.

Sejam X1 - “conteúdo de enxofre no petróleo bruto no campo A, em gra-mas” e X2 - “conteúdo de enxofre no petróleo bruto no campo B, em gramas”.Pretendemos um intervalo de confiança para a diferença entre os valores mé-dios da quantidade de enxofre por quilograma de petróleo proveniente de cadacampo.

• Parâmetro a estimar: μ1 ´ μ2;

• Tipos de população: Normais;



• Variável fulcral:pX1´X2q´pμ1´μ2qc

pn1´1qS21

`pn2´1qS22

n1`n2´2

´1

n1` 1

n2

¯ „ tn1`n2´2;

• Outros dados: x1 “ 109, 6, x2 “ 105, 75, s21 “ 8, 267 e s22 “ 9, 643;

α/2 α/2

1− α

0n +n −2;1− α/2−t

1 2n +n −2;1− α/2t

1 2

com ´tn1`n2´2;1´α2

“ ´t16;0,975 “ ´2, 1199 e tn1`n2´2;1´α2

“ t16;0,975 “2, 1199.

Logo tem-se

P

»–´tn1`n2´2;1´α2

ă pX1´X2q´pμ1´μ2qcpn1´1qS2

1`pn2´1qS2

2

n1`n2´2

´1

n1` 1

n2

¯ ă tn1`n2´2;1´α2

fifl “ 1 ´ α

ô P

»–´2, 1199 ă pX1´X2q´pμ1´μ2qcpn1´1qS2

1`pn2´1qS2

2

n1`n2´2

´1

n1` 1

n2

¯ ă 2, 1199

fifl “ 0, 95

Para aligeirar esta expressão podemos considerar

A “d

pn1 ´ 1qS21 ` pn2 ´ 1qS2

2

n1 ` n2 ´ 2

ˆ1

n1

` 1

n2

˙EstimaçãoC. Fernandes & P. Ramos

18/23



tendo-se

P“´2, 1199 ˆ A ă `

X1 ´ X2

˘ ´ pμ1 ´ μ2q ă 2, 1199 ˆ A‰ “ 0, 95 ô

ô P“`X1 ´ X2

˘ ´ 2, 1199 ˆ A ă μ1 ´ μ2 ă `X1 ´ X2

˘ ``2, 1199 ˆ As “ 0, 95.


sI0,95rμ1´μ2

“ ‰`X1 ´ X2

˘ ´ 2, 1199 ˆ A;`X1 ´ X2

˘ ` 2, 1199 ˆ A“.

Para obter o intervalo determinista teremos que calcular

A “d

9 ˆ 8, 267 ` 7 ˆ 9, 643

16

ˆ1

10` 1

8

˙“ 1, 413

e tem-se:

sI0,95r˚μ1´μ2

“ sp109, 6 ´ 105, 75q ´ 2, 1199 ˆ 1, 413; p109, 6 ´ 105, 75q ``2, 1199 ˆ 1, 413r “

“ s0, 855; 6, 845r .

Estima-se, com um nível de confiança de 95%, que a diferença entre os valo-res médios da quantidade de enxofre por quilograma de petróleo provenientede cada campo se situe entre 0, 855 gramas e 6, 845 gramas.

1.2.5 Intervalo de confiança para a diferença de proporções com

duas amostras independentes

Se n1 ą 30 e n2 ą 30 (amostras grandes) então

sI1´αrp1´p2“

ffppp1 ´ pp2q ´

d pp1 p1 ´ pp1qn1

` pp2 p1 ´ pp2qn2

Z1´α2;

ppp1 ´ pp2q `d pp1 p1 ´ pp1q

n1

` pp2 p1 ´ pp2qn2

Z1´α2

«,

onde Z1´α2

“ Φ´1`1 ´ α

2

˘é o percentil 100ˆ`

1 ´ α2

˘da distribuição N p0, 1q.


19/23



Exemplo 1.7. Uma grande cadeia de venda a retalho pretende comparar oshábitos de compra de homens e mulheres. Uma das variáveis em estudo con-siste na proporção de vezes que uma compra é concretizada após a entradanuma loja. Em 45 observações seleccionadas aleatoriamente, os homens re-alizaram compras 27 vezes. No caso das mulheres, em 74 observações acompra concretizou-se 32 vezes. Com base nestes dados, construa o intervalode confiança a 95% para a diferença entre as proporções de concretização decompras entre homens e mulheres.

Sejam X1 - “número de vezes que a compra é concretizada pelos homens”e X2 - “número de vezes que a compra é concretizada pelas mulheres”. Pre-tendemos um intervalo de confiança para a diferença entre as proporções deconcretização de compras entre homens e mulheres.

• Parâmetro a estimar: p1 ´ p2;

• Tipos de população: Bernoulli;



• Variável fulcral: ppp1´pp2q´pp1´p2qc pp1p1´ pp1qn1

` pp2p1´ pp2qn2

9„N p0; 1q;

• Outros dados: pp1 “ 27

45“ 0, 6, pp2 “ 32

74“ 0, 43, s1 “ 15 e s2 “ 12;

α/2 α/2

1− α

01− α/2−Z 1− α/2Z

com ´Z1´α2

“ ´Z0,975 “ ´1, 96 e Z1´α2

“ Z0,975 “ 1, 96.

Logo tem-se

P

»–´Z1´α2

ă ppp1´pp2q´pp1´p2qc pp1p1´ pp1qn1

` pp2p1´ pp2qn2

ă Z1´α2

fifl “ 1 ´ α

P

»–´1, 96 ă ppp1´pp2q´pp1´p2qc pp1p1´ pp1qn1

` pp2p1´ pp2qn2

ă 1, 96

fifl “ 0, 95 ô


20/23



ô P”´1, 96 ˆ

b pp1p1´pp1qn1

` pp2p1´pp2qn2

ă ppp1 ´ pp2q ´ pp1 ´ p2q ă 1, 96ˆ

ˆb pp1p1´pp1q

n1

` pp2p1´pp2qn2

ı“ 0, 95 ô

ô P”ppp1 ´ pp2q ´ 1, 96 ˆ

b pp1p1´pp1qn1

` pp2p1´pp2qn2

ă p1 ´ p2 ă ppp1 ´ pp2q `

`1, 96 ˆb pp1p1´pp1q

n1

` pp2p1´pp2qn2

ı“ 0, 95.


sI0,95rp1´p2“

ffppp1 ´ pp2q ´ 1, 96 ˆ

d pp1 p1 ´ pp1qn1

` pp2 p1 ´ pp2qn2

; ppp1 ´ pp2q `

`1, 96 ˆd pp1 p1 ´ pp1q

n1

` pp2 p1 ´ pp2qn2

«

e o intervalo determinista:

sI0,95r˚p1´p2

“ff

p0, 6 ´ 0, 43q ´ 1, 96 ˆc

0, 6 ˆ 0, 4

45` 0, 43 ˆ 0, 57

74;

p0, 6 ´ 0, 43q ` 1, 96 ˆc

0, 6 ˆ 0, 4

45` 0, 43 ˆ 0, 57

74

«“

“ s´0, 0118; 0, 3518r .

Estima-se que a diferença entre as proporções de concretização de comprasentre homens e mulheres se situe entre ´0, 0118 e 0, 3518, a um nível deconfiança de 95%.

1.2.6 Intervalo de confiança para o quociente de duas variâncias

de populações normais

Sejam X1, X2, . . . , Xn e Y1, Y2, . . . , Yn duas amostras aleatórias independentesde dimensão n1 e n2, respectivamente, onde X „ N pμ1; σ1q e Y „ N pμ2; σ2q.Então

sI1´αrσ21

σ22

“ffS1

2

S22

ˆ 1

F`n1 ´ 1;n2 ´ 1; 1 ´ α

2

˘ ; S12

S22

ˆ 1

F`n1 ´ 1;n2 ´ 1; α

2

˘«,

onde F`n1 ´ 1;n2 ´ 1; 1 ´ α

2

˘designa o percentil 100ˆ `

1 ´ α2

˘da distribui-

ção F pn1 ´ 1;n2 ´ 1q e F`n1 ´ 1;n2 ´ 1; α

2

˘designa o percentil 100 ˆ α

2da

distribuição F pn1 ´ 1;n2 ´ 1q.


21/23



α/2

1− αα/2

F (n −1;n −1;α/2)1 2 F (n −1;n −1;1−α/2)1 2

Exemplo 1.8. Pretende-se comparar o desempenho de duas máquinas, A

e B, no que diz respeito à precisão de fabrico de uma peça. A partir de13 peças produzidas na máquina A e de 16 peças produzidas na máquinaB, obtiveram-se os seguintes resultados para a variância amostral de umadeterminada dimensão cotada no desenho: s21 “ 6, 32mm2 para a máquinaA e s22 “ 4, 8mm2 para a máquina B. Admitindo que para as duas máquinasa distribuição da referida dimensão é normal, determine um intervalo deconfiança a 90% para a razão entre as variâncias σ2

1 e σ21.

Sejam X1 - “dimensão cotada no desenho de uma peça produzida na má-quina A em mm” e X2 - “dimensão cotada no desenho de uma peça produ-zida na máquina B em mm”. Pretendemos um intervalo de confiança para oquociente entre as variâncias das dimensões cotadas no desenho para peçasproduzidas nas duas máquinas.

• Parâmetro a estimar:σ2

1

σ2

2

;

• Tipos de população: Normais;



• Variável fulcral:S2

1

S2

2

ˆ σ2

2

σ2

1

„ F pn1 ´ 1;n2 ´ 1q;

• Outros dados: s21 “ 6, 32, s22 “ 4, 8;

α/2

1− αα/2

F (n −1;n −1;α/2)1 2 F (n −1;n −1;1−α/2)1 2


22/23



com F`n1 ´ 1;n2 ´ 1; α

2

˘ “ F p12; 15; 0, 05q “ 1

F p15;12;0,95q “ 1

2,6169“

0, 3821 e F`n1 ´ 1;n2 ´ 1; 1 ´ α

2

˘ “ F p12; 15; 0, 95q “ 2, 4753.

Logo tem-se

P”F

`n1 ´ 1;n2 ´ 1; α

2

˘ ă S2

1

S2

2

ˆ σ2

2

σ2

1

ă F`n1 ´ 1;n2 ´ 1; 1 ´ α

2

˘ı“ 1 ´ α

P”0, 3821 ă S2

1

S2

2

ˆ σ2

2

σ2

1

ă 2, 4753ı

“ 0, 9 ôô P

”0, 3821 ˆ S2

2

S2

1

ă σ2

2

σ2

1

ă 2, 4753 ˆ S2

2

S2

1

ı“ 0, 9 ô

ô P”

1

2,4753ˆ S2

1

S2

2

ă σ2

1

σ2

2

ă 1

0,3817ˆ S2

1

S2

2

ı“ 0, 9.


sI0,9rσ21

σ22

“j

1

2, 4753ˆ S2

1

S22

;1

0, 3817ˆ S2

1

S22


sI0,9r˚σ21

σ22

“j

1

2, 4753ˆ 6, 32

4, 8;

1

0, 3817ˆ 6, 32

4, 8

„“

“ s0, 5319; 3, 4495r .

Estima-se que o quociente entre as variâncias das dimensões cotadas no de-senho para peças produzidas nas duas máquinas se situe entre 0, 5319mm e3, 4495mm, a um nível de confiança de 90%.


23/23

Resumo -estimacao

Documents

Transcript of Resumo -estimacao