Apostila - Inferência Estatística (1)

67
1 Capítulo 1 Inferência Estatística 1.1 Introdução Considere-se que o resultado de um experimento qualquer é a observação de uma variável aleatória , discreta ou continua. Esta variável é caracterizada por uma distribuição de probabilidade pertencendo a alguma família de distribuições especificada na qual um número finito de parâmetros ( , . . ., ) é, em geral, desconhecido. Seja ( ; ) a função de probabilidade ou densidade de dado . Aqui ( ; ) é escrito indiferentemente para distribuições univariadas discretas ou contínuas. Admite-se que temos observações ( , . . ., ) - rea1izações da variável aleatória - geradas repetindo-se o experimento. A teoria de probabilidade trata do problema da distribuição de quando esta é completamente definida (i.é, todos os parâmetros 's são conhecidos). Entretanto, se a distribuição de não está completamente definida e podemos apenas supor que a sua distribuição pertence a família ), o problema passa a ser de inferência estatística. O interesse é então, a partir das observações , ter alguma informação sobre e assim determinar completamente a distribuição ) de . Parece razoavel supor que a distribuicao das alturas dos brasileiros adultos possa ser ´ ¸ ~ representada por uma distribuição Normal. Mas esta afirmacao nao e suficiente para ¸ ~ ~ ´ determinar qual a distribuicao Normal correspondente; precisariamos conhecer os ¸ ~ ´ parametros, media e variancia, desta Normal. ^ ^ ´ Se pudessemos medir as alturas de todos os brasileiros adultos, teriamos meios de ´ ´ obter os verdadeiros valores dos parametros e, assim, produzir a distribuicao Normal exata. ^ ¸ ~ Contudo, fazer inferencia atraves dos dados populacionais nem sempre e possivel ou ^ ´ ´ ´ viavel. ´ Considere um experimento estatistico cujos resultados, , sao valores assumidos ´ ~ por uma variavel aleatoria . ´ ´ Seja ( ) a distribuicao de probabilidade de onde é desconhecido e ¸ ~ denominado PARÂMETRO. e uma caracteristica numerica desconhecida que determina completamente a ´ ´ ´ distribuição de probabilidade ( ).

Transcript of Apostila - Inferência Estatística (1)

  • 1Captulo 1Inferncia Estatstica

    1.1 Introduo

    Considere-se que o resultado de um experimento qualquer a observao de umavarivel aleatria , discreta ou continua. Esta varivel caracterizada por uma distribuio deprobabilidade pertencendo a alguma famlia de distribuies especificada na qual um nmero finito de parmetros ( , . . ., ) , em geral, desconhecido. Seja ( ; ) a funo de probabilidade ou densidade de dado . Aqui ( ; ) escrito indiferentemente para distribuies univariadas discretas ou contnuas. Admite-se que temos observaes ( , . . ., ) - rea1izaes da varivel aleatria - geradas repetindo-se o experimento. A teoria de probabilidade trata do problema da distribuio de quando esta completamente definida (i., todos os parmetros 's so conhecidos). Entretanto, se adistribuio de no est completamente definida e podemos apenas supor que a suadistribuio pertence a famlia ), o problema passa a ser de inferncia estatstica. O interesse ento, a partir das observaes , ter alguma informao sobre e assim determinar completamente a distribuio ) de . Parece razoavel supor que a distribuicao das alturas dos brasileiros adultos possa ser ~

    representada por uma distribuio Normal. Mas esta afirmacao nao e suficiente para~ ~ determinar qual a distribuicao Normal correspondente; precisariamos conhecer os~

    parametros, media e variancia, desta Normal.^ ^

    Se pudessemos medir as alturas de todos os brasileiros adultos, teriamos meios de

    obter os verdadeiros valores dos parametros e, assim, produzir a distribuicao Normal exata.^ ~

    Contudo, fazer inferencia atraves dos dados populacionais nem sempre e possivel ou^

    viavel.

    Considere um experimento estatistico cujos resultados, , sao valores assumidos ~ por uma variavel aleatoria .

    Seja ( ) a distribuicao de probabilidade de onde desconhecido e~ denominado PARMETRO. e uma caracteristica numerica desconhecida que determina completamente a distribuio de probabilidade ( ).

  • 2Exemplos: pode representar a chegada de navios no porto: , com parmetro onde Media Populacional e Variancia Populacional ^

    2) altura das pessoas de uma cidade, usualmente , com parmetros

    e , onde

    Media Populacional e Variancia Populacional ^

    3 temperatura em cada m do ano com parmetro de forma e parmetro de escala , onde

    e

    4 tempo de falha de um componente eletrnico ou

    Na pratica, ( ) nao sera completamente conhecida, isto e, um ou mais ~ parametros serao desconhecidos.^ ~

    O objetivo do estatistico e estimar estes parametros desconhecidos ou testar a ^validade de certas afirmacoes sobre eles.~

    Definio: O conjunto de todos os possveis valores que um parmetro (de uma f.d.p ( ) pode assumir chamado Espao Paramtrico.

    Exemplos: No primeiro exemplo acima, temos , logo .

    2) No segundo, temos e 0, ento: e

    ( e .

    Se conhecido, ento .

    3) No terceiro exemplo, temos 0 e 0, ento , e ( , 0 e 0 .

    4) Seja ~ com desconhecido, ento e .

  • 31.2 Amostra Aleatria

    Para o estatstico estimar os parmetros da distribuio de probabilidade ( ) ele ento observa valores , assumidos pela v.a. . Cada pode ser consideradon . . ., icomo o valor assumido por uma v.a. , i , . . ., , onde , . . ., sao v.a's.~ nindependentes com f.d.p comum ( ).

    Definio: Seja uma v.a. com f.d.p ( ) As observacoes , , . . . , formam uma ~ AMOSTRA ALEATORIA (a.a.)

    de tamanho n da v.a. , se elas resultam de selecoes independentes e cada tem a mesma~ distribuicao de (da populacao). ~ ~

    Exemplo: Numa linha de producao, e muito importante que o tempo gasto numa~ determinada operacao nao varie muito de empregado para empregado.~ ~

    11 empregados apresentam os tempos abaixo para realizar essa operacao~

    125 135 115 120 150 130 125 145 125 140 130

    QUESTES: 1) Qual distribuio de probabilidade ( ) melhor representaria a populao tempo gasto na operacao baseada nesses dados?~

    2) Uma vez reconhecida a distribuio (ou a melhor distribuio dentre vriaspossveis) ( ), para os dados acima, como estimar o(s) parmetro(s) .

    Entao, o objetivo do estatistico e decidir, com base numa amostra adequadamente~ selecionada, que membro ou membros da familia { ( ), } pode representar a f.d.p de . Problemas deste tipo sao chamados problemas de Inferencia Estatistica e sera o~ ^ objeto de estudo destas notas.

  • 41.3 Histograma: estimador da 'forma' da distribuio de

    Suponhamos que temos uma populacao cuja distribuicao desconhecemos. ~ ~

    Extraimos uma amostra de tamanho dessa populacao.~ Com esta informacao queremos ter uma ideia da forma da distribuicao ~ ~desconhecida, ou seja, queremos estimar a funcao densidade (no caso de variavel continua)~

    ou a distribuicao de probabilidades (no caso de variavel discreta).~ No caso de v.a. discreta, o problema a ser investigado geralmente j sugere adistribuio de probabilidade a ser adotada, contudo, para uma v.a. contnua, pode existirvrias distribuies a ser utilizada no problema.

    Exemplo: Numa central telefonica chegam 300 telefonemas por hora.^

    Qual a probabilidade de que num minuto nao haja nenhum chamado.~

    Sol: Seja X: numero de chamadas por minuto.

    X Poisson( ) onde E(X) = .~

    O numero medio de chamadas por minuto e = = 5 30060

    Portanto, P{X = 0} = = 0,006738e . 5 0! -5 0

    Exemplo: Os dados abaixo referem-se aos montantes (em milhares de dolares) de 32emprestimos pessoais em uma companhia financeira.

    6.0 0.0 2.0 6.5 5.0 3.5 4.0 7.0 8.0 7.0 8.5 6.0 4.5 0.0 6.5 6.0

    2.0 5.0 5.5 5.0 7.0 1.5 5.0 5.0 4.0 4.5 4.0 1.0 5.5 3.5 2.5 4.5

    Com os dados da tabela construimos o histograma dado abaixo.

    h=hist(X) xhist=c(min(h$breaks),h$breaks)yhist=c(0,h$density,0)xfit=seq(min(X),max(X) ,length=85)yfit=dnorm(xfit,5,1.8)plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)))lines(xfit,yfit,col="red")

  • 5

    0 2 4 6 8 10

    0.00

    0.05

    0.10

    0.15

    0.20

    xhist

    yhis

    t

    A curva suavizada da figura da uma ideia da verdadeira forma da distribuicao da ~

    variavel momentante de emprstimos. Uma comparacao visual permite-nos concluir que a distribuicao obtida aproxima-se ~ ~

    razoavelmente de uma Distribuicao Normal, i., .~

    Podemos checar a Normalidade dos dados pelo Teste .

    Existem vrios mtodos (grficos e testes) para checarmos o ajustamento dos dados(a.a.) a uma distribuio de probabilidade conhecida.

    1.4 Estatistica

    Definica~o: Seja , , . . . , uma a.a. de uma v.a. , e sejam , , . . . , os valores tomados pela amostra. Definimos ESTATISTICA uma funcao ( , , . . . , ), que tome o valor ~ ( , , . . . , ).

    Obs: 1) Uma Estatistica e uma funcao de valor numerico das observacoes amostrais. ~ ~

    Qualquer funo da amostra que no depende de parmetros desconhecidos umaestatstica.

  • 6 2) Os valores de uma estatistica possuem uma variabilidade, pois dependem da

    amostra, portanto a estatistica e uma v.a..

    As seguintes estatisticas sao de grande interesse: ~

    i) _

    Media Amostral

    1

    ii) S = Variancia Amostral^ n

    i=1i X - X

    _

    n - 1

    iii) K = min (X , . . ., X )Minimo da Amostra n

    iv) M = max (X , . . ., X )Maximo da Amostra n

    v) Correlao Amostral

    n

    i=1i i

    n n

    i=1 i=1i i

    ( )( )_ _

    ( ) ( )_ _

    Exemplo: Seja , onde conhecido mas desconhecido. ~

    Seja , . . ., uma amostra de De acordo com a definio,

    =1 no uma estatstica

    1.5 Distribuicao Amostral de uma Estatistica~

    Lembremos que estatisticas amostrais, p.ex, X, S , e outras, sao variaveis aleatorias,_ ~

    enquanto os parametros populacionais , sao constantes fixadas que podem ser^ ~

    desconhecidas.

    Definica~o: A distribuicao de probabilidade de uma estatistica e chamada sua~ DISTRIBUICAO AMOSTRAL

    ~ .

    Naturalmente, h muitas outras estatstica importantes que encontraremos, mascertamente aquelas mencionadas acima desempenham importante papel em muitasaplicaes estatsticas. Enunciaremos agora (e demonstraremos) alguns teoremas referentess estatsticas acima.

  • 71.5.1 Mdia Amostral

    Teorema: Seja uma v.a. qualquer com media e variancia . ^

    Seja , . . . , uma amostra aleatria. Seja = a Media Amostral, entao E(X) = e var(X) =

    _ ~

    _ _

    . . .

    n

    prova: i) E(X) = = = = ._

    E(X ) + E(X ) + . . . + E(X )n n n

    + + . . . + n. n

    ii) Pelo fato das variaveis serem independentes, vem

    var(X) = = = = ._

    var(X ) + var(X ) + . . . + var(X )n n n n

    + + . . . + n.

    n

    Exemplo: Seja uma populacao consistindo de 3 residencias; sendo que uma delas contem 2~ ^ comodos, outra contem 3 comodos e a terceira residencia contem 4 comodos.^ ^ ^ ^ Seja a v.a. X: no. de comodos em cada residencias.^ ^ Sup. que selecionamos aleatoriamente uma amostra de duas residencia com^reposicao.~

    A distribuicao amostral de X e dada por,~_

    -------------------------------------------- Valor de X Probabilidade

    _

    --------------------------------------------- 2.0 1/9 2.5 2/9 3.0 3/9 3.5 2/9 4.0 1/9 -------------------------------------------

    Calculando a media populacional e a variancia populacional, encontraremos: ^

    = = 3 e = = 0.67 2 + 3 + 43 3(2 - 3) + (3 - 3) + (3 - 4)

    Pela distribuicao de probabilidade da v.a. X podemos calcular E(X) e var(X), como~_ _ _

    segue:

    E(X) = X .P(X = x ) = 2x + 2.5x + 3x + 3.5x + 4x = = 3_ _ _ _

    5

    i=1i i i

    1 2 3 2 1 279 9 9 9 9 9

    E(X ) = X .P(X =x) = 4x + 6.25x + 9x + 12.25x + 16x = = 9.33_ _ _ _

    5

    i=1i i

    1 2 3 2 1 849 9 9 9 9 9

    var(X) = E(X ) - E(X) = 9.333 - 9 = 0.3333_ _ _

  • 8 Portanto, E(X) = e var(X) = ,_ _

    n

    o que comprova o resultado do Teorema.

    Ja determinamos a media e a variancia da distribuicao de X. Para obtermos as ^ ~_

    demais propriedades de X, bastaria agora determinar qual a forma da curva referente _

    distribuicao de X , ou seja qual o modelo probabilistico de X.~_ _

    Para amostras casuais simples X , . . . , X , retiradas de uma populacao Normal, a~ ndistribuicao amostral da media X sera Normal.~

    _

    Teorema: Seja uma v.a. com distribuio normal .

    Seja , . . . , uma amostra aleatria, entao , ~_

    prova: Com o proposito de encontrar a funcao densidade de X, considere sua funcao ~ ~_

    geratriz de momentos. Dai,

    M (t) = E e = E e = E e . E e . . . E e =X_ t.X t.(X +X + . . . +X )/n t.X /n t.X /n t.X /n

    _ n n

    = E e = M (t/n). Ou seja, t.X /n Xi iM (t) = M (t/n). X

    _X i

    Sabemos que se X N( , ) entao M (t) = exp .t + .~i ~ X .t2

    i

    Dai, M (t) = exp . + . = exp + = exp .t + X_ t t .t .t

    n 2 n n 2.n 2.n.t

    n

    Logo, M (t) e a funcao geratriz de momentos da variavel normal com media e ~X_

    variancia /n.^

  • 9Exemplo: Numa urna tem-se 5 tiras de papel numeradas 1, 3, 5, 5, e 7. Seja a v.a. X = valor assumido pelo elemento na populacao.~ A distribuicao de X e dada por~

    -------------------------------------------------------- x 1 3 5 7 --------- ---------------------------------------------- p(X=x) 1/5 1/5 2/5 1/5 --------------------------------------------------------

    Uma tira de papel e sorteada e recolocada na urna; entao uma segunda tira e ~sorteada. Sejam X e X , respectivamente, o primeiro e o segundo numeros sorteados.

    Tabela: Possiveis valores de X._

    (X , X ) (1,1) (1,3) (1,5) (1,5) (1,7) (3,1) (3,3) (3,5) (3,5) (3,7) (5,1) (5,3) -----------------------------------------------------------------------------------------------------X= 1 2 3 3 4 2 3 4 4 5 3 4_

    X +X2

    (5,5) (5,5) (5,7) (5,1) (5,3) (5,5) (5,5) (5,7) (7,1) (7,3) (7,5) (7,5) (7,7)-------------------------------------------------------------------------------------------------- 5 5 6 3 4 5 5 6 4 5 6 6 7

    Assim, a distribuicao amostral de X p/ n=2 e dada por,~_

    x 1 2 3 4 5 6 7_

    P{X = x} 1/25 2/25 5/25 6/25 6/25 4/25 1/25_ _

  • 10

    Exemplo: Digamos que a v.a. X represente o peso real de pacotes de cafe, enchidosautomaticamente. Sabe-se que X tem distribuicao Normal N(500, 81). Sorteamos 9 pacotes~

    e medimos seus pesos. Assim, se a maquina estiver regulada, a probabilidade deencontrarmos a media de 9 pacotes diferindo de 500 com menos de 6 gramas sera?

    Sol: P X - 500 6 P{494 X 506} P _ _

    494 500 X 500 506 5009/3 9/3 9/3_

    P{ 2 Z 2} = 95%~

    Ou seja, dificilmente 9 pacotes terao uma media fora do intervalo [498, 502]. Caso~ 9 pacotes apresentem uma media fora desse intervalo, sera razoavel desconfiar que a maquina esteja desregulada.

    Como a maioria das variaveis de interesse possuem distribuicoes que nao sao nem ~ ~ ~

    mesmo aproximadamente normais, e importante sabermos se as propriedades anteriores deX sao aproximadamente satisfeitas quando a amostragem e realizada a partir de uma_ ~ distribuicao nao-normal.~ ~

    Teorema: Seja uma amostra aleatria de uma distribuio de Poisson com

    mdia Ento tem distribuio de Poisson com parmetro .

    n

    Da, para = 0, 1, 2, ...P k _

    n

    que fornece a distribuio exata da mdia amostral para uma amostra de uma distribuiode Poisson.

  • 11

    Teorema: Se X , . . . , X uma amostra aleatria de ( ) , com fdp dada por n ( ) entao ( , ).~ I ( ,

    _

    prova: Veja Mood, Graybill e Boes.

    Exemplo: Um dispositivo eletrnico tem uma durao de vida , a qual exponencialmente distribuda, com parmetro 0,001; quer dizer, sua fdp ( ) 0,001 . Suponha-se que 100 desses dispositivos constituem uma a.a., 0,001

    fornecendo os valores observados , . . ., . Qual a probabilidade de que 1 950 1.100?

    _

    Sol: No caso presente, poderemos realmente obter a distribuio exata de Pelo Teorema_

    acima 99!

    99 0,001(0,001)

    onde a fdp de . . . . Da, a fdp de ser dada por_

    1

    _ _

    99!

    99 0,01(0,01) ._

    Portanto, tem uma distribuio gama com parmetros 0,1 e 100. Logo,_

    950 1.100 ...... _ _ _ 950

    1100

    A figura abaixo sugere-nos que, quando o tamanho da amostra aumenta,independendo da distribuicao da populacao original, a distribuicao amostral de X aproxima- ~ ~ ~

    _

    se cada vez mais de uma de uma distribuicao normal. Este resultado, fundamental na teoria~

    de Inferencia Estatistica, e conhecido como Teorema do Limite Central.^

    TEOREMA DO LIMITE CENTRAL TLC:

    Seja X uma v.a. qualquer com media e variancia . ^

    Seja , . . . , uma amostra aleatria, entao , ~_

    quando e grande.

    prova: Ver Meyer pgs. 293 e 294.

  • 12

    NOTA: Independente de a distribuicao populacional ser continua, discreta, simetrica ou~ assimetrica, o TLC estabelece que se a variancia populacional e finita, entao, a distribuicao ^ ~ ~da media amostral X e aproximadamente Normal se o tamanho da amostra for grande.

    _

    A rapidez dessa convergencia depende da distribuicao da populacao da qual a^ ~ ~

    amostra e retirada. Se a populacao original e proxima da Normal, sua convergencia e ~ ^

    rapida; ja, se a distribuicao da populacao tem a forma de um V, essa convergencia e mais ~ ~ ^

    demorada.

  • 13

    Para introduzirmos os conceitos, neste curso, assumiremos que para amostras commais de 30 elementos a aproximacao por uma uma distribuio Normal ja pode ser~ considerada muito boa. Na pratica, isto precisa ser checado antes de qualquer analise apresentada.

    Exemplo: Queremos investigar a duracao de vida de um novo tipo de lampada, pois~ ^

    acreditamos que ela tenha uma duracao maior do que as fabricadas atualmente. Cem~

    lampadas do novo tipo sao deixadas acesas ate queimarem. A duracao em horas de cada^ ~ ~ lampada e registrada.^ Supor que a populacao tenha media = 82 e variancia = 144.~ ^

    i) Se uma amostra aleatoria de tamanho n = 64 e selecionada, qual e a probabilidade da media amostral estar entre 80.8 e 83.2?

    ii) Com n = 100, calcular P{80.8 X 83.2}._

    Sol: i) Com = 82 e = 144 e como n = 64 e grande, o TLC estabelece que X _

    a ~N( , ). Portanto, Z = = N(0, 1). Dai, a X

    _

    1.5 X 82 _

    ~

    n

    P{80.8 X 83.2} P P{-0.8 Z 0.8}_

    80.8 82 X 82 83.2 821.5 1.5 1.5_

    0.7881 0.2119 0.5762

    ii) Com n = 100, temos = = 1.2. Portanto 12 n 100

    P{80.8 X 83.2} = P = P{-1 Z 1_

    80.8 82 X 82 83.2 821.2 1.2 1.2_

    = 0.8413 -0.1587 = 06826.

    NOTAS 1) Incidentalmente, no exemplo anterior, o modelo geralmente adotado e oexponencial, i.e, o conhecimento do problema fisico sugere a adocao do modelo ~

    exponencial para a duracao das lampadas. Se nao soubssemos a distribuicao da media ~ ~ ~^ amostral para um modelo exponencial utilizaramos o TLC, por se tratar de uma amostragrande. 2) Observem que, nos exemplos, consideramos sempre uma populacao com media e~ variancia conhecidas, cujo interesse e obter a probabilidade da media estar dentro de um^ intervalo fixado. Isto na pratica nem sempre e possivel, pois desconhecemos tais valores. O

    que faremos e, com base nos resultados apresentados, obter intervalos que contenham estesparametros, para uma probabilidade fixada e media resultante da amostra.^

  • 14

    1.5.2 Varincia Amostral

    Teorema: Suponhamos que (X , . . . , X ) constitua uma amostra casual simples de uma npopulacao Normal com media e variancia .~ ^ Seja

    S =

    n

    i=1i (X X)

    _

    n 1

    a Variancia Amostral. Entao:^ ~

    i) E(S ) = ;

    ii) X e S sao v.a's. independentes;_ ~

    iii) a estatistica tem uma distribuicao Qui-Quadrado com n 1 graus de ~(n 1).S

    liberdade.

    prova: i) Escrevamos:

    n n n

    i=1 i=1 i=1i i i i(X X) = (X + X) = (X ) + 2.( X)(X ) + ( X) =

    _ _ _ _

    (X ) + 2.( X). (X ) + n.( X) =_ _

    n n

    i=1 i=1i i

    = (X ) 2.n.( X) + n.( X) = (X ) n.(X ) ._ _ _

    n n

    i=1 i=1i i

    Portanto, E(S ) = E = . n. n. =

    n

    i=1i (X X)

    _

    n 1 n 1 n1

    NOTA: Se tivessemos dividido por n em vez de faze-lo por (n 1) ao definir S , a ^ propriedade acima nao seria valida.~

    ii) Prova Omitida.

    iii) Vemos inicialmente que a soma + + . . . + X X X

    n

    tem distribuicao (n) , pois cada tem distribuicao N(0 , 1). Agora, ~ ~ X i

    n n n

    i=1 i=1 i=1i i i i(X ) = (X X + X ) = (X X) + 2(X X)(X ) + (X )

    _ _ _ _ _ _ =

    = (X X) + 2.(X ). (X X) + n.(X ) ,_ _ _ _

    n n

    i=1 i=1i i

    e do fato de (X X) = X n.X = 0 , vem (X ) = (X X) + n.(X _ _ _ _

    n n n n

    i=1 i=1 i=1 i=1i i i i

    ) .

  • 15

    Dividindo ambos os membros por , e reescrevendo convenientemente, teremos:

    n n

    i=1 i=1

    X X X X_ _

    / n = + . (*)i i

    O primeiro membro da expressao (*) tem distribuicao (n) e a ultima expressao do~ ~ ~ segundo membro tem distribuicao (1), pois~

    X _

    / n

    tem distribuicao N(0 , 1). Do item ii) deste teorema pode-se provar que e~ n

    i=1

    X X_

    i

    X _

    / n

    sao v.a. independentes. Pelo Teorema 3 da Distribuicao , podemos concluir~ ~

    que n

    i=1

    X X_

    i

    tem distribuicao (n - 1). Com isso, observamos imediatamente que a v.a.~

    = . . (X X) = _

    (n 1).S (n 1) 1n 1

    n n

    i=1 i=1i

    X X_

    i

    tem distribuicao (n - 1).~

    NOTA: Muito embora S seja definida como a soma de quadrado de n variaveis, estas nvariaveis nao sao independentes. S contem somente n 1 variaveis independentes por ~ ~ ser a soma das variaveis nula.

    n

    i=1i (X X) = 0

    _

    Por isso, existe uma relacao linear entre estas n variaveis, o que significa que tao~ ~logo quaisquer n 1 delas sejam conhecidas a n- ficara determinada.a

    Corolario: var(S ) = . 2n - 1

    prova: Vimos que se X ( ) entao var(X) = 2. .~~

    Do item iii) do Teorema acima, tem-se (n - 1) (n 1).S ~

    Dai,

    var = 2.(n 1) (n 1).S

    n 1

    .var(S ) = 2.(n 1)

    Logo, var(S ) = . 2n - 1

  • 16

    A inferencia sobre a media amostral X vista anteriormente dependeu inteiramente do^ _

    fato de que a variancia populacional era conhecida.^

    Quando nao se conhecer , uma situacao muito comum na pratica, nao sera~ ~ ~

    possivel calcular a variancia da media amostral, var(X) = . ^ _

    n

    Sera entao necessario obter uma distribuicao exata da media, a qual nao envolve o ~ ~ ~parametro .^

    Teorema: Se uma a.a. de uma distribuio , com media e variancia desconhecidas. Entao, a estatistica^ ~

    _

    prova: Inicialmente dividamos numerador e denominador pelo desvio-padrao da~ populacao, e teremos~

    / . X _

    / nS

    O numerador Z = . n tem distribuicao N(0 , 1), como ja foi visto.~ X _

    O quadrado do denominador pode ser escrito como

    (n 1).S Yn 1

    /(n 1) = ,

    onde Y = . Mas como foi visto, se os X forem normalmente distribuidos, Y tem(n 1).S i

    distribuicao (n - 1).~

    Observe que Z e Y sao independentes, pois X e S sao independentes.~ ~_

    Logo, por teorema T = t(n - 1).X _

    S

    n

    Observaca~o: O teorema vale mesmo no caso de amostras extraidas de populacoes nao~ ~

    Normais, mas que tenham distribuicoes em forma de sino, como a distribuicao Normal. ~ ~

    TEOREMA: Sejam X , X , . . ., X uma populacao qualquer com media . Suponhamos~ N que uma a.a. (X , . . . , X ) seja selecionada dessa populacao. Entao,~ ~ n

    Z = N(0, 1) quando n e grandeX - _

    ~

    Sn

  • 17

    Teorema: Se e so amostras aleatrias independentes obtidas das distribuies e , respectivamente, ento:

    ~

    _ _Y

    Em particular, se , ento

    ~ _ _

    Y

    Teorema: Seja , . . ., uma a.a. de tamanho de uma distribuio . 1 Seja uma a.a. de tamanho de uma distribuio . Se as duas amostras so independentes, ento:

    onde e

    _ _

    Se, em particular, ento ~ .

    Todos os resultados desta seo s se aplicam a populaes normais. De fato, podeser demonstrado que para nenhuma outra distribuio: (i) a mdia amostral e a varincia amostral so independentementes distribudas ou (ii) a mdia amostral tem uma distribuio normal exata.

    1.5.3 Estatsticas de Ordem

    As variveis aleatrias , 1, so denominadas Estatsticas de Ordem associadas com a amostra aleatria , . . ., . Neste caso,

    1 2 . . . . Os valores extremos de amostra ( e ) so freqentemente de considervel interesse. Por exemplo, na construo de diques para controle de enchentes, a maior alturada gua que um rio particular tenha atingido nos ltimos 50 anos pode ser muitoimportante.

  • 18

    Teorema: Seja uma varivel aleatria continua com fdp e fd . Seja , . . ., uma 1 amostra aleatria de e sejam e o mnimo e o mximo da amostra, respectivamente. Ento, (a) A fdp de ser dada por ( ) [ ( )] ( ).

    (b) A fdp de ser dada por ( ) [1 ( )] ( ).

    prova: Seja ( ) a fd de . Ora, equivalente ao evento , para todo . Logo, visto que os so independentes, encontramos

    ( ) [ ( )] .

    Por isso, ( ) ( ) [ ( )] ( ).

    A deduo da fdp de ser deixada como exerccio.

    Exemplo: Um dispositivo eletrnico tem uma durao de vida , a qual exponencialmente distribuda, com parmetro 0,001; quer dizer, sua fdp ( ) 0,001 . Suponha-se que 100 desses dispositivos sejam ensaiados, fornecendo 0,001

    os valores observados , . . ., . 1 (a) Qual a probabilidade de que o maior valor observado ultrapasse 7.200 horas?

    Sol: Pede-se que 7.200 1 7.200 . Ora, o valor mximo ser menor que 7.200 se, e somente se, todo valor amostral formenor que 7.200. Da,

    7.200 1 [ (7.200)] .100

    Para calcular (7.200), recordemos que para a varivel aleatria exponencialmentedistribuda com parmetro 0,001, ( ) 1 Portanto, 0,001

    (7.200) 1 0,99925. 0,001 7200)

    Por conseguinte, a probabilidade pedida 1 (0,99925) 0,071. 100

    (b) Qual a probabilidade de que a menor durao at falhar seja menor do que 10horas? Exigiremos que 10 10 .

  • 19

    Ora, o mnimo da amostra ser maior do ou igual que 10, se, e somente se, todovalor amostral for maior do ou igual que 10. Portanto,

    0 1 [ ( 0)] .100

    Empregando a expresso de dada em (a), acima, teremos1 (10) 1 0,99005. 0,001 0) 0,01

    Da, 0 1 [0,99005] 0,63. 100

    1.5.4 Correlao Amostral

    Quando temos duas variveis aleatrias bidimensionais ( , ) que do origern a uma amostra aleatria ( , ), . . ., ( , Y ), um dos parmetros importantes, associado a uma varivel alestria bidimensional o coeficiente de correlao . A estimativa geralmente empregada para o coeficiente de correlao amostral,assim definido:

    r

    n

    i=1i i

    n n

    i=1 i=1i i

    ( )( )_ _

    ( ) ( )_ _

    Exemplo: Os dados reunidos na Tabela abaixo representarn a velocidade (km/seg) e aaltitude (km) do meteoro N." 1.242, como relatado em "Smithsonian Contributions toAstrophysics", dos Proceedings of the Symposium on Astronomy and Physics of Meteors,Cambridge, Mass., ago. 28-set., 1, 1961.

    Tabela: --------------------------------------------------------------------------------- X(velocidade, km/seg) 11,93 11,81 11,48 10,49 10,13 8,87 --------------------------------------------------------------------------------- Y(alt.itude, km) 62,56 57,78 53,10 48,61 44,38 40,57 ---------------------------------------------------------------------------------

    Um clculo direto fornece r = 0,94.

  • 20

    1.5.5 Inferencia sobre a proporcao amostral p^ ^~

    Seja p a proporcao de unidades que possuem uma dada caracteristica numa~

    populacao.~

    Assim, a populacao pode ser considerada como a variavel X tal que~

    1 se o individuo tem a dada caracteristica

    X = 0 se o individuo nao tem a dada caracteristica ~

    Logo, = E(X) = p e = var(X) = p.(1 p)

    Retirada uma amostra casual simples (X , . . . , X ), com reposicao, dessa~ npopulacao, e se indicarmos por S o total de unidades que possuem a dada caracteristica na~ namostra, ou seja

    S = X n in

    i=1

    onde X = 1 se a i- unidade na amostra tem a dada caracteristicaa i 0 se a i- unidade na amostra tem a dada caracteristicaa

    entao S b(n , p)~ n ~

    Definindo como p a proporcao de unidades que possuem a dada caracteristica na^ ~

    amostra, i.e.,p = ^ Sn

    n

    temos que P{S = k} = P = = P p = ^n Sn n n k k n

    ou seja, a distribuicao amostral de p e obtida da distribuicao de S . ~ ~^ n

    Propriedades de p^:

    i) E(p) = p e var(p) = ^ ^ p.(1 p)n

    ii) a funcao de probabilidade para p pode ser escrita explicitamente por:~ ^

  • 21

    f(p) = .p .(1 p) , p = 0 , , , . . . .1^ ^ np n n ^

    n.p n.(1-p)^ ^ 1 2n

    Figura: Distribuicao Amostral de S e p para n = 3 e p = ~ ^n 1 2

    iii) A proporcao amostral p e um caso especial da media amostral X.~ ^ _

    prova: i) E(p) = E = = = p^ Sn n nE(S ) n.pn n

    var(p) = = = ^ var(S ) n.p.(1 p) p.(1 p)n n nn

    iii) p = = = X^_

    S X + X + . . . + Xn nn n

    TEOREMA: Para n suficientemente grande, podemos considerar a distribuicao amostral de~

    p do seguinte modo:^

    p N p , , quando n +^ ~ p.(1 - p)n

    i.e, N(0, 1) ap - p ^

    ~ p(1-p)n

    prova: Vimos que S b(n , p)n ~

    Podemos escrever S = n.X ,_

    n

    mas pelo Teorema do Limite Central, X tera distribuicao aproximadamente normal, com_

    ~

    media p e variancia , ^ p.(1 p)n

    X N p , _

    ~p.(1 p)

    n

  • 22

    Logo, a transformada S tera a distribuicao aproximada ~n

    S N n.p , n.p.(1 p) .n ~

    Observe que X, na propriedade (iii), e a propria variavel p; assim, para n_

    ^

    suficientemente grande, podemos considerar a distribuicao amostral de p do seguinte modo:~ ^

    p N p , .^ ~ p.(1 p)n

    NOTA 1) Esta aproximacao e bastante satisfatoria quando a proporcao p nao esta proxima ~ ~ ~ de 0 ou de 1, e n e suficientemente grande; em geral quando n.p 5 e n.(1 - p) 5.

    2) Para uma boa aproximacao a normalidade usar uma correcao de continuidade ~ ~#

    (somar e subtrair para cada valor de uma v.a. p com distribuicao binomial.~1 2

    Exemplo: Constata-se que 2% das pecas fabricadas por determinada maquina sao ~

    defeituosas. Qual a probabilidade de, em um lote de 400 de tais pecas, 3% ou mais seremdefeituosas?

    Sol: De acordo com as propriedades anteriores, tem-se:

    E(p) = p = 0.02 e var (p) = = = = 0.000049^ ^ p.(1 - p)n 400 4000.02x0.98 0.0196

    Portanto, P{3% ou mais} = P{p 0.03} = P .^ p - 0.02^0.007 0.0070.03 - 0.02

    Como n = 400 e um valor grande, utilizamos a aproximacao pela Normal, i.e, ~

    P = P{Z 1.428} = 0.5 - 0.4236 = 0.0764. p - 0.02^0.007 0.0070.03 - 0.02

    1.6 Normalidade dos dados

    Observaremos que a distribuio normal representa um papel muito importante naEstatstica. De fato, o Teorema do Limite Central por si s assegura isto, mas h outrasrazes igualmente importantes. Em primeiro lugar, muitas populaes encontradas na prtica nas diversas reas doconhecimento parecem ter uma distribuio aproximadamente normal.

  • 23

    Outra considerao em favor da distribuio normal o fato que distribuiesamostrais baseadas numa distribuio aparentemente normal so facilmente manipuladasanaliticamente. Assim, o problema matemtico de obter distribuies para as vrias funes daamostra freqentemente mais fcil para amostras de uma populao normal que dequalquer outra, e esta seo ser dedicada ao problema de se obter as distribuies devrias funes diferentes de uma amostra aleatria de uma populao normalmentedistribuda. Para aplicar os mtodos estatsticos baseados na distribuio normal, opesquisador tem que saber, pelo menos aproximadamente, a forma geral da funo dedistribuio que os seus dados seguem. Se for normal, pode usar os mtodos diretamente;se no for, pode, s vezes, transformar os dados de modo que as observaes transformadassigam uma distribuio normal. Quando o pesquisador no sabe a forma da distribuio desua populao, ento ele pode usar outros mtodos mais gerais mas normalmente menospoderosos de anlise chamados mtodos de no-paramtricos.

    1.7 Inferencia Estatistica^

    Na disciplina Estatistica Descritiva, vimos como resumir descritivamente um conjunto

    de dados e no 1- semestre de Probabilidade e Estatstica v-se como construir modeloso

    probabilisticos para descrever alguns fenomenos. ^

    O estudo da Inferencia Estatistica tem como objetivo estudar os metodos que permitam^ tirar conclusoes sobre os parametros desconhecidos da populacao a partir da analise dos dados~ ~^ amostrais. As inferencias de interesse sao baseadas em informacoes ou quantidades obtidas de uma^ ~ ~amostra selecionada da populacao.~

    Tais inferencias podem ser de dois tipos:^

    I) : quando usamos os dados amostrais para produzir estimativas do parametro^ESTIMACAO~

    populacional.

    A estimacao dos parametros pode ser feita de duas maneiras:~ ^

    a) ESTIMACAO PONTUAL~

    - quando a partir da amostra procuramos obter um unico valor para representar oparametro populacional.^

    Exemplo: X e um estimador pontual do parametro populacional ._

    ^

  • 24

    b) ESTIMACAO POR INTERVALO~

    - quando a partir da amostra procuramos construir um intervalo para^ ^ um certo coeficiente de confianca 1 , fixado a priori. Em 100.(1 )% das vezes que o experimento for realizado, este intervalo contera o verdadeiro parametro populacional . ^

    Exemplo: Se tem uma distribuicao Normal, i.e,~

    f( ; , ) = exp , 1 12 2

    onde o parametro = ( , ) e desconhecido.^

    i) se e desejavel estimar a media = , entao ~

    a estatistica ( ) = X = e um possivel estimador de . ~_

    n

    i=1iX

    n

    ii) e (X 1.96 S /n ; X 1.96 S /n ) e um possivel estimador intervalar de ._ _

    II) : quando usamos os dados amostrais para testarmos possiveisTESTES DE HIPOTESES

    valores de certos parametros da populacao, ou mesmo tratarmos da natureza da populacao.^ ~ ~

    Quanto aos testes de hipoteses eles podem ser de dois tipos:

    a) : quando formulamos hipoteses com respeito ao valor de umPARAMETRICOS

    parametro populacional.^

    Exemplo: 1) a media populacional da altura dos brasileiros e 1,65 m, i.e., 1,65. o

    2) a proporcao de brasileiros com a doenca X e 40%, ou seja, 0,40. ~ o

    b) : quando formulamos hipoteses com respeito a naturezaNAO-PARAMETRICOS~ #

    da distribuicao da populacao, independencia de amostras, variaveis qualitativas. ~ ~ ^

    Exemplo: : A distribuicao da populacao e N 1 , 0.2 . ~ ~ o

    2) Deseja-se verificar se existe dependncia entre a renda (varivel A) e o nmero defilhos em famlias (varivel B) de uma cidade, i., : A e B so variveis independenteso

    3) : o modelo linear

  • 25

    Captulo 2Estimao Pontual

    2 1 Introduo

    Vamos assumir que a distribuio da varivel aleatria pertence a certa famlia dedistribuies em que um particular elemento especificado, quando o valor do parmetro especificado. No caso de um problema de estimao, o objetivo procurar, segundo algumcritrio especificado, valores que representem adequadamente os parmetrosdesconhecidos. Neste captulo o conceito de estimador so introduzidos. Critrios para acomparao de estimadores so tambm considerados.

    Definio: Qualquer estatstica ( , . . ., que assuma valores em um estimador para .

    O estimadador da ideia de um possivel valor do parametro. ^

    Exemplo: 1) Seja , . . ., uma a.a. de onde no conhecido.

    Ento ( ) um estimador de , e tambm ( )~ ~_

    2(n+1)

    Na verdade, qualquer ( ) um estimador de .~

    Exemplo: 2) Seja , . . ., uma a.a. de onde desconhecido. Ento um estimador de

    _

    Alguns outros estimadores so ( ) , ( ) e ( )~ ~ ~

    Nosso interesse conhecer aproximadamente com base na amostra , . . ., disponvel, i., determinar uma funcao (X) dessas observacoes que represente o verdadeiro ~ ~~valor do parametro .^

    Em muitas situaes, o interesse estimar uma funo ( ).

    Exemplo: 3) Seja onde o parametro e desconhecido Se e desejavel estimar^ a media, i.e, , ento ( )

  • 26

    Exemplo: 4) Weibull , e funo de confiabilidade ( ) ,

    para fixo, ento ( ) .~

    NOTAO: O estimador ( ) de usualmente denotado por ~ ^

    Um dos grandes problemas da Estatstica o de encontrar um estimador razovelpara o parmetro desconhecido ou para uma funo ( ).

    2.2 Propriedades de Estimadores

    Definica~o: Diz-se que o estimador e um Estimador Nao-Viciado do parametro se:^ ~ ^

    E( ) = , para todo ^

    Exemplo: Sejam , . . . , uma amostra aleatria da v.a. com [ ] e [ ] . Temos, ento, que

    i) E(X) = = = = ,_

    E(X ) + E(X ) + . . . + E(X )n n n

    + + . . . + n. n e pelo fato das variaveis serem independentes, vem

    var(X) = = = = _

    var(X ) + var(X ) + . . . + var(X )n n n n

    + + . . . + n.

    n

    Portanto X um estimador no-viciado para ._

    Exemplo: Suponha-se que desejemos um estimador no-viciado da varincia de uma

    varivel aleatria, baseada em uma amostra , . . . , . Muito embora intuitivamente pudssemos considerar o estimador

    ^ (X X) ,_ 1n

    n

    i=1i

    verifica-se que este estimador tem um valor esperado E( ) . De fato,^ (n 1)n

    E( ) = E (X X) E (X X) n(X ) =^_ _ _

    1 1n nn n

    i=1 i=1i i

    E(X X) E(X ) ._ _

    1nn

    i=1i

    Lembrando que = E(X ) e var(X) = E(X ) , temos_ _

    i

  • 27

    E( ) = n var(X) = = .^_

    1n n n(n 1)

    Portanto viciado para , mas assintticamente no viciado, ou seja, ^

    medida que o tamanho da amostra aumenta, o vcio diminui.

    Por isso, um estimador no-viciado de dado pela varincia amostral

    (X X) ._

    1

    n

    i=1i

    Interpretao: "No-viciado" significa, essencialmente, que o valor mdio do estimadorser prximo do verdadeiro valor do parmetro. Por exemplo, se o mesmo estimador forempregado repetidamente e fizermos a mdia desses valores, esperaramos que essa mdiafosse prxima do verdadeiro valor do parmetro (Veja exemplo no cap 1). Muito emboraseja desejvel que um estimador seja no-viciado, haver ocasies em que poderemospreferir estimador viciado (veja abaixo). possvel (e na verdade muito facilmente feito)encontrar mais de um estimador no-viciado para um parmetro desconhecido. A fim derealizar uma escolha plausvel em tais situaes, introduziremos o seguinte conceito.

    Definica~o: O Erro Quadrtico Mdio (EQM) de um estimador do parmetro dado por^

    ( ) .^ ^

    Pode-se mostrar que ( ) cio( ).^ ^ ^

    onde cio( )=[ ( ) o vico do estimador .^ ^ ^

    No caso em que um estimador no viciado para , temos que^

    ( ) ,^ ^

    ou seja, o erro quadrtico mdio de se reduz sua varincia.^

    Exemplo: Sejam , . . . , uma amostra aleatria da varivel aleatria ( .

    Conforme visto no anterior (X X) um estimador viciado para .^_

    1nn

    i=1i

    Tambm vimos que (X X) um estimador no viciado para ._

    1

    n

    i=1i

    Por outro lado, temos que [ ] [ ]

    2

  • 28

    e que [ ] .^

    2

    Notemos que , apesar de viciado, apresenta um menor que o do^ estimador .

    Definica~o: Seja um estimador no-viciado de .^ Diremos que um estimatidor no-viciado, de varincia mnima de , se para^ todas os estimadores * tais que ( *) , tivermos^ ^

    ( ) ( *) para todo .^ ^

    Isto , dentre todas os estimadores no-viciados de , tem a menor varincia de^ todos.

    Definica~o: Sejam e dois estimadores nao-viciados de um mesmo parametro . Diz-se^ ^ ~ ^

    que e Mais Eficiente do que se:^ ^

    ( ) ( )^ ^

    NOTA: A varincia de uma varivel aleatria mede a variabilidade da varivel aleatria emtorno de seu valor esperado. Por isso, exigir que um estimador no-viciado tenha varinciapequena intuitivamente com preensvel, pois se a varincia for pequena, ento o valor davarivel aleatria tende a ser prximo de sua mdia, o que no caso de um estimador no-viciado significa prximo do verdadeiro valor do parmetro.

    Exemplo: Sejam , , e estimadores de , cuja f.d.p. esta esbocada na figura^ ^ ^ ^ abaixo.

    Presumivelmente prefeririamos a . Ambos estimadores sao nao viciados e ^ ^ ~ ~ var( ) var( ).^ ^

  • 29

    No caso dos estimadores e , a deciso no to evidente (Fig. 14.2), porque ^ ^ ^ 3 no-viciado, enquanto no o . Todavia, ( ) ( ). Isso significa que,^ ^ ^ 4 enquanto em mdia ser prximo de , sua grande varincia revela que desvios^ considerveis em relao a no sero de surpreender. por sua vez, tende a ser um tanto^ maior do que , em mdia, e no entanto, poder ser mais prximo de do que (veja a^ Figura acima).

    Exemplo: Sejam , , uma amostra aleatria da varivel aleatria com [ ] e [ ] 1. Consideremos os estimadores

    ^ ^_

    e X X X . X X X 4 42 3

    Ento, [ ] e [ ]^ ^

    n 3

    Temos tambm que Ento, [ ] e [ ]^ ^ 2 2 1 1 1 64 6 6 16

    Como e so ambos no viciados, segue que melhor que , pois^ ^ ^ ^ 2 2 [ ] [ ], para todo .^ ^

    Exemplo: Outro interessante exemplo dado no livro do Meyer (Exemplo 14.2 pg 336).

    NOTA: Existem algumas tcnicas gerais para encontrar estimadores no-viciados devarincia mnima. Contudo, no estamos capacitados a explicar isso aqui. Faremos usodeste conceito principalmente com a finalidade de escolher entre dois ou mais estimadoresno-viciados disponveis. Quer dizer, se e forem ambos estimadores no-viciados de^ ^ , e se ( ) ( ), preferiremos .^ ^ ^

  • 30

    1- Lista de Exercicios de Probabilidade e Estatistica a

    1) Em uma populacao em que N = 6, tal que X = {1, 3, 4, 7, 8, 11}, calcular a media~ amostral para todas as possiveis amostras de tamanho 2.

    a) Verificar as propriedades da media amostral X e da variancia amostral S . Use o_

    ^

    processo com e sem reposicao.~

    b) Determinar a distribuicao amostral destas duas estatisticas.~

    2) Sabe-se que 20% das pecas de um lote sao defeituosas. Sorteiam-se 8 pecas, com ~

    reposicao, e calcula-se a proporcao p de pecas defeituosas na amostra. ~ ~ ^

    a) Construa a distribuicao exata de p (use a tabua da distribuicao binomial) ~ ~^

    b) Construa a aproximacao normal a binomial~ #

    c) Voce acha que a segunda distribuicao e uma boa aproximacao da primeira?^ ~ ~

    d) Ja sabemos que, para dado p fixo, a aproximacao melhora a medida que n ~ #

    aumenta. Agora, se n e fixo, para qual valor de p a aproximacao e melhor? ~

    3) Uma amostra simples ao acaso de 30 domicilios foi selecionada em uma zona urbana que

    contem 15000 domicilios. O numero de pessoas de cada um dos domicilios que integram a

    amostra e o seguinte:5 6 3 3 2 3 3 3 4 4 3 2 7 4 35 4 4 3 3 4 3 3 1 2 4 3 4 2 4Estimar o numero total de pessoas que vivem nesta zona.

    4) Definimos a variavel e = X como sendo o erro amostral da media. Suponha que a _

    variancia dos salarios de uma certa regiao seja 400 unidades ao quadrado.^ ~

    a) Determine E(e) e var(e) b) Que proporcao das amostras de tamanho 25 terao erro amostral absoluto maior~ ~

    do que 2 unidades? c) E que proporcao das amostras de tamanho 100?~

    d) Neste ultimo caso, qual o valor de d, tal que P e d = 1%?

    e) Qual deve ser o tamanho da amostra para que 95% dos erros amostrais absolutossejam inferiores a uma unidade?

    5) A vida media de determinado ser vivo e de 2000 horas, com desvio-padrao de 60 horas. ~

    Escolhida uma amostra aleatoria de 10 desses seres vivos, determine a probabilidade de odesvio-padrao amostral nao exceder 50 horas.~ ~

  • 31

    6) Uma v.a. X tem distribuicao Normal, com media 100 e desvio-padrao 10.~ ~a) Qual a P{90 X 110} ?

    b) se X e a media de uma amostra de 16 elementos retirados dessa populacao,_

    ~

    calcule P{90 X 110}._

    c) Desenhe, num grafico, as distribuicoes de X e X. ~

    _

    d) Que tamanho deveria ter a amostra para que P{90 X 110} = 95% ?_

    7) A maquina de empacotar um determinado produto o faz segundo uma distribuicao ~

    normal, com media e desvio-padrao 10g. ~a) Em quanto deve ser regulado o peso medio para que apenas 10% dos pacotes

    tenham menos do que 500g?b) Com a maquina assim regulada, qual a probabilidade de que o peso total de 4

    pacotes escolhidos ao acaso seja inferior a 2 kg?

    8) Um procedimento de controle de qualidade foi planejado para garantir um maximo de10% de itens defeituosos na producao. Supondo que a producao esteja sob controle e que ~ ~

    os itens sejam vendidos em caixas com 100, qual a probabilidade de que uma caixa :

    a) tenha mais do que 10% de defeituosos? b) Tenha nenhum defeituoso? c) Se um cliente encontrar mais do que 18 defeituosos ele recebe uma caixa gratis.Qual a proporcao esperada de clientes bonificados?~

    9) A distribuicao dos comprimentos dos elos de corrente de bicicleta e normal, com media 2~

    cm e variancia igual a 0,01 cm . Para que uma corrente se ajuste a bicicleta, deve ter^ #

    comprimento total entre 58 e 61 cm. Qual a probabilidade de uma corrente com 30 elos nao~

    se ajustar a bicicleta?#

    10) Ao medir o tempo de reacao, um psicologista avaliou que seu desvio-padrao era de~ ~

    0.05 segundos. De que tamanho deve ser tomada uma amostra destinada as medicoes, para~#

    que se possa estar 99% confiante de que o erro da estimativa do tempo medio de reacao ~

    nao exceda a 0.01 segundos?~

    11) Em um parque existe uma populacao muito grande de esquilos. Em uma amostra~

    aleatoria, 40 destes esquilos achou-se que estao infetados com o bacilo da peste. De que ~

    tamanho deveria ser tomada a amostra para estimar a dita proporcao com um erro nao~ ~

    maior de 5%, com uma probabilidade de acerto de 99%?

  • 32

    Captulo 3Intervalos de Confiana

    3.1 Introducao~

    Suponhamos que o modelo de probabilidade f(x , ) para um experimento envolveum parametro desconhecido .^ Atraves de uma amostra aleatoria (X , . . . , X ) , desejamos obter alguma ninformacao sobre o verdadeiro valor do parametro da populacao . ~ ~^ 0

    Uma maneira de se ter uma ideia do verdadeiro valor de e atraves dos 0estimadores pontuais; estes especificam um unico valor para o estimador.

    Por exemplo, a media X obtida da amostra e uma estimativa da media real da _

    populacao. Este procedimento nao permite julgar qual a possivel magnitude do erro que~ ~ estamos cometendo. Dai, surge a ideia de construir Intervalos de Confianca que, nos casos estudados neste curso, sao baseados na distribuicao amostral do estimador pontual.~ ~

    Desse modo, se e um estimador de , e conhecida a distribuicao amostral de ,^ ^ ~ geralmente podemos obter dois valores A e B , tais que0 0

    P{A B } = 0 0

    onde e denominado Coeficiente de Confianca.

    Portanto, o intervalo de confianca e dado por dois limites numericos A e B entre 0 0os quais supomos estar o verdadeiro parametro, com um coeficiente de confianca ^ especificado. Entao, valores dentro do intervalo (A , B ) seriam melhores estimadores de do~ 0 0 que valores fora do intervalo.

    Agora, se (A , B ) e um intervalo de confianca para com um coeficiente de 0 0 confianca podemos esperar encontrar, ou estar confiantes em encontrar no intervalo (A 0, B ) em cerca de das vezes que o experimento for realizado.0 Ou seja, sera a probabilidade de obter um intervalo que inclua o valor exato, edesconhecido, do parametro.^ Por exemplo, se escolhermos = 95%, podemos esperar que cerca de 95% dasamostras que podemos obter fornecerao intervalos que incluem o valor de , enquanto os~ restantes 5% nao incluem. Dessa maneira a afirmacao "o intervalo inclui" sera correta em~ ~ cerca de 475 casos dentre 500 casos, enquanto que nos restantes sera falsa.

    O coeficiente de confianca e escolhido a priori, e dependera do grau de precisao ~com que desejamos obter a estimativa, sendo os coeficiente de confianca mais comuns osque correspondem as probabilidades 95% e 90%.#

    Quanto maior o coeficiente de confianca exigido para o intervalo, maior sera a amplitude deste.

  • 33

    3.2 Interpretacao do IC~

    Imaginemos uma serie de repeticoes do experimento com fixado, por exemplo, = ~ 0. Alem disso, imaginemos que um intervalo de confianca (A , B) com coeficiente de confianca seja calculado atraves dos dados do mesmo modo para cada repeticao. ~

    Devido variabilidade dos dados, o intervalo (A , B) variaria em cada repeticao do~experimento.

    A interpretacao do que seja um intervalo de confianca para com coeficiente de ~ confianca e a seguinte:

    - construindo 100 intervalos, correspondentes a 100 amostras de tamanho n, delesconterao o valor .~ 0

    Graficamente, teriamos a situacao da figura a seguir. ~

    Um IC 95% incluiria o verdadeiro valor parametrico em 95% das repeticoes do ~0experimento com fixado.

  • 34

    NOTA: 1) Exceto em casos especiais, nao e correto concluir que um particular intervalo de~ confianca 95% (A , B ) tenha uma probabilidade de 95% de conter o verdadeiro valor 0 0 0do parametro. Pode acontecer que (A , B ) contenha todos os possiveis valores de com^ 0 0 probabilidade 100% ou nao contenha nenhum. O coeficiente de confianca 95% e uma media~ teorica figurada que refere-se a uma sequencia imaginaria de repeticoes do experimento. ^ ~ Logo, poderemos dizer que em 95% das vezes, o intervalo contem o verdadeirovalor de . Isto nao e o mesmo que afirmar que 95% e a probabilidade do parametro cair~ ^ dentro do intervalo, o que constituira um erro, pois e um parametro ( nao e uma variavel ^ ~ aleatoria) e ele esta ou nao no intervalo. ~

    2) Na pratica, tem-se um particular conjunto de dados observados e desejamos obterinformacao sobre o valor de . Se os intervalos de confianca sao suficientes numa pesquisa, ~ ~eles devem ser construidos de modo que um unico intervalo observado (A , B ) 0 0proporcione informacoes. Valores dentro do intervalo seriam de algum modo melhores~estimadores de do que valores fora do intervalo.

    Comumente os intervalos de confianca que mais nos interessam relacionam-se oucom a media populacional ou com o parametro p (probabilidade de ocorrencia do evento) ^ ^na Distribuicao Binomial ou variancia populacional .~ ^

    3.3 Intervalo de Confianca para a media

    No caso da estimativa de , atraves do intervalo de confianca, temos dois casos a considerar que dependem do tamanho da amostra, amostra pequena ou grande, ou do fatode termos ou nao conhecimento do valor da variancia da populacao.~ ~^

    Teorema: Seja (X , X , . . . , X ) uma amostra aleatoria de uma populacao Normal N( , ~ n ) com conhecido. Entao,~

    X .z , X + .z _ _ n n 2 2

    e um Intervalo de Confianca 100.(1 )% bicaudal para .

    prova: Suponhamos que (A , B) seja o intervalo procurado, entao:~

    P{A B} = 1 -

    Sabemos que Z = N(0 , 1). Dai,X _

    ~

    n

    P = 1 X B X A _ _

    X _

    n n n

  • 35

    Pela tabela da Normal, temos P z Z z = 1 onde Z N(0 , 2 2

    ~1).

    Logo, = z B = X + .z _

    X B _

    n

    n 2 2

    = z A = X .z _

    X A _

    n

    n 2 2

    Portanto, X .z , X + .z e um IC 100.(1 )% para , supondo_ _

    n n 2 2 conhecido.

    Exemplo: Uma maquina enche pacotes de cafe com uma variancia igual a 100 g . Ela ^ estava regulada para enche-los com 500 g, em media. Agora ela se desregulou, e queremos^ saber qual a nova media . Uma amostra de 25 pacotes apresentou uma media igual a 485 g. Construir um intervalo 95% de confianca para .

    Sol: = 100 n = 25 30 e X = 485_

    A = X .z = 485 .1.96 = 481_ n

    10 25

    2

    B = X + .z = 485 + .1.96 = 489_

    n

    10 25

    2

    Logo, o IC 95% bicaudal para , com conhecido, e (481 , 489).

  • 36

    Exercicio: Obter um IC 100.(1 )% unicaudal a direita para , supondo conhecido. #

    Sol: Suponhamos que (A, + ) seja o intervalo procurado, entao:~

    P{A } = 1

    Sabemos que Z = N(0 , 1). Dai,X _

    ~

    n

    P = 1 - X _

    X A _

    n n

    Pela tabela da Normal, temos P{Z z } = 1 onde Z N(0 , 1). ~

    Logo, = z A = X .z _

    X A _

    n

    n

    Portanto, X .z , + e um IC 100.(1 )% unicaudal para ,_

    n supondo conhecido.

    Teorema: Seja (X , X , . . . , X ) uma amostra aleatoria de uma populacao Normal N( , ~ n ) com desconhecio. Entao,~

    X .t , X + .t _ _ S S n n 2 2

    e um Intervalo de Confianca 100.(1 )% bicaudal para .

    prova: Neste caso precisamos calcular o estimador S = do parametro e^

    (X X)_

    n 1

    n

    i=1i

    utilizando o resultado

    t = t . X _

    ~ (n-1) S

    n

    procedemos de forma analoga ao caso anterior.

    Exemplo: A seguinte amostra:

    9 8 12 7 9 6 11 6 10 9

  • 37

    foi extraida de uma populacao Normal. Construir um IC 95% para . ~ Sol: X = 8.7 e S = 4.0 S = 2

    _

    g.l. = n 1 = 9

    A = X .t = 7.27_

    S n 2

    B = X + .t = 10.13_

    S n

    2

    Logo, o IC 95% bicaudal para , com desconhecido, e (7.27 , 10.13).

    Exercicio: Selecione, segundo uma a.c.s com reposicao (use a Tabua de N- Aleatorios),~ ouma amostra de tamanho 35 da populacao de quarteiroes listada na tabela anexa com N =~ ~270.

    Y = n- de residencias alugadas no quarteirao i.o ^ ~iSabemos que = 16.9 e = 428.07

    Construa um IC 95% para a media : a) com conhecido; b) supondo desconhecido.

    NOTA: Pelo Teorema do Limite Central, independente de X ter distribuicao Normal,~temos

    Z = N(0 , 1) para n grande. aX _

    ~ n

    Assim, qualquer que seja a distribuicao de X, um intervalo de confianca 100.(1 ~ )% para , considerando-se amostras grandes e dado por:

    i) se e conhecido

    X .z , X + .z _ _

    n n 2 2

    onde z e dado pela tabela da Normal.2

    ii) se e desconhecido

    X .z , X + .z _ _

    S S n n 2 2

  • 38

    onde S = .

    n

    i=1i(X X)

    _

    n 1

    Exemplo: Seja X a duracao da vida de uma peca de equipamento. Admita-se que 100 pecas ~foram ensaiadas fornecendo uma duracao de vida media de X = 500 horas e desvio-padrao~ ~

    _

    S = 5 horas. Deseja-se obter um intervalo de 95% para a media .

    Sol: Sabemos que a distribuicao do tempo de vida de um equipamento nao e Normal,~ ~ porem, n = 100. Podemos entao utilizar o TLC. ~

    Dai, A = X .z = 499.02_

    S n 2e B = X + .z = 500.98

    _S

    n2

    Portanto, 499.02 , 500.98 e um IC 95% para .

    3.4 Intervalo de Confianca para a variancia ^

    Teorema: Seja (X , X , . . . , X ) uma amostra aleatoria extraida de uma populacao com ~ ndistribuicao Normal N( , ), onde e desconhecido. Entao~ ~

    , (n 1).S (n 1).S

    2 21-

    e um IC 100.(1 )% para .

    prova: Suponhamos que (A , B) seja o IC 100.(1 )% para . Entao,~

    P{A B} = 1

    Sabemos que , onde S = , entao:~(n 1).S ~ (n- )(X X)

    _

    n 1

    n

    i=1i

    P = 1 (n 1).S (n 1).S (n 1).S B A

  • 39

    P{ } = 1 onde 1- ~ (n-1) 2 2

    Logo, = B = (n 1).S (n 1).S B 1-

    2 1- 2

    e = A =

    2 2

    (n 1).S (n 1).S A

    Portanto, , e um IC 100.(1 )% para . (n 1).S (n 1).S

    2 21-

    Exemplo: Supondo populacao Normal, construir o intervalo de confianca para a variancia ~ ^populacional ao nivel de 90% para a amostra:

    9 8 12 7 9 6 11 6 10 9

    Sol: Temos n = 10 , S = 4 , g.l. = 9 , = 10%

    Entao: A = = 2.13 e B = = 10.81~ (n 1).S (n 1).S

    2 21-

    Portanto, o IC 100(1 )% bicaudal para e (2.13 , 10.81).

  • 40

    3.5 Intervalo de Confianca para o desvio-padrao ~

    A partir do IC 100.(1 )% para a variancia , podemos obter o IC para o^ desvio-padrao , bastando para isto extrair a raiz quadrada do intervalo para a variancia,~ ^obtendo dessa maneira aproximadamente um intervalo para . Assim,

    S. , S. n 1 n 1

    2 21-

    e um IC 100.(1 )% para .

    3.6 Intervalo de Confianca para a proporcao p ~

    Teorema: Seja p a proporcao de "sucessos" em uma amostra de tamanho n (n:grande)^ ~extraida de uma populacao binomial em que p e a proporcao populacional de sucessos. ~ ~ Suponhamos que n.p 5 e n.(1 p) 5. Entao,~

    p z . , p + z . ^ ^ 2 2

    p.(1 p) p.(1 p)^ ^ ^ ^n n

    e um IC 100.(1 )% bicaudal para p.

    prova; Suponhamos que seja (A , B) o intervalo procurado, entao:~

    P{A p B} = 1

    Sabemos que Z = N(0 , 1) , considerando-se n grande e n.p 5 e n.(1 p p ^

    ~

    p.(1 p)n

    p) 5. Dai,

    P = 1 p B p p p A ^ ^ ^

    p.(1 p) p.(1 p) p.(1 p)n n n

    Como nao conhecemos p, usamos p como estimador de p. Entao o intervalo fica,~ ~^

    P = 1 p B p p p A ^ ^ ^

    p.(1 p) p.(1 p) p.(1 p)^ ^ ^ ^ ^ ^

    n n n

    Pela tabela da Normal, temos P z Z z = 1 onde Z N(0 , 2 2

    ~1).

  • 41

    Logo, = z B = p + z . ^p B p.(1 p)^ ^ ^ n

    p.(1 p) 2 2^ ^

    n

    e = z A = p z . ^p A p.(1 p)^ ^ ^

    n

    p.(1 p) 2 2^ ^n

    Portanto, p z . , p + z . e um IC 100.(1 ^ ^ 2 2

    p.(1 p) p.(1 p)^ ^ ^ ^n n

    )% , bicaudal, para p.

    Exemplo: Entre 500 pessoas inquiridas a respeito de suas preferencias eleitorais, 260^mostraram-se favoraveis ao candidato Y. Calcular um intervalo de confianca ao nivel de 90% para a porcentagem dos eleitores favoraveis a Y.

    Sol: Pelos dados do problema, verificamos que n = 500 x = 260 1 = 90% e

    p = = = 0.52^ x 260 n 500

    O IC 100.(1 )% para p e dado por

    p - z . , p + z . .^ ^ 2 2

    p.(1 p) p.(1 p) ^ ^ ^ ^n n

    Substituindo os dados do problema no intervalo acima e utilizando-se os valores databela da Normal.

    tem-se 0.52 1.64. , 0.52 + 1.64. . 0.52.(1 0.52) 0.52.(1 0.52) 500 500

    Logo, o IC 90% para p e dado por: (0.488 , 0.552)

  • 42

    2a. Lista de Probabilidade e Estatistica

    1) De 50.000 valvulas fabricadas por uma companhia retira-se uma amostra de 400valvulas, e obtem-se a vida media de 800 horas e o desvio-padrao de 100 horas. ~

    a) Qual o intervalo de confianca de 99% para a vida media da populacao? ~

    b) Com que confianca dir-se ia que a vida media e 800 0,98?

    c) Que tamanho deve ter a amostra para que seja de 95% a confianca na estimativa800 7,84?

    2) Uma amostra aleatoria de 625 donas-de-casa revela que 70% delas preferem a marca Xde detergente. Construir um intervalo de confianca para a proporcao populacional das ~donas-de-casa que preferem X com coeficiente de confianca 90%.

    3) Antes de uma eleicao, um determinado partido esta interessado em estimar a proporcao ~ ~p de eleitores favoraveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou que60% dos eleitores eram favoraveis ao candidato em questao. ~ a) Determine o tamanho da amostra necessario para que o erro cometido naestimacao seja de, no maximo, 0.01 com probabilidade de 80%.~

    b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55%dos eleitores eram favoraveis ao candidato em questao, construa um intervalo de confianca ~ para a proporcao p. (Utilize = 0,95.)~

    4) Numa linha de producao, e muito importante que o tempo gasto numa determinada~ operacao nao varie muito de empregado para empregado.~ ~

    a) Que parametro estatistico poderia ser usado para avaliar esse fato? Por que?^ ^ b) Se 11 empregados apresentam os tempos abaixo para realizar essa operacao, qual~seria a estimativa para o parametro acima?^

    125 135 115 120 150 130 125 145 125 140 130

    c) Determine um intervalo de confianca 90% para o parametro. ^

    5) Um pesquisador esta estudando a resistencia de um determinado material sob ^determinadas condicoes. Ele sabe que essa variavel e normalmente distribuida com desvio-~ padrao de 2 unidades.~

    a) Utilizando os valores 4.9 , 7.0 , 8.1 , 4.5 , 5.6 , 6.8 , 7.2 , 5.7 , 6.2 unidades,obtidos de uma amostra de tamanho 9, determine o intervalo de confianca para a resistencia ^media com um coeficiente de confianca = 0,90.

    b) Qual o tamanho da amostra necessario para que o erro cometido, ao estimarmosa resistencia media, nao seja superior a 0,01 unidades com probabilidade 0,90?^ ~

    c) Suponha que no item (a) nao fosse conhecido o desvio-padrao. Como voce ~ ~ ^procederia para determinar o intervalo de confianca, e que suposicoes voce faria para isso? ~ ^

  • 43

    6) Suponha que X tenha uma distribuicao uniforme no intervalo (0 , ), onde e~ desconhecido. Uma amostra de n observacoes e escolhida. Suponha que n seja~ suficientemente grande para que o Teorema do Limite Central se aplique e se possaaproximar a distribuicao de X por uma Normal N( , /n). Obtenha um intervalo de~

    _

    confianca para , com coeficiente de confianca 90%.

  • 44

    Captulo 4Testes de hipteses

    4.1 Introducao~

    Testes de Hipoteses sao procedimentos estatisticos que nos permitem aceitar ou ~

    rejeitar uma hipotese H com base nos dados amostrais. 0

    Em testes estatisticos, copiamos a estrategia matematica de provar por contradicao. ~

    Comecando com uma hipotese H que se quer rejeitar, supomos que H e verdadeira e 0 0desenvolvendo argumentos de forma correta, se chegarmos a uma contradicao, entao a~ ~

    hipotese H deve ser falsa. 0 Em estatistica, copiamos este enfoque, mas em vez de atingir uma contradicao, ~

    observamos um resultado improvavel.

    Quando uma investigacao e relacionada a um fato baseado na amostra, a negacao ~ ~deste fato e considerado como a hipotese H e o fato a ser comprovado pelos dados e 0considerado como a hipotese alternativa H .

    O objetivo do teste de hipotese e dizer, atraves de uma estatistica obtida de uma ^amostra, se a hipotese H e ou nao aceitavel. Operacionalmente, isto e conseguido atraves ~0de uma regiao critica RC. Caso o valor da estatistica pertenca a esta regiao, rejeitamos H ;~ ~ 0caso contrario, nao rejeitamos H . Esta regiao e construida de modo que P{ RC | H e ~ ~ ^0 0 verdadeira} seja igual a , um n- fixado.o

    Os testes de hipoteses podem ser de dois tipos:i) Testes Parametricosii) Testes Nao-Parametricos~ : Aderencia, Independencia, Homogeneidade e etc.^ ^

    4.2 Hipotese Nula e Hipotese Alternativa

    H : Hipotese Nula e a hipotese a ser testada. 0H : Hipotese Alternativa.

  • 45

    A rejeicao de H implica a aceitacao de H , e a aceitacao de H implica a rejeicao ~ ~ ~ ~0 0de H .

    Exemplos: Para o caso dos testes parametricos podemos ter:

    1) Teste Bicaudal H : = 1000 H : 100

    2) Teste Unicaudal a Direita H : = 0.01# 0

    H : 0.01

    3) Teste Unicaudal a Esquerda H : p = 0.4# 0 H : p 0.4

    NOTA: 1) A informacao para verificar se uma hipotese e verdadeira ou falsa e obtida da~ amostra da populacao.~

    2) Durante o curso abordaremos a hipotese nula somente como uma hipotese estatistica simples, onde a distribuicao e completamente especificada. ~

    Admitindo que H seja verdadeira, estamos admitindo conhecidos os parametros^0que definem a distribuicao da estatistica usada no teste.~

    4.3 Estatistica do Teste

    A Estatistica do Teste e uma estatistica T cujo valor serve para determinar a decisao ~

    a ser tomada.

    NOTA: Assim como ocorreu para o desenvolvimento da estimacao por intervalo, os testes~

    de hipotese tambem sao baseados nas distribuicoes dos estimadores. ~ ~Dessa maneira, as distribuicoes de probabilidade da media amostral X; da variancia~

    _^

    amostral S ; da proporcao amostral p, serao utilizadas para os respectivos testes sobre a~ ~^

    media , a variancia e a proporcao p. ^ ~

    4.4 Erros Tipo I e Tipo II

    Quando tomamos uma decisao sobre a hipotese proposta corremos o risco de~ tomarmos uma decisao errada.~

  • 46

    Associado a um teste de hipoteses temos dois erros possiveis:

    i) a hipotese H e verdadeira mas o teste leva a conclusao de que H ~Erro Tipo I: 0 0deve ser rejeitada.

    ii) a hipotese H e falsa mas o teste leva a conclusao de que H nao ~ ~Erro Tipo II: 0 0#

    deve ser rejeitada.

    A tabela a seguir apresenta as possibilidades de cometermos os erros tipo I e tipo II.------------------------------------------------------------------

    Aceitar H Rejeitar H0 0 -------------------------------------------------------------------

    H e verdadeira Decisao Correta Erro Tipo I ~0H e falsa Erro Tipo II Decisao Correta ~0

    --------------------------------------------------------------------

    Designaremos = P{cometer erro tipo I} = P{Rejeitar H | H e verdadeira} 0 0

    e = P{cometer erro tipo II} = P{Aceitar H | H e falsa} 0 0

    Exemplo: H : = 0 0 H : 0

    NOTA: A probabilidade do erro do tipo II, , na maioria dos casos, nao e possivel calcular,~ pois usualmente nao especifica uma unica possibilidade, mas uma familia de possibilidades~

    alternativas.

  • 47

    4.5 Regiao Critica do Teste~

    A Regiao Critica (RC) do Teste e a regiao de rejeicao da hipotese H .~ ~ ~ 0

    NOTA: 1) Normalmente, temos que determinar um valor critico T da estatistica T, que nos cpermite escolher entre H e H . Este valor critico T delimitara a regiao critica. ~0 c

    2) Observem que determina a regiao critica do teste.~

    4.6 Escolha da Hipotese Nula

    Qual sera a hipotese nula H ? 0_ A formulacao da hipotese nula a ser testada depende de qual e o erro mais grave.~

    A teoria Classica do teste de hipotese considera que o erro do tipo I e muito mais grave que o erro tipo II. Ou seja, e muito mais grave rejeitar H quando ela e verdadeira do 0que aceita-la quando e falsa. Isto significa que se deve ter muita evidencia de que H e falsa ^ 0antes de rejeita-la. Consideraremos, portanto, H a hipotese cuja rejeicao implicaria num erro tipo I ~0mais grave.

    Exemplo: Suponhamos que uma vacina contra uma doenca vai ser testada em um grupo depessoas, enquanto que um grupo de controle recebe apenas soro. Apos algum tempoverificamos quais pessoas adquiriram a doenca (afetados) e quais nao adquiriram (nao ~ ~

    afetados), obtendo-se a tabela abaixo:

    Afetados Nao-Afetados~

    --------------------------------------------------------------- Receberam n n Vacinas --------------------------------------------------------------- Receberam n n Soro ---------------------------------------------------------------

    Assim, n pessoas foram vacinadas e nao ficaram doentes, enquanto que n~ pessoas receberam apenas soro e ficaram doentes, . . .

  • 48

    Suponhamos que queremos escolher uma das seguintes hipoteses nulas.

    H' : a vacina e eficiente. H'' : a vacina e inocua.

    -Se H = H' , o erro tipo I consiste em rejeitar H' sendo ela verdadeira, i.e, a vacina0e eficiente, mas a consideramos inocua.

    -Se H = H'' , o erro tipo I consiste rejeitar H'' sendo ela verdadeira, i.e, a vacina e 0inocua, mas a consideramos eficiente.

    Tomamos H'' como hipotese nula, pois o erro tipo I decorrente nos parece ser omais grave.

    4.7 Mecanismo dos Erros

    Para o entendimento do relacionamento entre as probabilidades e , vamos idealizar um exemplo.

    Exemplo: Um professor aplica um teste envolvendo 10 questoes do tipo certo-errado. Ele~

    quer testar a hipotese "o estudante esta adivinhando".

    Sol: Designemos por p, a probabilidade do estudante responder corretamente a umaquestao.~

    A hipotese que iremos testar sera H : p = . 0 1 2 O teste sera baseado no numero de sucessos nas n = 10 repeticoes independentes do ~

    experimento, i.e, no numero de acertos nas 10 questoes. ~

    Seja X: numero de respostas certas em 10 questoes~

    Portanto X b 10 , onde X = 0, 1, 2, 3, 4, 5, . . . , 10 .~ 12

    Se H for verdadeira, o numero de acertos devera estar proximo de E(X) = n.p = 010. = 5 1 2

    i) Seja RC = {8, 9, 10} a regiao critica do teste, i.e,~ "Se oito ou mais respostas estao corretas, o estudante nao esta adivinhando, caso~ ~

    contrario diremos que o estudante esta adivinhando."

  • 49

    H sera rejeitada se X = 8 ou X = 9 ou X = 10.0 Dai,

    = P{Rej. H | H e verd.} = P{X = 8 ou X = 9 ou X = 10 | p = 0.5} = 0 0

    = .0,5 .0,5 + .0,5 .0,5 + .0,5 .0,5 = 0.054 10 10 108 9 108 10-8 9 10-9 10 10-10

    Suponhamos, que na realidade, a hipotese testada H :p = seja falsa, ou seja que p 0 12= 0.8. Calculemos o valor de .

    = P{Aceit. H | H e falsa} = P{X = 0 ou X = 1 ou . . . ou X = 7 | p = 0.8} = 0 0

    = .0,8 .0,8 + .0,8 .0,8 + . . . + .0,8 .0,8 = 0.322 10 10 100 1 70 10-0 1 10-1 7 10-7

    ii) Agora, seja RC = {9, 10}, entao,~

    = P{Rej. H | H e verd.} = P{X = 9 ou X = 10 | p = 0.5} = 0 0

    = .0,5 .0,5 + .0,5 .0,5 = 0.01 10 107 79 10-9 10 10-10

    = P{Aceit. H | H e falsa} = P{X = 0 ou X = 1 ou . . . ou X = 8 | p = 0.8} = 0 0

    = .0,8 .0,8 + .0,8 .0,8 + . . . + .0,8 .0,8 = 0.624 10 10 100 1 80 10-0 1 10-1 8 10-8

    iii) Agora, seja RC = {7, 8, 9, 10}, entao, = ? e = ? (Exercicio)~

    Obtemos, entao, o seguinte quadro:~

    RC ------------------------------------------------------ {7, 8, 9, 10} 0.17 0.121 {8, 9, 10} 0.054 0.322 {9, 10} 0.01 0.624 ------------------------------------------------------

    Portanto, diminuindo , aumenta.

  • 50

    NOTA: Um teste ideal e dado quando e tem os menores valores possiveis. Porem, para o tamanho da amostra n fixado, vimos no exemplo acima que quantomenor for o valor de , maior sera o valor de . Ou seja, nao e possivel tomar e que ~ sejam minimos possiveis.

    Como solucao, fixa-se um valor para e toma-se o menor possivel. A justificativa~ de fixar e dada pelo fato que, em geral, o erro tipo I e mais grave do que o erro tipo II.

    Portanto, na construcao do teste de hipoteses, procuramos controlar o erro tipo I,~ fixando-se a sua probabilidade de ocorrencia. Uma vez fixado esse valor, a regiao critica e^ ~ construida de modo que P{ RC | H e verdadeira} seja igual ao valor fixado . 0

    4.8 Nivel de Significancia do Teste ^

    Definica~o: A probabilidade de cometer um erro tipo I e um valor arbitrario e recebe o nome de Nivel de Significancia do teste. ^

    O resultado da amostra e cada vez mais significante para rejeitar H quanto menor 0for esse nivel .

    Interpretaca~o: Se escolhermos um nivel de significancia de 5%, significa que em 100 ^

    realizacoes do experimento cerca de 5 vezes rejeitariamos H quando ela devesse ser aceita,~ 0ou seja podemos ter 95% de confianca de termos tomado a decisao correta. ~

    De modo geral, a regiao de aceitacao de um teste de hipoteses H : = vs H : ~ ~ 0 0 , com nivel de significancia , corresponde a um intervalo de confianca bicaudal ^ 0

    100.(1 )% para .

    Na pratica, costuma-se adotar um nivel de significancia de 0,05 ou 0,01. ^

    4.9 Procedimentos para se efetuar um Teste de Hipoteses

    O procedimento para a realizacao deste teste pode ser resumido nos seguintes~

    passos: 1- Identificar as hipoteses H e H . 0

    2- Fixar o limite de erro (nivel de significancia). ^3- Identificar a estatistica do teste.

    4- Calcular o valor da estatistica do teste a partir dos dados da amostra selecionada.

    5- Determinar a regiao critica do teste.~

  • 51

    6- Verificar se o valor calculado em 4) esta incluido na regiao de rejeicao ou nao, e ~ ~ ~concluir pela aceitacao ou rejeicao de H . ~ ~ 0

    Procuraremos, sempre que fizermos teste de hipoteses, distinguir bem estes passos.

    Exemplo: Consideremos uma amostra de 16 elementos retirada de uma populacao Normal~

    N( , ), onde = 16, dada por

    20 18 19 17 24 18 17 26 21 17 19 3 21 20 21 21Desejamos testar H : = 20 com nivel de significancia = 5%. ^0

    H : 20

    Sol: Se fixarmos os riscos de cometer o erro tipo I, ou seja a probabilidade , obteremosa regiao critica para o teste sujeito a este erro.~

    Sabemos que a Estatistica do Teste e: Z = N(0 , 1). X - _

    ~

    n

    Como H indica que a media populacional deve ser maior do que 20, teremos umteste unicaudal a direita, concentrando-se o risco na cauda a direita da distribuicao.~# #Assim:

    Determinemos o valor de x da seguinte forma,_

    c

    P{X x } = 0.05 P = 0.05 = 1.64 x =_ _ _

    c cX - 20_

    x - 20 x - 20_ _

    4 4 416 16 16

    c c

    21.64 Logo, a regra de decisao para aceitacao ou rejeicao de H : = 20, para = 0.05~ ~ ~ 0 sera:

    Regiao Critica (RC): Rejeita-se H quando X 21,64~ _

    0 Regiao de Aceitacao (RA): Aceita-se H quando X 21,64~ ~

    _0

    Conclusao: O valor observado da estatistica e X = 18.88, i.e, a media obtida da~ _

    amostra. Como X = 18.88 x = 21,64 aceitamos H ._

    c 0

  • 52

    NOTA: 1) A critica a este procedimento e que, em muitos casos, a escolha do nivel de significancia e completamente arbitraria.^

    Alem disso, nos casos em que a distribuicao sob H e discreta, o nivel de ~ 0significancia escolhido pode nem mesmo ser atingido.^

    Exemplo: Um praticante de tiro ao alvo vai comprar um lote muito grande de municao e o~

    vendedor garante que a porcentagem de projeteis em bom estado e 90%. No entanto, o comprador decide fazer uma experiencia para testar a veracidade da^

    afirmacao do vendedor. Ele escolhe 10 projeteis e vai verificar quantos sao bons.~ ~ Ele decide nao comprar o lote se X = numero de bons na amostra for muito~

    pequeno.

    Sol: X e uma v.a. t.q. X b(10 , p) e X = 0, 1, 2, . . . , 10, onde p = proporcao de bons ~ ~projeteis no lote. A hipotese a ser testada e H : p = 0,9. 0 Suponhamos que para cada suposta regiao critica ele calcula a probabilidade .~ Dado que p = 0.9, temos (ver tabelas):

    P{X = 0} = P{X = 1} = P{X = 2} = P{X = 3} = P{X = 4} = 0,~

    P{X = 5} = 0.001 P{X = 6} = 0.011 P{X = 7} = 0.057

    Portanto, se RC = {0, 1, 2, 3, 4, 5} entao~

    = P{Rej. H | H verd.} = P{X=0 ou X=1 ou X=2 . . . ou X=5 | p = 0.9} = 0.001,0 0

    Se RC = {0, 1, 2, 3, 4, 5, 6} entao~

    = P{Rej. H | H verd.} = P{X=0 ou X=1 ou X=2 . . . ou X=6 | p=0.9} = 0.012,0 0

    Se RC = {0, 1, 2, 3, 4, 5, 6, 7} entao~

    = P{Rej. H | H verd.} = P{X=0 ou X=1 ou X=2 . . . ou X=7 | p = 0.9} = 0.069,0 0

    Logo, se tivessimos fixado = 2,5% nao haveria nenhuma regiao critica RC para ~ ~ qual = 2,5%.

  • 53

    2) Um teste de hipotese que empregue apenas o erro , nao pode ser tratado como ~um teste decisorio inequivoco. A aceitacao de H pode acarretar erro e, em decorrencia, ~ ^0 problemas de decisoes erroneas.~ ^

    Apesar de o teste de hipotese ser um instrumento de aplicacao generalizado, esta ~

    restricao deve sempre estar presente nas decisoes efetuadas, quando de sua aplicacao, ~ ~ ~

    particularmente quando a indicacao do teste e a aceitacao de H . ~ ~ 0

  • 54

    3- Lista de Exercicios de Probabilidade e Estatistica a

    1) Na situacao abaixo, escolha como hipotese nula, H , aquela que para voce leva a um~ 0erro de primeira especie mais importante. Descreva quais os dois erros em cada caso.

    a) O trabalho de um operador de radar e detectar aeronaves inimigas. Quando surge algumacoisa estranha na tela, ele deve decidir entre as hipoteses:

    - esta comecando um ataque; - tudo bem, apenas uma leve interferencia.^

    b) Num juri, um individuo esta sendo julgado por um crime. As hipoteses sujeitas ao juri sao:~

    - o acusado e inocente; - o acusado e culpado.

    c) Um pesquisador acredita que descobriu uma vacina contra resfriado. Ele ira conduziruma pesquisa de laboratorio para verificar a veracidade da afirmacao. De acordo com o ~

    resultado, ele lancara ou nao a vacina no mercado. As hipoteses que pode testar sao: ~ ~

    - a vacina e boa; - a vacina nao e boa.~

    2) Fazendo o teste H : = 155 ( = 20) H : = 145 ( = 12),0

    e n = 25 , estabeleceu-se a seguinte regiao critica:~

    RC = {y R | y 150}. a) qual a probabilidade de rejeitar H quando verdadeira? 0

    b) qual a probabilidade de aceitar H quando H e verdadeira? 0

    3) Se, ao lancarmos 3 vezes uma moeda, aparecerem 3 coroas, decidimos rejeitar a hipotese de que a moeda e "honesta". Quais as probabilidades de erro I e erro II?

    4) Suponha o leitor que dispoe da seguinte informacao:~ ~ H : p = 35% H : p 35%0 a) Explique por que a probabilidade de um erro tipo II e zero se a proporcao ~

    populacional e 35%.

  • 55

    b) Explique por que a probabilidade de um erro tipo I e zero se a proporcao ~

    populacional e diferente de 35%.5) Para decidirmos se os habitantes de uma ilha sao descendentes da civilizacao A ou B,~ ~iremos proceder do seguinte modo:

    i) selecionamos uma amostra de 100 moradores adultos da ilha, e determinamos aaltura media deles;

    ii) se essa altura media for superior a 176, diremos que sao descendentes de B; caso ~

    contrario, sao descendentes de A. ~

    Os parametros das alturas das duas civilizacoes sao:^ ~ ~

    A: = 175 e = 10. B: = 177 e = 10.

    Definamos:Erro I - dizer que os habitantes da ilha sao descendentes de B quando, na realidade,~

    sao de A.~

    Erro II - dizer que sao de A quando, na realidade, sao de B.~ ~

    a) Qual a probabilidade do erro I? E o erro II?b) Qual deve ser a regra de decisao se quisermos fixar a probabilidade do erro I em~

    5%? Qual a probabilidade do erro II, nesse caso?c) Se = 5, como ficariam as respostas de (b)?Ad) Quais as probabilidades do erro II, nas condicoes da questao (b), se a media =~ ~ B

    178? E = 180? E = 181? B B Coloque num grafico os pares , P(erro II / ) . B B

  • 56

    Captulo 5Testes **********

    5.1 Teste para a media

    Em geral nao temos um unico valor para a hipotese H .~ Dependendo da informacao inicial podemos realizar o teste dos seguintes modos:~

    a) H : = b) H : = c) H : = 0 0 0 H : H : H : 0 0 0

    com nivel de significancia onde e um valor suposto conhecido. ^ 0 Para delinear os procedimentos em um teste de hipoteses sobre a media de uma populacao, devemos nos basear na distribuicao do estimador da media populacional ~ ~

    Z = N(0,1) t = t X X _ _

    / S/~ ~ (n- )

    n n

    conforme a variancia seja conhecida ou nao.^ ~

    5.1.1 CASO I: conhecido

    Suposico~es: Suponhamos uma amostra X , X , . . . ,X da populacao N( , ).~ n

    Estatistica do Teste: Z = N(0 , 1).X _

    ~

    n

    Procedimento:

    i) Calcular: Z = onde e o valor dado na hipotese nula. obs 0X - _

    0

    n

    ii) Determinar a RA e a RC do teste

  • 57

    a) b) c)

    onde z ou z sao os valores criticos dados pela Tabela da Normal.~ 2

    iii) Conclusoes:~

    a) se z z entao rejeita-se H .~obs b) se z z z entao aceita-se H .~

    2 2obs

    c) se z z entao rejeita-se H .~obs

    Observaco~es:1) Evidentemente, se o valor de z estiver fora dos intervalos indicados acima, aobs

    decisao sera contraria.~

    2) Se z = z , nos casos b) e c), ou z = z , no caso a), a sugestao e aumentar~ obs obs 2o tamanho da amostra.

    Exemplo 1) O representante de um grupo comunitario informa a uma pessoa, que esta interessado em estabelecer um centro comercial e que a renda media familiar na area e de $15.000. Para uma amostra aleatoria de n = 15 familias, a renda media familiar foi X =

    _

    $14.000. Testar a hipotese nula de que = $15.000, utilizando um nivel de significancia de ^5%. Supor que a renda familiar tem distribuicao Normal com = $1500.~

    Sol: Dados do problema: n = 15, porem populacao e normal com = 1500 conhecido, ~ = 5% e X = 14.000.

    _

    Utilizaremos primeiramente um teste bicaudal, ou seja, desejamos testar: H : = 15000

    H : 15000 com = 5%

    i) Calculo de Z = = = 2,582 obsX _

    14000 15000

    0 n

    1500 15

  • 58

    ii) Determinacao das RA e a RC do teste.~

    iii) Conclusao:~

    Como z = 2,582 z = 1,96 entao rejeita-se H .~obs 2 Logo, deve-se rejeitar a afirmacao do representante da comunidade, de que a renda~

    media familiar da populacao seja de $15000, a um nivel de significancia de 5%. ~ ^

    Exemplo 2): Com referencia ao exemplo 1, uma vez que a hipotese foi rejeitada, ou seja,^ que rejeitamos que = 15000 contra 15000, sera que podemos aceitar que 15000, pois a media amostral nos da um forte indicio para isto.

    Sol: Desejamos testar: H : = 15000 H : 15000 com = 5% ii) Determinacao das RA e a RC do teste.~

    iii) Conclusao:~

    Como z = - 2.582 - z = - 1,64 entao rejeita-se H .~obs Dai, aceitamos a hipotese de que a renda media familiar da populacao deve ser ~

    menor do que $15000, a um nivel de significancia de 5%. ^

    Exercicio: Selecione, segundo uma a.c.s com reposicao (use a Tabua de N- Aleatorios),~ o

    uma amostra de tamanho 35 da populacao de quarteiroes listada na tabela anexa com N =~ ~

    270.Y = n- de residencias alugadas no quarteirao i.o ^ ~i

  • 59

    Sabemos que = 16.9 e = 428.07

    Testar a hipotese de que = 16.9 para um nivel de significancia de 10%. ^

    5.1.2 CASO II: desconhecido

    Neste caso precisamos calcular o estimador S = do parametro e^ n

    i=1i(X - X)

    _

    n - 1

    utilizar a variavel,

    t = t X - _

    ~ (n-1)

    S n

    como a estatistica do teste.

    i) Calcular: t = onde e o valor dado na hipotese nula. obs 0X - _

    0

    S n

    ii) Determinar a RA e a RC do teste

    a) b) c)

    onde t e t sao valores criticos dados pela Tabela da t de Student.~ 2

    iii) Conclusoes:~

    a) se z - t entao rejeita-se H .~obs b) se - t z t entao aceita-se H .~

    2 2 obs

    c) se z t entao rejeita-se H .~obs

    Exemplo: Os registros dos ultimos anos de um colegio atestam para os calouros admitidosa nota media 115. Para testar a hipotese de que a media de uma nova turma e a mesma, tirou-se, ao acaso, uma amostra de 20 notas, obtendo-se media 118 e desvio-padrao 20. ~

    Admitir que = 0.05 para efetuar o teste.

    Sol: Entao, H : = 115~ H : 115 com = 5%

    i) Calculo de t = = = 0,67 obsX - _

    118 - 115 0

    S 20 n 20

  • 60

    ii) Determinacao das RA e a RC do teste.~

    iii) Conclusao:~

    Como 2,093 t = 0,67 2,093 entao aceita-se H .~ obs Dai, aceitamos a hipotese de que a nota media da nova turma e a mesma da turma

    passada, a um nivel de significancia de 5%. ^

    Exercicio: No exemplo 1), testar as hipotese H : = 15000 H : 15000 com = 5%

    supondo desconhecido com S = $1500.

    NOTA: Pelo Teorema do Limite Central, independente de X ter distribuicao Normal,~

    um teste de hipoteses para , com nivel de significancia , considerando-se amostras ^ grandes, por exemplo n 30, tera como estatistica do teste:

    i) se e conhecido

    Z = N(0 , 1) para n 30. aX - _

    ~

    n

    ii) se e desconhecido

    Z = N(0 , 1) para n 30, aX - _

    ~

    Sn

    onde S = .n

    i=1i(X - X)

    _

    n - 1

    Exemplo: Uma industria de eletricidade faz lampadas cujo tempo de vida medio e 800^ horas e = 40 horas. Testar a hipotese de que = 800 horas contra a alternativa 800 horas se uma amostra aleatoria de 30 lampadas tem um tempo medio de vida de 788 horas. ^

    Adotar = 0,04.

  • 61

    Sol: Dados do problema: n = 30, para uma populacao nao-normal com = 40 conhecido, ~ ~ = 5% e X = 788.

    _

    Desejamos testar: H : = 800 H : 800 com = 5%

    i) Calculo de Z = = = -1,643 obsX - _

    788 - 800

    0

    n40

    30

    ii) Determinacao das RA e a RC do teste.~

    iii) Conclusao:~

    Como - z = - 2,054 z = - 1,643 z = 2,054, entao aceita-se H .~ 2 2

    obs Logo, concluimos que o tempo medio de vida das lampadas produzidas e mesmo de ^

    800 horas, a um nivel de significancia de 5%. ^

    5.2 Teste para a proporcao p~

    Problema: Tem-se uma populacao e uma hipotese sobre a proporcao p de individuos ~ ~

    portadores de uma certa caracteristica. Esta hipotese afirma que essa proporcao e igual a ~

    um certo numero p .0

    Hipoteses:

    a) H : p = p b) H : p = p c) H : p = p 0 0 0 H : p p H : p p H : p p 0 0 0

    com nivel de significancia e p e um valor suposto conhecido. ^ 0

  • 62

    Suposico~es:

    i) Suponhamos uma amostra aleatoria X , X , . . . ,X de uma populacao dicotomica, sendo ~ ^ nX o numero de unidades na amostra que possuem a dada caracteristica.

    ii) n.p 5 e n.(1 p ) 5 para garantir uma boa aproximacao da Binomial pela~0 0 Normal.

    Estatistica do Teste:

    A Estatistica do Teste sera: Z = N(0 , 1), onde p = . ^p - p ^ ~ x n p.(1 p)n

    Procedimento do Teste:

    i) Calculo do valor observado: Z = obs p - p ^ 0p .(1 - p )0 0

    n

    onde p e o valor dado na hipotese nula. 0

    ii) Determinar a RA e a RC do teste

    a) b) c)

    onde z ou z sao os valores criticos dados pela Tabela da Normal.~ 2

    iii) Conclusoes:~

    a) se z - z entao rejeita-se H .~obs b) se - z z z entao aceita-se H .~

    2 2 obs

    c) se z z entao rejeita-se H .~obs

  • 63

    Exemplo: Uma estacao de televisao afirma que 60% dos televisores estavam ligados no seu~ ~

    programa especial da ultima 2- feira. Uma rede competidora deseja contestar essaa

    afirmacao, e decide, para isso, usar uma amostra de 200 familias.~

    Admitamos que, do trabalho de campo, entrevistando as 200 familias sorteadas,

    obtivemos 104 respostas afirmativas. Testar a veracidade da afirmacao da emissora ao nivel~

    de significancia = 0.05.^

    Sol: Desejamos testar: H : p = 0.60 H : p 0.60 com = 5%

    Observemos que n.p = 200.(0,60) = 120 5 e n.(1 - p ) = 200.(0,40) = 80 50 0

    i) Calculo do valor observado: Z = = = -2,31 obs p - p ^ 0,52 - 0,60 0p .(1 - p )0 0

    n0,6.(1 - 0,6)

    200

    onde p = = = 0.52^ x 104 n 200

    ii) Determinacao das RA e a RC do teste~

    iii) Conclusao:~

    Como z = - 2.31 - z = - 1,64 entao rejeita-se H .~obs Ou seja, ha evidencias de que a audiencia do programa de 2- feira nao foi de 60% e ^ ^ a ~

    sim inferior a este numero.

    5.3 Teste para a variancia ^

    Alem da media populacional, muitas vezes temos interesse em fazer inferencias ^

    sobre a variabilidade populacional. Por exemplo, p