Estat´ıstica - IFSCfabiosouza/Tecnologo/Telefonia 1/Apostila... · Este curso apresenta uma...

Estatıstica

Silvia Emiko Shimakura & Paulo Justiniano Ribeiro JuniorDepartamento de Estatıstica-UFPR

Email: [email protected]

Resumo

Este curso apresenta uma introducao aos metodos estatısticos para modelagem de dados.Neste curso, o aluno pensara em problemas praticos de uma forma quantitativa e ganharaum entendimento dos princıpios basicos em estatıstica. A obtencao de um conhecimentosolido das ideias basicas dara ao aluno confianca para abordar metodos estatısticos maisavancados que podem ser encontrados no futuro.

1

Livros

Bussab, W. e Morettin, P. Estatıstica Basica. Editora Atlas.

Speed, T. & Nolan, D. Stats Labs.

Soares, J.F. Estatıstica

Conteudo

1. Introducao: Por que ha a necessidade de Estatıstica?

2. Estatısticas Descritivas: sumario de dados, grafico de barras, grafico de setores,histograma, ramo-e-folhas, mediana, moda, desvio padrao, amplitude inter-quartis,...

3. Populacoes e amostras: usando amostras para aprender sobre a populacao

4. Intervalos de confianca: estimando a media populacional a partir de uma amostra

5. Testes de hipoteses: ideia basica e testes para uma amostra

6. Comparacao de dois grupos: As mensuracoes num grupo tendem a ser maiores emmedia do que em outro?

7. Correlacao: verificando se os valores de duas quantidades tendem a ser relacionadas

8. Regressao: descrevendo como o comportamento de uma quantidade muda com o valorda outra

2

1 Introducao

1.1 O que e Estatıstica?

Primeiro deve-se estabelecer o que se deseja dizer com “estatıstica”. Ela tem pelo menostres significados:

1. colecao de informacoes numericas ou dados,

2. medidas resultantes de um conjunto de dados, como por exemplo medias,

3. metodos usados na coleta e interpretacao de dados.

Qual e o papel da estatıstica na ciencia?

• Na ciencia, sao realizados estudos experimentais ou observacionais, levando a colecaode dados numericos.

• O proposito da investigacao e responder uma questao cientıfica.

• O padrao de variacao nos dados faz com que a resposta nao seja obvia.

• Em geral, a disciplina de estatıstica refere-se a metodos para coleta e descricao dosdados, e entao a verificacao da forca da evidencia nos dados pro ou contra as ideiascientıficas. A presenca de uma variacao nao previsıvel nos dados faz disso uma tarefapouco trivial.

1.2 Variacao Amostral

Alguns exemplos onde a variacao esta presente no dado podem ser encontrados em Landim(1997).

3

2 Estatıstica Descritiva

2.1 Tipos de dado

A interpretacao das listas de numeros a olho e muito difıcil. Ao inves disso, nos deverıamosproduzir um resumo verbal ou numerico e/ou usar metodos graficos para descreveros pontos principais dos dados.

O metodo mais apropriado dependera da natureza dos dados, e aqui podemos distinguirdois tipos principais:

1. Dados qualitativos ou categoricos que podem ser:

(a) nominais, por exemplo

• sexo: masculino, feminino• classificacao de fosseis

(b) ordinais, i.e. categorias ordenadas, tais como

• salinidade: baixa, media, alta• abundancia: dominante, abundante, frequente, ocasional, raro

2. Dados quantitativos ou numericos que podem ser:

(a) discretos, i.e. contagens ou numero inteiros, por exemplo

• numero de ovos postos pela tartaruga marinha• numero de ataques de asma no ano passado

(b) contınuos, i.e. medidas numa escala contınua, tais como

• volume, area, peso, massa• velocidade de corrente

As distincoes sao menos rıgidas do que a descricao acima insinua. Por exemplo, em geralnos tratarıamos idade como uma variavel contınua, mas se a idade for registrada pelo anomais proximo, podemos trata-la como discreta, e se separarmos a amostra em “criancas”,“adultos jovens”, “idade media”, “velhos”, por exemplo, entao temos faixa etaria comouma variavel ordenada categorica. No entanto, em geral e recomendado manter os dadosem sua forma original, categorizando os dados somente para propositos de apresentacao.

4

2.2 Dados qualitativos

Para sumarizar dados qualitativos numericamente, utiliza-se contagens, proporcoes,percentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escalaapropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia saohomens, poderıamos relatar a taxa como uma proporcao (0.5) ou provavelmente aindamelhor como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000pessoas sao portadores de uma doenca rara poderıamos expressar isto como uma proporcaoobservada (0.0014) ou percentual (0.14%), mas melhor seria 1.4 casos por mil.

2.2.1 Tabulando dados

Frequentemente o primeiro passo da descricao de dados e criar uma tabela de frequencia.Por exemplo, as especies de “woodlice” caindo numa armadilha foram:

Species tally ni ni/N pi PercentageOniscus ||||||||||||||| 12 12/27 0.444 44.4%Porcellio |||||||| 8 8/27 0.296 29.6%Philoscia ||||| 5 5/27 0.185 18.5%Armadilidium || 2 2/27 0.074 7.4%

N = 27 Σpi = 1

Num relatorio, a segunda coluna nao seria mostrada, e os dados seriam sumarizados numformato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucascategorias, entao e conveniente colapssar algumas das categorias com somente uma ouduas observacoes em outra categoria chamada “outros”.

Table showing the species of 27 woodlice that fell in a pit-fall trap:

Species Frequency PercentageOniscus 12 44.4%Porcellio 8 29.6%Philoscia 5 18.5%Armadilidium 2 7.4%

Tabelas simples como esta sao na maioria das vezes suficientes para descrever dados qua-litativos especialmente quando existem somente duas ou tres categorias.

5

2.2.2 Resumindo numericamente

Considere o seguinte conjunto de dados que mostra os escores de abundancia mediosDAFOR de ocorrencia de Nardus stricta em 100 areas investigadas em Exmoor.

Dominante 8Abundante 33Frequente 32Ocasional 17Raro 10

A moda de um conjunto de dados categoricos e a categoria que tem o maior percentualde dados. Ela deve ser usada cuidadosamente como uma medida resumo global porque emuito dependente da forma como os dados sao categorizados. Para os dados de “woodlice”a moda e Oniscus. Para os dados acima, a categoria modal e “Abundante”, mas por muitopouco.

A mediana, bem como a moda, podem ser calculadas para dados ordenados. Este evalor do “meio”, mais comumente usado para dados quantitativos. A mediana nao fazsentido para os dados “woodlice”. Para os dados de abundancia, a categoria mediana e“Frequente”, porque 50% dos dados estao em categorias superiores, e menos do que 50%estao em categorias inferiores. A mediana e mais robusta do que a moda pois e menossensıvel a categorizacao adotada.

2.2.3 Graficos de Barras

Dados qualitativos, particularmente quando as categorias sao ordenadas, sao usualmentebem ilustrados num simples grafico de barras onde a altura da barra e igual a frequencia.

Rare Occasional Frequent Abundant Dominant

010

2030

Freq

uenc

y

6

2.2.4 Grafico de setores

Grafico de setores tambem podem ser uteis para apresentacao de dados categoricos or-denados. Os setores do grafico sao desenhados de tal forma que eles tenham area propor-cional a frequencia. Entao para os dados “woodlice”, os angulos seriam 0.444×360 = 160◦

para Oniscus, etc.

Oni

scus

Porcellio Philoscia

Armadilidium

2.3 Dados quantitativos

2.3.1 Histograma

De longe o metodo mais comum de apresentacao de dados numericos e o histograma,relacionado com o grafico de barras para dados categoricos. As areas dos retangulosresultantes devem ser proporcionais a frequencia.

Algumas vezes e conveniente agregar classes de frequencia nos extremos da distribuicaode forma que os intervalos tem larguras diferentes. Cuidado ao fazer isso - um intervalosque e duas vezes a largura de um outro deve tem altura igual a metada de sua frequencia(para preservar a area contida dentro do intervalo) Da mesma forma um intervalo que etres vezes a largura dos outros deve ter um terco da altura de sua frequencia observada.

Exemplo. 150 peixes mortos foram encontrados vıtimas de contamincao do rio e seuscomprimentos foram medidos em milımetros. As medidas foram expressas na forma detabela de frequencia.

Comprimento do peixe (mm) Frequencia100-109 7110-119 16120-129 19130-139 31140-149 41150-159 23160-169 10170-179 3

7

100 120 140 160 180

010

2030

40

Fish lengths (mm)

Freq

uenc

y

O histograma construıdo desses dados e mostrado abaixo.

Grafico de Ramos-e-Folhas

Um metodo grafico que merece ser mais amplamente utilizado quando a quantidade dedados nao e muito grande e o grafico de ramos-e-folhas como ilustrado a seguir.

Exemplo. Um estudo geoquımico realizado utilizando amostras compostas de sedimentosde corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes deriachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr

10.6 14.1 13.7 15.2 15.4 12.5 12.914.3 13.0 12.6 12.0 14.0 10.0 18.211.5 9.4 16.5 13.7 14.7 16.6 11.418.4 17.4 11.1 15.8 17.0 13.6 16.611.8 15.8 13.5

Uma vez que a escala tenha sido determinada, a qual define os “ramos” a esquerda dalinha veritcal, podemos facilmente escrever os dados no grafico de ramos-e-folhas como nodiagrama esquerdo; como um refinamento podemos entao ordenar as “folhas” no diagramaa direita:

8

9 410 6 011 5 4 1 812 5 9 6 013 7 0 7 6 514 1 3 0 715 2 4 8 816 5 6 617 4 018 2 4

9 410 0 611 1 4 5 812 0 5 6 913 0 5 6 7 714 0 1 3 715 2 4 8 816 5 6 617 0 418 2 4

Acima os ramos sao numeros inteiros e as folhas sao valores depois do ponto decimal,mas isto nao e essencial em geral; por exemplo, os ramos podem representar centenase as folhas dezenas (com unidades arredondadas para o decimal mais proximo; as folhasdevem ter um unico dıgito). Nota: e importante escrever as folhas em colunas igualmenteespacadas, caso contrario pode resultar uma figura distorcida.

O grafico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato aperda de qualquer informacao.

Compare-o com um histograma para os mesmos dados:

8 10 12 14 16 18 20

01

23

45

Concentracao de Cr (ppm)

Freq

uenc

y

9

2.3.2 Resumindo numericamente

Para resumir numericamente dados quantitativos o objetivo e escolher medidas apropri-adas de locacao (“qual o tamanho dos numeros involvidos?”) e de dispersao (“quantavariacao existe?”) para os tipos de dados.

Existem tres escolhas principais para a medida de locacao, a chamada “3 Ms”, as quaisestao ligadas a certas medidas de dispersao como segue:

M ‘Dispersao’media (o valor ‘medio’) desvio padraomediana (o valor do ‘meio’) IQRmoda (o valor ‘mais comum’) proporcao

2.3.3 Media, variancia e desvio padrao

Para resumir dados quantitativos aproximadamente simetricos, e usual calcular a mediaaritmetica como uma medida de locacao. Se x1, x2, . . . , xn sao os valores dos dados, entaopodemos escrever a media como

x =x1 + x2 + . . . + xn

n=

∑ni=1 xi

n,

onde ‘∑n

i=1 xi = x1 + x2 + . . . + xn’ e frequentemente e simplificada para∑

xi ou atemesmo

∑x que significa ‘adicione todos os valores de x’.

A variancia e definida como o ‘desvio quadratico medio da media’ e e calculada de umaamostra de dados como

s2 =∑n

i=1(xi − x)2

n− 1=

∑ni=1(x

2i )− nx2

(n− 1).

A segunda versao e mais facil de ser calculada, embora muitas calculadoras tem funcoesprontas para o calculo de variancias, e e raro ter que realisar todos os passos manualmente.Comumente as calculadoras fornecerao a raiz quadrada da variancia, o desvio padrao,i.e.

s =√

variancia =√

s2

a qual e medida nas mesmas unidades dos dados originais.

Uma informcao util e que para qualquer conjunto de dados, pelo menos 75% deles ficadentro de uma distancia de 2 desvio padrao da media, i.e. entre x− 2s e x + 2s.

Exemplo. Sete homens foram pesados, e os resultados em kg foram:

57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.

10

A media e 454.3/7 = 64.9 kg,

a variancia e (29635.05− 454.32/7)/6 = 25.16 kg2

e o desvio padrao e√

25.16 = 5.02 kg.

2.3.4 A mediana e a amplitude inter-quartis

Uma outra forma de sumarizar dados e em termos dos quantis ou percentis. Essasmedidas sao particularmente uteis para dados nao simetricos. A mediana (ou percentil50) e definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dadostem valores maiores do que a mediana, a outra metade tem valores menores do que amediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, sao definidos comoos valores abaixo dos quais estao um quarto e tres quartos, respectivamente, dos dados.Estes tres valores sao frequentemente usados para resumir os dados juntamente com omınimo e o maximo. Eles sao obtidos ordenando os dados do menor para o maior, eentao conta-se o numero apropriado de observacoes: ou seja e n+1

4 , n+12 e 3(n+1)

4 parao quartil inferior, mediana e quartil superior, respectivamente. Para um numero par deobservacoes, a mediana e a media dos valores do meio (e analogamente para os quartisinferior e superior).

A medidade de dispersao e a amplitude inter-quartis, IQR = Q3 − Q1, i.e. e a diferencaentre o quartil superior e o inferior.

Exemplo. O numero de criancas em 19 famılias foi

0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10

A mediana e o (19+1) / 2 = 10o valor, i.e. 3 criancas.

O quartil inferior e superior sao os valores 5o e 15o, i.e. 2 e 6 criancas, portantoamplitude inter-quartil e de 4 criancas. Note que 50% dos dados estao entre os quartisinferior e superior.

11

2.3.5 Box-and-Whisker Plots

Box-and-Whisker plots ou simplesmente box-plots sao simples representacoes diagramaticasdos cinco numeros sumarios: (mınimo, quartil inferior, mediana, quartil superior, maximo).Um box-plot para os dados geoquımicos fica como mostrado a seguir.

10 12 14 16 18

2.3.6 A moda

Nem todos os conjuntos de dados sao suficientemente balanceados para o calculo da mediaou mediana. Algumas vezes, especialmente para dados de contagem, um unico valordomina a amostra. A medida de locacao apropriada e entao a moda, a qual e o valorque ocorre com maior frequencia. A proporcao da amostra a qual toma este valor modaldeveria ser utilizada no lugar de uma medida formal de dispersao.

Algumas vezes, podemos distinguir claramente ‘picos’ na frequencia dos valores registra-dos. Neste caso (chamado bimodal) deverıamos apresentar ambas as localizacoes. Dadosdeste tipo sao particularmente difıceis de resumir (e analisar).

Exemplo. Dez pessoas registraram o numero de copos de cerveja que eles tomaram numdeterminado sabado:

0, 0, 0, 0, 0, 1, 2, 3, 3, 6

A moda e 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamosadicionar mais informacao separando a amostra e dizendo que daqueles que tomaramcerveja a mediana foi de 3 copos.

12

2.4 Dados multiplos

Os resultados de um estudo tipicamente envolverao mais do que uma unica amostra dedados como discutido ate aqui. Representacoes graficas sao uteis para comparar gruposde dados ou para verificar se exitem relacoes entre eles. Existem muitas possibilidades,mas a mais adequada dependera das peculiaridades de cada conjunto de dados.

Alem dos exemplos abaixo, podemos criar combinacoes de metodos ja discutidos. Porexemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzirbox-plots de altura lado a lado para homens e mulheres, ou graficos ramo-e-folhas lado alado (com as alturas dos homens a esquerda do ramo, e as alturas das mulheres a direita),ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possamser facilmente comparados). Para um numero diferente de grupos, uma serie de box-plotsverticais funciona bem como um sımples resumo dos dados.

Para combinacoes de dados categoricos, uma serie de graficos de setores podem ser pro-duzidos, i.e. dois graficos de setores, um para homens e um para mulheres.

2.4.1 Graficos de pontos

Para avaliar se existe uma relacao entre duas variaveis contınuas, podemos produzir umgrafico de pontos. E importante que o eixo x faca sentido. Em geral faz pouco sentidounir os pontos, exceto onde o eixo x representa tempo (veja abaixo). Sımbolos diferentespodem ser usados para diferentes grupos para adicionar uma nova dimensao ao grafico. Ografico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino.

MMM

M

M

M

M

M

MM

M

MM

M

M

MM

M

M

M

Height (cm)

Wei

ght (

kg)

140 150 160 170 180 190 200

4050

6070

8090

FF

FF

F

F

F

F

F

F F

FF

F

F

F

F

Para mais do que duas variaveis, pode-se produzir graficos entre todos os pares possıveispara produzir uma matriz de graficos de pontos.

13

2.4.2 Grafico temporal

Um caso especial de um grafico de pontos e um grafico temporal onde ‘tempo’ estano eixo x. As medidas sao feitas ao longo do tempo. Nestes casos e usual unir pontossucessivos por retas, e e em geral uma boa pratica deixar o eixo x mais longo do que oeixo y.

Abaixo mostramos as temperaturas diarias medias em Philadelphia, USA nos dois primei-ros meses de 1980.

•

• ••

• ••

•

••

•

•

•

•• • •

••

••

••

• ••

•

• •• • •

• • •

• •• • • • •

• • •

• •

••

•

•• •

•

• ••

••

•

Day

Ave

rage

tem

pera

ture

0 10 20 30 40 50 60

-10

-50

5

14

2.4.3 Ladder plot

O ladder plot nao e um grafico do tipo padrao mas pode ser util para visualizar dadospareados. Considere o seguinte exemplo.

Um ornitologista deseja saber se um determinado local e usado por passaros migratoriosde uma certa raca para engorda antes de migrar. Ele captura alguns passaros em Agosto epesa-os, entao em Setembro ele tenta re-capturar os mesmos passaros e faz novas medidas.Ele re-capturou 10 dos passaros duas vezes, ambos em Agosto e Setembro. A tabela abaixomostra as massas desses passaros.

Mass in August (g) Mass in September (g)10.3 12.211.4 12.110.9 13.112.0 11.910.0 12.011.9 12.912.2 11.412.3 12.111.7 13.512.0 12.3

O ladder plot destes dados fica como segue:

Mas

s (g

) of

bir

d

1011

1213

August September

•

•

•

•

•

•

• •

•

••

•

•

•

••

•

•

••

E muito mais facil ver do grafico do que da tabela que os passaros tendem a engordar, e queaqueles que nao engordaram tenderam a ser os maiores que provavelmente nao necessitamde uma engorda extra.

15

2.5 Exercıcios 1

1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas es-tatısticas descritivas, apontando caracterısticas principais observadas.

(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes deestatıstica no primeiro exame do semestre:

30 35 37 40 40 49 51 54 54 5557 58 60 60 62 62 65 67 74 89

(b) O numero de faltas de 20 trabalhadores num ano (ordenados por tamanho):

0 0 0 0 0 0 0 1 1 12 2 3 3 4 5 5 5 8 45

(c) O numero de exemplares de um jornal mensal em particular lidos por 20 pessoasnum ano:

0 1 11 0 0 0 2 12 0 012 1 0 0 0 0 12 0 11 0

2. Produza um grafico ramos-e-folhas para apresentacao dos dados de altura (em me-tros) de 20 mulheres sendo estudadas para uma certa condicao medica.

1.52 1.60 1.57 1.52 1.601.75 1.73 1.63 1.55 1.631.65 1.55 1.65 1.60 1.682.50 1.52 1.65 1.60 1.65

3. Os dados a seguir fornecem a concentracao de um determinado poluente (ppm) em 8pontos de um afluente medidos antes e uma hora depois de um acidente ambiental:

Before After4.67 5.444.97 6.115.11 6.495.17 6.615.33 6.676.22 6.676.50 6.787.00 7.89

Faca um grafico destes dados, e use o grafico para ajudar a avaliar se o acidenteprovocou um aumento significativo nos nıveis do poluente no afluente.

4. A tabela abaixo fornece o numero de granulos de arenito por cm3 em 20 amostrastomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade(B).

16

A B171 397 116 375431 795 375 440288 257 151 192

1283 902 752 503554 1621 979 1252295 1004 208 688568 1378 426 771958 435 675 377

2415 1104 410 7001212 396 736 315

(a) Calcule as medias e desvios-padrao desses duas amostras.

(b) Faca histogramas dos dois conjuntos de dados, e compare-os.

(c) Qual e o mınimo, maximo, mediana, quartil inferior e quartil superior de cadagrupo?

(d) Usando sua resposta ao item (c), construa boxplots para os dois conjuntosde dados - um diretamento acime do outro, ou lado a lado para facilitar acomparacao.

(e) Para cada grupo, o dado e aproximadamente simetrico ou assimetrico? Seassimetrico, em que direcao?

(f) Voce acha que existe uma diferenca real entre os numeros de granulos de are-nito nas duas localidades, ou voce acha que as diferencas observadas poderiamter simplesmente ocorrido como uma consequencia dos grupos consistirem desomente 20 amostras cada?

(g) Descreva as principais caracterısticas dos dados em uma ou duas sentencas.

5. O percentual de acucar e sal em 9 cereais matinais mais populares foram medidos,com os seguintes resultados:

Cereal acucar sal1 19 82 36 53 3 104 8 45 26 66 16 67 8 98 10 39 54 3

(a) Faca um grafico desses dados para investigar a relacao entre o conteudo deacucar e sal nos cereais matinais.

(b) Comente brevemente qualquer padrao observado nos dados.

17

3 Populacoes e amostras

3.1 Inferencia estatıstica

Inferencia estatıstica e o processo pelo qual estatısticos tiram conclusoes acerca dapopulacao usando informacao de uma amostra.

Voce pode estar familiar com o termo ‘populacao’ num sentido biologico/geologico. Emestatıstica, o termo nao se refere necessariamente a pessoas, plantas, animais, etc. Elepoderia tambem se referir, por exemplo, a fosseis, rochas e sedimentos num determinadolocal, etc.

A populacao se refere a todos os casos ou situacoes as quais o pesquisador quer fazerinferencias ou estimativas. Diferentes pesquisadores podem querer fazer inferencias acercada concentracao de poluentes num determinado lencol freatico; predizer a quantidade depetroleo num poco a ser perfurado e assim por diante.

Note que o investigador nao esta interessado em todos os aspectos da populacao. Opesquisador pode nao estar interessado em estudar a concentracao de todos os tipos depoluentes, somente alguns poluentes mais importantes para seu estudo.

Uma amostra e um subconjunto da populacao usado para obter informacao acerca dotodo.

Mas exatamente por que tomamos uma amostra? Por que nao usamos apopulacao toda?

• custo alto para obter informacao da populacao toda

• tempo muito longo para obter informacao da populacao toda

• algumas vezes impossıvel, por exemplo, estudo de poluicao atmosferica

• algumas vezes logicamente impossıvel, por exemplo, em ensaios destrutivos.

18

Caracterısticas de uma populacao que diferem de um indivıduo para outro e as quaistemos interesse em estudar sao chamadas variaveis. Exemplos sao comprimento, massa,idade, temperatura, numero de ocorrencias, etc. Cada unidade (membro) da populacaoque e escolhido como parte de uma amostra fornece uma medida de uma ou mais variaveis,chamadas observacoes.

3.2 Princıpios de estimacao

Utilizamos estimativas de uma amostra como nosso “melhor chute” para os verdadei-ros valores populacionais. Exemplos sao a media amostral, o desvio padrao amostral,a mediana amostral, os quais estimam a verdadeira media, desvio padrao e mediana dapopulacao (que sao desconhecidos). Os verdadeiros (desconhecidos) valores populacionaissao chamados parametros.

Note que estatısticas sao usualmente representadas por letras Romanas, (por exemplo, xpara a media amostral, s para o desvio padrao amostral), enquanto que parametros saousualmente representados por letras Gregas (por exemplo, µ para a media populacional,σ para o desvio padrao populacional).

E claro que a medida que a amostra aumenta, mais informacao nos teremos acerca dapopulacao de interesse, e portanto mais precisa serao as estimativas dos parametros deinteresse.

19

3.3 Obtendo uma amostra

Obtemos uma amostra para fazer inferencias de uma populacao. Nossas inferencias saovalidas somente se a amostra e representativa da populacao. Na pratica nao existe formade garantir isto sem ter informacao da populacao inteira para comparar com a amostra.E em tais circunstancias nao haveria necessidade de amostragem!

Ao inves disso, podemos assegurar que nao existem vıcios sistematicos em nossa amostraatraves de uma selecao aleatoria dos membros da populacao. Uma amostra aleatoriaindependente e uma amostra selecionada de tal forma que

1. todos os membros da populacao tem a mesma chance de serem selecionados;

2. cada combinacao possıvel de um dado numero de membros tem a mesma chance deser selecionada.

Em princıpio, a melhor forma de obter uma amostra aleatoria de tamanho n e ter umalista de todos os membros da populacao, dar a todos um numero digamos de 1 a N , eentao escolher aleatoriamente n numeros de 1 a N para definir a amostra. E claro que napratica isto nao e exequıvel, especialmente quando a populacao e infinita.

Na maioria dos casos e difıcil obter amostras aleatorias. Considere o seguinte diagramaque mostra a ‘populacao’ de circulos. Pense neles como se fossem granulos de tamanhosdiferentes. O diametro medio destes circulos e mm.

Suponha que selecionemos uma amostra de 5 destes cırculos jogando um lapis sobre opapel repetidamente ate que tenhamos atingido 5 circulos. Qual e o diametro medio denossos 5 circulos? O valor esta perto de mm?

20

No exemplo acima, o esquema amostral causou um vıcio. Um vıcio similar seria obtidopor exemplo na amostragem de um particular tipo de animal – pode ser que os animaisque se consegue capturar e medir sao aqueles que nao podem correr tao rapido, ou ao usaruma armadinha, voce pode amostrar somente os animais mais famintos, etc.

Sempre que uma amostra e obtida, o processo de amostragem deve estar bem documentadode tal forma que quais inferencias retiradas acerca da populacao pode avaliadas a luz daestrategia amostral.

21

4 Distribuicoes teoricas de frequencias

Como visto na Secao 2, as distribuicoes dos dados podem ter uma variedade de formas,incluindo formas simetricas e nao simetricas. Introduziremos aqui alguns dos modelosmatematicos mais comumente usados para tais dados.

4.1 A distribuicao Normal

A distribuicao Normal e a mais familiar das distribuicoes de probabilidade e tambemuma das mais importantes em estatıstica. Esta distribuicao tem uma forma de sino.

x

f(x)

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

A equacao da curva Normal e especificada usando 2 parametros: a media populacionalµ, e o desvio padrao populacional σ, ou equivalentemente a variancia populacional σ2.Denotamos N(µ, σ2) a curva Normal com media µ e variancia σ2. A media refere-se aocentro da distribuicao e o desvio padrao ao espalhamento de curva. A distribuicao normale simetrica em torno da media o que implica que e media, a mediana e a moda sao todascoincidentes. Para referencia, a equacao da curva e

f(x) =1√

(2πσ2)exp

{−(x− µ)2

2σ2

}. (1)

Felizmente, voce nao tem que memorizar esta equacao. O importante e que voce entendacomo a curva e afetada pelos valores numericos de µ e σ. isto e mostrado no diagramaabaixo.

A area sob a curva normal (na verdade abaixo de qualquer funcao de densidade de pro-babilidade) e 1. Entao, para quaisquer dois valores especıficos podemos determinar a

22

x

f(x)

0 5 10

0.0

0.2

0.4

0.6

0.8

N(0,1) N(3,1)

N(6,.25)

N(6,4)

proporcao de area sob a curva entre esses dois valores. Para a distribuicao Normal, aproporcao de valores caindo dentro de um, dois, ou tres desvios padrao da media sao:

Range Proportionµ± 1σ 68.3%µ± 2σ 95.5%µ± 3σ 99.7%

Este resultado e usado da seguinte maneira. Suponha que os comprimentos de um parti-cular tipo de peixe podem ser descritos por uma distribuicao normal, com media 140mme desvio padrao 15mm. Podemos calcular a proporcao dos peixes que tem comprimen-tos entre 110 e 170mm, por exemplo, como a proporcao da area sob a curva entre 110 e170mm.

Entao em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e170mm.

Na pratica desejamos calcular probabilidades para diferentes valores de µ e σ. Para isso,a variavel X cuja distribuicao e N(µ, σ2) e transformada numa forma padronizada Z comdistribuicao N(0, 1) (distribuicao normal padrao) pois tal distribuicao e tabelada. Aquantidade Z e dada por

Z =X − µ

σ(2)

Exemplo: A concentracao de um poluente em agua liberada por uma fabrica tem distri-buicao N(8,1.5). Qual a chance, de que num dado dia, a concentracao do poluente excedao limite regulatorio de 10 ppm?

A solucao do problema resume-se em determinar a proporcao da distribuicao que estaacima de 10 ppm, ie P (X > 10). Usando a estatıstica z temos:

P (X > 10) = P (Z >10− 8

1.5) = P (Z > 1.33) = 1− P (Z ≤ 1.33) = 0.09 (3)

23

Portanto, espera-se que a agua liberada pela fabrica exceda os limites regulatorios cercade 9% do tempo.

Exercıcio: A concentracao de cadmio em cinzas de um certo lixo radioativo tem distri-buicao N(1,0.72). Quais sao as chances de que uma amostra aleatoria das cinzas tenhauma concentracao de cadmio entre 0.5 e 1.75 ppm?

24

4.2 A distribuicao Binomial

Suponha que n experimentos independentes, ou ensaios, sao executados, onde n e umnumero fixo, e que cada experimento resulta num “sucesso” com proabilidade p e numa“falha” com probabilidade 1− p. O numero total de sucessos, X, e uma variavel aleatoriacom parametros n e p.

Por exemplo, uma moeda e lancada 10 vezes e o numero total de caras e contado (aqui“cara” e um sucesso).

A probabilidade que X = k, denotada por P (k), pode ser encontrada como:

P (X = k) = P (k) =n!

k!(n− k)!pk(1− p)n−k. (4)

A media de um variavel aleatoria Binomial e np e a variancia e np(1− p).

Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo albinismo(o qual e recessivo), nos encontremos um casamento no qual sabe-se que ambos os parceirossao heterozigotos para o gene albino. De acordo com a teoria Mendeliana, a probabilidadede que um filho desse casal seja albino e um quarto. (Entao a probabilidade de nao seralbino e 3

4 .)

Agora considere o mesmo casal com 2 criancas. A chance de que ambas sejam albinase (1

4)2 = 116 = 0.0625. A desma forma, a chance de ambas serem normais e (3

4)2 =916 = 0.5625. Portanto, a probabilidade de que somente uma seja um albina deve ser1 − 1

16 − 916 = 6

16 = 38 = 0.375. Alternativamente, poderiamos ter usado a formula acima

com n = 2, p = 14 , and k = 1.

Se agora considerarmos a famılia com n = 5 criancas, as probabilidades de existam k =0, 1, 2, . . . , 5 criancas albinas, onde a probabilidade de albinismo e p = 1

4 , sao dadas por

P (k) =5!

k!(5− k)!

(14

)k (34

)5−k

(5)

as quais ficam como segue.

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

25

4.3 A distribuicao Poisson

Uma outra distribuicao comum e a distribuicao Poisson, e e frequentemente usadapara modelar dados de contagem, por exemplo, para descrever o numero de nmetoidesencontrados em amostras de solo, o numero diario de novos casos de cancer de mama, ouo numero de celulas contadas usando um hemocitrometro. O histograma abaixo mostra onumero de organismos encontrados em cada um de 400 quadrados pequenos.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

020

4060

80

A distribuicao Poisson tem um parametro, λ, e a probabilidade de obter exatamente xindivıduos e dada por

P (x) =λxe−λ

x!. (6)

Quando λ = 4.68, por exemplo, a distribuicao fica como segue.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

0.0

0.05

0.10

0.15

A variancia de uma Poisson e igual a sua media, The variance of a Poisson distribution isequal to its mean, λ.

26

4.4 Exercıcios 2

1. Considere uma distribuicao normal com media 10 e desvio padrao 3.

(a) Desenhe um esboco desta distribuicao.

(b) Qual e a proporcao da area sob a curva entre 7 e 13?

2. Usinas nucleares que utilizam agua para refrigeracao de seus condensadores algumasvezes liberam agua quente em rios, lagos ou oceanos. Sabe-se que a agua quenteacima de certa temperatura tem um efeito indesejado sobre plantas e animais quevivem nesses ambientes. Suponha que a alta temperatura liberada por uma certausina nuclear tem uma distribuicao Normal com media 5◦C e um desvio padrao de0.5◦C.

(a) Faca um esboco da distribuicao.

(b) Qual o percentual de dias nos quais o aumento da temperatura e maior do que5.5◦C?

3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media de 72.9batidas por minuto (bpm) e um desvio padrao de 11.0 bpm foram obtidos. Um his-tograma dos dados mostra uma clara forma normal. De uma amplitude de referenciade 95% para pulsos em repouso de pessoas sadias com base nesses dados.

4. Voce leva se cachorro o veterinario e descobre atraves de um exame de ultrasonografiaque ela esta gravida com uma ninhada de 8 filhotes.

(a) Qual e a probabilidade de que exatamente 3 dos filhotes sejam femeas?

(b) Qual e a probabilidade de que existam um numero igual de machos e femeas?

(c) Qual e a probabilidade de que existam mais machos do femeas?

5. Um investigador esta interessado no numero de ovos depositados por uma especiede passaro. Na primavera, ele procura e acha 80 ninhos. O numero medio de ovospor ninho foi 3.8 e o desvio padrao foi 1.9. Porque a variancia e aproximadamenteigual a media, ele acha que pode ser razoavel descrever o numero de ovos por ninhocomo tendo uma distribuicao Poisson com media 3.8.

(a) Faca o grafico dessa distribuicao como em suas notas de aula.

(b) Se esta realmente representa a distribuicao populacional, qual seria a proabili-dade de encontrar um ninho com mais do que 5 ovos?

(c) Qual seria a probabilidade de nao encontrar nenhum ovo num ninho?

27

6. Acredita-se que existam numeros iguais de machos e femeas de uma certa especie depeixe num grande lago. Um pescador pesca 43 peixes e encontra que 32 deles saomachos. Isto provocaria duvida na afirmacao acima de que exite um balanco entremachos e femeas no lago? Justifique sua resposta utilizando os recursos estatısticosde que dispoe no momento.

28

5 Intervalos de Confianca

5.1 A ideia basica de intervalos de confianca

Suponha que estejamos interessados num parametro populacional verdadeiro (masdesconhecido) θ. Podemos estimar o parametro θ usando informacao de nossa amostra.Chamamos o unico numero que representa o valor mais plausıvel do parametro (baseadonos dados amostrais) de uma estimativa pontual de θ. Contudo, sabemos que o valorestimado na maior parte das vezes nao sera exatamente igual ao valor verdadeiro. Entao,tambem seria interessante encontrar um intervalo de confianca que forneca um intervalode valores plausıveis para o parametro baseado nos dados amostrais.

Um intervalo de confianca de 95% para um parametro populacionalfornece um intervalo no qual estariamos 95% confiantes de cobertura

do verdadeiro valor do parametro.

Tecnicamente, 95% de todos os intervalos de confianca que construirmos conterao o ver-dadeiro valor do parametro (dado que todas as suposicoes envolvidas estejam corretas).Entao se obtivermos um intervalo de confianca para o parametro θ para cada uma dentre100 amostras aleatorias da populacao, somente 5, em media destes intervalos de confiancanao conterao θ.

Podemos obter intervalos de confianca de 95% para:

medias, diferencas de medias, proporcoes, diferencas em proporcoes, etc.

Podemos tambem criar intervalos de confianca de 90%, 99%, 99.9%, etc, mas os intervalosde confianca de 95% sao os mais utilizados.

29

5.2 Teorema Central do Limite

Uma razao para a distribuicao Normal ser considerada tao importante e porque qualquerque seja a distribuicao da variavel de interesse para grande amostras, a distribuicaodas medias amostrais serao aproximadamente normalmente distribuıdas, e ten-derao a uma distribuicao normal a medida que o tamanho de amostra crescer. Entaopodemos ter uma variavel original com uma distribuicao muito diferente da Normal (podeate mesmo ser discreta), mas se tomarmos varias amostras grandes desta distribuicao, eentao fizermos um histograma das medias amostrais, a forma se parecera como uma curvaNormal.

A distribuicao da media amostral X e aproximadamenteNormal com media µ e desvio padrao σ/

√n.

Aqui µ e σ sao a media e o desvio padrao populacionais das medidas individuais X, e n eo tamanho amostral. Denota-se

X ∼ N(µ, σ2/n).

A aproximacao para a normal melhora a medida que o tamanho amostral cresce. Este re-sultado e conhecido como o Teorema Central do Limite e e notavel porque permite-nosconduzir alguns procedimentos de inferencia sem qualquer conhecimento da distribuicaoda populacao.

5.3 Exemplo simulado

Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagrama naproxima pagina sumariza os resultados de um experimento no qual foi utilizado um com-putador para gerar 2000 observacoes de duas distribuicoes bem diferentes (linha superior).Nos entao geramos uma amostra de tamanho 2 de cada distribuicao e calculamos a media.Este procedimento foi repetido 1999 vezes e a segunda linha mostra os histogramas dasmedias resuktantes das amostras de tamanho dois. Isto foi repetido com media amostraisonde as amostras sao de tamanhos 5 (terceira linha) e 10 (quarta linha).

Note como a forma da distribuicao muda a medida que se muda de uma linha para aproxima, e como as duas distribuicoes em cada linha tornam-se mais similares nas suasformas a medida que o tamanho das amostras aumenta. Ainda mais, cada distribuicaoparece mais e mais com uma distribuicao Normal. Nao e necessario uma amostra detamanho muito grande para ver uma forma Normal.

As media populacionais para as duas distribuicoes sao 5 e 3 respectivamente. Note como,quanto maior o tamanho de amostra mais perto as medias amostrais tendem a estar damedia populacional.

30

0 2 4 6 8 10

010

020

030

040

0

x

0 2 4 6 8 10

010

020

030

040

0

y

0 2 4 6 8 10

010

020

030

040

0

(x1+x2)/2

0 2 4 6 8 10

010

020

030

040

0

(y1+y2)/2

0 2 4 6 8 10

010

020

030

040

0

(x1+x2+..+x5)/5

0 2 4 6 8 10

010

020

030

040

0

(y1+y2+..+y5)/5

0 2 4 6 8 10

010

020

030

040

0

(x1+x2+..+x10)/10

0 2 4 6 8 10

010

020

030

040

0

(y1+y2+..y10)/10

31

5.4 Intervalos de confianca de 95% para uma media

Na secao anterior vimos que para uma amostra suficientemente grande a distribuicao dasmedias amostrais em torno da media populacional e Normal com desvio padrao σ/

√n.

Chamamos de σ/√

n o erro padrao (SE) da media, uma vez que quanto menor seu valos.tanto mais proximas estarao as medias amostrais da media populacional µ (i.e. tantomenor sera o erro).

media populacional = µ

desvio padrao populacional = σ

S.E. da media = σ/√

n

Isto significa que 68.3% de todas as medias amostrais cairao dentro de ±1 SE da mediapopulacional µ. Similarmente 95% de todas as medias amostrais cairao dentro de ±1.96×SE de µ.

entao intervalos da forma

(x− 1.96× σ√n

, x + 1.96× σ√n

)

conterao a verdadeira media populacional µ 95% das vezes.

Um problema com a construcao de tais intervalos e que nao sabemos o verdadeiro des-vio padrao populacional σ. Para grandes tamanhos amostrais, contudo, o desvio padraoamostral s sera uma boa estimativa de σ. Portanto, podemos substituir σ por s de modoque podemos calcular o erro padrao como

SE = s/√

n,

e um intervalo de confianca de aproximadamente 95% para µ e:

(x− 1.96× s√n

, x + 1.96× s√n

).

Este tipo de intervalo de confianca para a media pode ser usado para grandes amostras,independentemente da distribuicao da variavel original.

32

5.5 intervalos de confianca mais exatos

Para amostras pequenas, onde s e uma estimativa menos confiavel de σ, devemos construirnosso intervalo de confianca de uma forma ligeiramente diferente.

Ao inves de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossareducao na confianca. Obtemos o valor requerido da tabela de distribuicao t. Tomamoso valor correspondente a linha r = n − 1 graus de liberdade. Note que quanto menor n,maiores os valores de t. Entao um intervalo de confianca exato e

(x− t(n−1,0.05) ×s√n

, x + t(n−1,0.05) ×s√n

).

Note ainda que a medida que n cresce, o valor de t torna-se proximo a 1.96.

Repare que se a distribuicao da variavel original e muito distante de ser normalmentedistribuıda, e o tamanho amostral e muito pequeno, entao as medias amostrais nao teraouma distribuicao aproximadamente normal e portanto este tipo de intervalo de confiancanao sera muito preciso e nao deveria ser utilizado.

33

A distribuicao t

Valores de t para que P (| T |> t) = p, onde T tem um distribuicao T de Student com rgraus de liberdade.

p0.20 0.10 0.05 0.01 0.001

1 3.078 6.314 12.706 63.657 636.6192 1.886 2.920 4.303 9.925 31.5993 1.638 2.353 3.182 5.841 12.9244 1.533 2.132 2.776 4.604 8.6105 1.476 2.015 2.571 4.032 6.8696 1.440 1.943 2.447 3.707 5.9597 1.415 1.895 2.365 3.499 5.4088 1.397 1.860 2.306 3.355 5.0419 1.383 1.833 2.262 3.250 4.781

10 1.372 1.812 2.228 3.169 4.58711 1.363 1.796 2.201 3.106 4.43712 1.356 1.782 2.179 3.055 4.31813 1.350 1.771 2.160 3.012 4.22114 1.345 1.761 2.145 2.977 4.14015 1.341 1.753 2.131 2.947 4.07316 1.337 1.746 2.120 2.921 4.015

r 17 1.333 1.740 2.110 2.898 3.96518 1.330 1.734 2.101 2.878 3.92219 1.328 1.729 2.093 2.861 3.88320 1.325 1.725 2.086 2.845 3.85021 1.323 1.721 2.080 2.831 3.81922 1.321 1.717 2.074 2.819 3.79223 1.319 1.714 2.069 2.807 3.76824 1.318 1.711 2.064 2.797 3.74525 1.316 1.708 2.060 2.787 3.72526 1.315 1.706 2.056 2.779 3.70727 1.314 1.703 2.052 2.771 3.69028 1.313 1.701 2.048 2.763 3.67429 1.311 1.699 2.045 2.756 3.65930 1.310 1.697 2.042 2.750 3.64640 1.303 1.684 2.021 2.704 3.55150 1.299 1.676 2.009 2.678 3.49660 1.296 1.671 2.000 2.660 3.46070 1.294 1.667 1.994 2.648 3.43580 1.292 1.664 1.990 2.639 3.41690 1.291 1.662 1.987 2.632 3.402

100 1.290 1.660 1.984 2.626 3.390∞ 1.282 1.645 1.960 2.576 3.291

34

5.6 Exemplos

5.6.1 Diametro de arvores castanheiras

A seguir encontra-se uma amostra de 10 arvores castanheiras todas com 8 anos de idadenuma certa floresta. O diametro (polegadas) das arvores foram medidos a uma altura de3 pes:

19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1

Queremos encontrar um intervalo de confianca de 95% para o verdadeiro diametro mediode todas as arvores castanheiras dessa idade na floresta. Usando uma calculadora, encon-tramos que x = e que s = . O erro padrao e portanto:

SE =s√n

= .

Temos uma amostra de tamanho n = 10, entao da tabela da distribuicao t temos quet = .

Entao o intervalo de confianca de 95% para a media populacional e

x± t× SE

Portanto estamos 95% confiantes de que o diametro medio da populacao da qual a amostrafoi retirada esta entre e .

Quais suposicoes foram feitas? Podemos checar essas suposicoes?

5.6.2 Comprimento de plantas

Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foramplantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximadamentenormal, e a media amostral e o desvio padrao amostral foram 74mm and 2.34mm, respec-tivamente. Construa um intervalo de confianca para o comprimento medio populacionalde plantes dessa mesma especie.

35

5.7 Exercıcios 3

1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media de 72.9batidas por minuto (bpm) e um desvio padrao de 11.0 bpm foram obtidos. Construaum intervalo de confianca de 95% para a pulsacao media em repouso de pessoassadias com base nesses dados.

2. Tendo sido medido o eixo maior de 9 graos de quartzo de um corpo arenoso em umalamina de arenito, obteve-se um comprimento amostral medio de 1,5mm e um desviopadrao de 0,3mm. Deseja-se construir um intervalo de confianca para o comprimentomedio dos graos de quartzo do corpo arenoso.

3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QImedio foi 108.08, e o desvio padrao foi 14.38.

• Calcule um intervalo de confianca de 95% para o QI medio populacional dosmeninos entre 6-7 anos de idade em Curitiba usando estes dados.

• Interprete o intervalo de confianca com palavras.

• Foi necessario assumir que os QIs tem distribuicao normal neste caso? Por que?

4. A seguinte tabela mostra os QIs de criancas por classe social dos pais.

Classe social Media DP Numero Limite inferior Limite superior

I Profissional 112.27 13.16 30 107.36 117.18II Gerencial 112.65 11.01 78IIIa Nao-Manual

(clerico) 108.86 13.94 28IIIb Manual

(com pratica) 104.38 14.41 152IV Manual

(com pouca pratica) 96.97 10.13 37V Manual

(sem pratica) 98.85 14.02 20

• Complete as duas ultimas colunas, as quais contem intervalos de confianca de95% para o QI medio. Ilustre os IC graficamente.

• Comente os padroes gerais que voce ve.

36

5.8 Intervalos de confianca para uma proporcao

Pesquisadores frequentemente expressam a frequencia de ocorrencia de um item numaamostra como uma proporcao do total. Por exemplo, uma amostra de larvas de mosquitocoletadas de um lago com agua limpa parada contem 80 larvas das quais 60 sao Aedesdetritus. A proporcao daquela especie na amostra e 60/80 = 0.75 ou 75%. Considerandoesta amostra uma amostra aleatoria, esta proporcao e uma estimativa da proporcao totalpopulacional. Outras amostras forneceriam estimativas ligeiramente diferentes daquelaproporcao.

Seja n o tamanho da amostra e seja x o numero observado do evento de interesse. Entaoestimamos a proporcao populacional p com a proporcao observada p = x/n.

Da mesma forma que um conjunto de medias amostrais sao distribuıdas nas proximidadesda media populacional, as proporcoes amostrais p sao distribuıdas ao redor da verdadeiraproporcao populacional p. Devido ao Teorema Central do Limite, para n grande e pnao muito proximo de 0 ou 1, a distribuicao de p sera aproximadamente normalmentedistribuıda com media p e um desvio padrao dado por

√p(1− p)

n.

Chamamos SE=√

p(1−p)n de erro padrao da proporcao amostral. Podemos usar isto na

construcao de um intervalo de confianca para a verdadeira proporcao p.

Um intervalo de confianca de aproximadamente 95% para p e portanto

(p− 1.96× SE , p + 1.96× SE)

onde

SE =

√p(1− p)

n.

Note que nao sabemos o verdadeiro valor de p, e portanto usamos p na formula acimapara estimar SE.

Uma regra geral e que este intervalo de confianca e valido quando quando temos ambosnp e n(1− p) maiores do que digamos 10.

Em alguns livros o divisor n − 1 e utlizado. Nao se preocupe quanto a isso; o intervaloresultante nao sera notavelmente diferente.

5.8.1 Exemplo

Calcule um intervalo de confianca de 95% para a proporcao de larvas de mosquito no lagoda especie Aedes detritus. Interprete os resultados.

37

5.9 Comparacao de intervalos de confianca

Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e femeas.Algumas vezes pode-se construir um intervalo de confianca de 95% para a media paracada um dos grupos, e entao controi-se um grafico com esses intervalos contra um eixocomum para verificar se existe uma intersecao (i.e. existem alguns valores em comum).Se os intervalos nao se sobrepoem, entao temos (pelo menos) 95% de confianca de que asverdadeiras medias nao sao iguais. Embora estes graficos sejam uteis para visualizacao,utilizaremos um aboradgem mais formal (veja Secao 7) para construir um intervalo deconfianca para a diferenca entre duas medias ou a diferenca entre duas proporcoes.

5.9.1 Exemplo

Considere os dados de um estudo investigando a existencia de um balanco entre a pro-porcao de peixes machos e femeas de uma certa especie em dois lagos distintos. A pro-porcao observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturadose no segundo foi 60% dentre 50. Podemos agora construir intervalos de confianca para aspercentagens correspondente nas populacoes dos dois lagos.

5.10 Exercıcios 4

1. Um amigo sugere que voce lance uma moeda para ajudar voce a tomar uma decisaomuito importante, o resultado tambem o afetara. Seu amigo sugere que voce escolhacara para tomar a decisao A, e coroa para tomar a decisao B a qual e a preferidapor ele. O unico problema e que seu amigo insiste que voce use uma moeda “dasorte” dele. Voce fica um pouco suspeito e decide fazer um experimento enquantoseu amigo nao esta olhando. Voce lanca a moeda 40 vezes e cara aparece somente 13vezes. Construa um intervalo de 95% de confianca para a verdadeira proporcao decaras p para ajuda-lo a decidir se voce acredita ou nao que a moeda e balanceada.O que voce conclui?

2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam nocandidato X. Com uma confianca de 90%, o que voce pode dizer acerca da proporcaoreal de votos aquele candidato tera?

3. Dentre 100 peixes capturados num certo lago, 18 nao estavam apropriados paraconsumo devido aos nıveis de poluicao do ambiente. Construa um intervalo deconfianca de 99% para a correspondente verdadeira proporcao.

38

6 Testes de Hipoteses

6.1 Introducao e notacao

Em geral, intervalos de confianca sao a forma mais informativa de apresentar os achadospricipais de um estudo. Contudo, algumas vezes existe um particular interesse em decidirsobre a verdade ou nao de uma hipotese especıfica (se dois grupos tem a mesma mediaou nao, ou se o parametro populacional tem um valor em particular ou nao). Testede hipoteses fornece-nos a estrutura para que facamos isto. Veremos que intervalos deconfianca e testes de hipoteses estao intimamente relacionados.

6.1.1 Os passaros migratorios engordam antes de migrar?

Considere os dados coletados pelo ornitologista na pagina 15. Achamos apropriado apre-sentar os dados na forma de um ladder plot. Agora e natural perguntar se em media estespassaros engordam entre Agosto e Setembro. Somente 10 passaros foram capturados e seupeso medio nas duas ocasioes foram 11.47 e 12.35 entao o peso medio aumentou para estaamostra em particular. (Note que o mesmo conjunto de passaros foram medidos ambasas vezes.) Podemos generalizar para o resto dos passaros que nao foram capturados? Seraque esta diferenca poderia ser devida simplesmente ao acaso?

Queremos testar a hipotese nula (H0) de que, em media, nao existe mudanca no pesodos passaros. Assumiremos que os 10 passaros foram uma amostra aleatoria de todos ospassaros migradores daquela especie e usaremos primeiramente o que aprendemos sobreintervalos de confianca para responder nossas perguntas.

Primeiro vamos calcular as mudancas de peso (Setembro-Agosto):

1.9 0.7 2.2 − 0.1 2.0 1.0 − 0.8 − 0.2 1.8 0.3

Seja µ a mudanca media de peso na populacao. Entao nossa hipotese nula H0 e a hipotesealternativa H1 podem ser escritas como segue:

H0 : µ = 0, H1 : µ 6= 0.

Um procedimento util e calcular um intervalo de confianca para a media populacional µcomo descrito na Secao 5.5, e ver ser o intervalo inclui 0 como um valor plausıvel.

Agora n = 10, x = 0.88 e s = 1.065 para as diferencas, entao

SE = s/√

n = 1.065/√

10 = 0.337,

e um valor-t de 2.262 e obtido da coluna P = 0.05 e linha r = n− 1 = 9. Um intervalo deconfianca de 95% para µ e portanto

(0.88− 2.262× 0.337, 0.88 + 2.262× 0.337) = (0.12, 1.64).

O intervalo nao contem o valor 0, fornecendo evidencias contra a hipotese nula.

39

Podemos dizer: “existem evidencias significativas (P < 0.05) de que, em media, os passarosda especie estudada mudam de peso de Agosto para Setembro. Estamos 95% confiantesde que em media os pesos aumentam por um montante entre 0.12 e 1.64 gramas.”

Mas e o intervalo de 99%? Sera que ele conteria o valor 0? Este intervalo seria maisamplo e entao e mais provavel que ele contenha 0. Se ele nao incluir 0, isto indicaria umaevidencia ainda mais forte contra H0.

Calculando o intervalo de confianca exatamente da mesma forma, exceto que desta vezprecisamos olhar na coluna P = 0.01 para obter t = 3.250:

(0.88− 3.250× 0.337, 0.88 + 3.250× 0.337) = (−0.21, 1.97).

Como esperado, este e mais amplo, e agora inclui o valor 0.

Podemos agora dizer: “nao existem evidencias significativas ao nıvel de 1% de que, emmedia, os passaros da especie estudada mudam de peso de Agosto para Setembro.”

O que nos acabamos de fazer foi conduzir um teste perfeitamente valido para a hipotesenula usando intervalos de confianca. Podemos fazer o teste mais rapidamente e obterexatamente as mesmas conclusoes pelo seguinte procedimento:

• Calcule t = (x− 0)/SE = 0.88/0.337 = 2.61, o numero de erros padrao que x distade 0.

• Compare este valor de t com aqueles na linha r = n− 1 = 9 da tabela.

• Para este exemplo, t = 2.61 o qual esta entre os valores nas colunas P = 0.01 eP = 0.05. Entao nosso valor deve corresponder a um P entre estes e portantodevemos ter 0.01 < P < 0.05. (P e a probabilidade de observar um valor de t taogrande ou mais extremo do que 2.61 se µ = 0.)

40

6.2 Procedimento geral de teste

1. Estabeleca a hipotese nula, H0 e a hipotese alternativa H1.

2. Decida qual oteste a ser usado, checando se este e valido para o seu problema.

3. Calcule a estatıstica de teste, T.

4. Encontre a probabilidade (p-valor) de observar um valor tao extremo ou maiordo que T se a hipotese nula e de fato verdadeira. Voce precisara se referir aosvalores crıticos nas tabelas estatısticas as quais fornecem p-valores correspondendoaos valores das estatıstica de teste.

5. Avalie a forca da evidencia contra H0.(Quanto menor p-valor, tanto mais evidenciacontra a hipotese nula.) Se necesario, decida se esta e evidencia suficiente pararejeitar (ou nao rejeitar) a hipotese nula.

6. Estabeleca as conclusoes e interpretacao dos resultados.

O p-valor e a probabilidade de observar dados tao extremos quanto os obtidos se a hipotesenula e verdadeira. Note as seguintes interpretacoes de p-valores:

P ≥ 0.10 Nao existe evidencia contra H0

P < 0.10 Fraca evidencia contra H0

P < 0.05 Evidencia significativa . . .P < 0.01 Evidencia altamente significativa . . .P < 0.001 Evidencia muito altamente significativa . . .

Esteja ciente da diferenca entre significancia estatıstica e significancia pratica. Um efeitopode ser estatisticamente significante mas nao ter qualquer importancia pratica e vice-versa. Por exemplo, um estudo muito grande pode estimar a diferenca entre a media depeso de plantas como sendo 0.0001 gramas e concluir que a diferenca e estatısticamentesignificativa (p < 0.05). Contudo, na pratica, esta diferenca e negligıvel e provavelmentede pouca importancia pratica.

41

6.3 Teste para uma media

Na Secao 5.1.1 conduzimos, atraves de um exemplo, o chamado teste-t para uma unicamedia. Os passos principais de tal test-t para uma amostra aleatoria x1, x2, . . . , xn de umapopulacao com media µ sao dados a seguir:

1. Estabeleca a hipotese nula, H0 : µ = µ0, e a hipotese alternativa H1 : µ 6= µ0.

2. Calcule a media amostral µ = x e o desvio padrao amostral s.

3. Calcule o erro padrao, SE= s/√

n.

4. Calcule a estatıstica de teste t = (µ− µ0)/SE. Este e o numero de erros padrao queµ dista do valor de hipotese µ0.

5. Encontre o p-valor da distribuicao t, com r = n − 1 graus de liberdade, da tabelausando os valores absolutos da estatıstica de teste.

6. Estabeleca conclusoes e interprete os resultados.

6.4 Teste para uma proporcao

Agora suponha que tenhamos um valor hipotetico p0 para uma proporcao. Podemosrealisar um teste de H0 : p = p0 praticamente da mesma forma que o test-t acima. Adualidade com intervalos de confianca segue exatamente da mesma forma.

Suponha que tenhamos uma amostra aleatoria de tamanho n de uma populacao de in-teresse onde a verdadeira proporcao de membros numa categoria em particular e p. Ahipotese nula e H0 : p = p0. Se o numero observado na categoria de interesse e x, entaoum teste da hipotese e como segue:

1. Estabeleca a hipotese nula, H0 : p = p0, e a hipotese alternativa H1 : p 6= p0.

2. Calcule a proporcao amostral p = x/n.

3. Calcule o erro padrao, SE=√

p(1− p)/n.

4. Calcule t = (p− p0)/SE, o numero de erros padrao que p dista do valor de hipotesep0.

5. Encontre o p-valor usando o valor absoluto da estatıstica de teste da tabela dadistribuicao normal (ou equivalentemente da t com r = ∞ graus de liberdade).

Uma regra geral e que este teste e valido quando quando temos ambos np e n(1 − p)maiores do que digamos 10.

6.4.1 Exemplo

Referindo-se ao exemplo da Secao 5.8, suponha que alguem tenha sugerido de experienciaspassadas que 60% das larvas de mosquito no lago deveriam ser da especie Aedes detritus.Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hipoteste?

42

6.5 Decisoes e poder

Ao tomar uma decisao a favor ou contra uma hipotese existem dois tipos de erros quevoce pode cometer. Voce pode rejeitar a hipotese nula quando de fato ela e verdadeira(erro tipo I) ou voce pode falhar em rejeitar H0 quando de fato ela e falsa (erro tipoII). Existe um balanco entre esses dois tipos de erros, no sentido de que ao tentar-seminizar a possibilidade de um tipo, aumenta-se a probabilidade do outro. Frequentementedenotamos as probabilidades destes dois erros como α e β respectivamente.

DecisaoVerdade Aceitar H0 Rejeitar H0

H0 verdadeiro — Erro Tipo I(1− α) (α)

H0 falso Erro Tipo II —β (1− β)

O poder de um teste e a probabilidade de rejeitar a hipotese nula quando esta e de fatofalsa. Isto e igual a 1 − β. Em geral, quanto maior o tamanho da amostra, maior opoder do teste. E desejavel decidir sobre um tamanho de amostra conveniente antes deconduzir um estudo de forma que o resultados do teste de hipotese tera poder suficientepara responder a questao cientıfica de interesse.

6.6 Dimensionamento de amostras

Vimos no Capıtulo 5 e nas secoes anteriores deste capıtulo como construir intervalos etestes de hipoteses para os principais parametros populacionais. Em todos os, supusemosdado o nıvel de confianca desses intervalos e testes. Evidentemente, o nıvel de confiancadeve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estimacaopor intervalo e testes. Sendo conveniente, o nıvel de confianca pode ser aumentado ate taoproximo de 100% quanto se queira, mas isso resultara em intervalos de amplitude cadavez maiores (e testes com poderes cada vez menores), o que significa perda de precisaona estimacao. E claro que seria desejavel termos intervalos com alto nıvel de confianca epequena probabilidade de erro e grande precisao. Isso porem requer uma amostra sufici-entemente grande, pois, para n fixo, confianca e precisao variam em sentidos opostos.

Veremos a seguir como determinar o tamanho das amostras necessarias nos casos de es-timacao da media ou de uma proporcao populacional. Vimos na Secao 5.4 que o intervalode confianca de 95% para a media µ da populacao quando σ e conhecido tem semi-amplitude d dada pela expressao

d = zσ√n

,

onde z = 1.96 para uma confianca de 95%. Ora, o problema entao resolvido foi, fixados onıvel de confianca (1− α = 0.95) e n, determinar d. Mas, e evidente dessa expressao quepodemos resolver outro problema. Fixados, d e o nıvel de confianca, determinar n, que e oproblema da determinacao do tamanho de amostra necessario para se realizar a estimacao

43

por intervalo com a confianca e a precisao desejadas. Vemos imediatamente que

n =(

zσ

d

)2

.

Essa sera a expressao usada se σ for conhecido.

Nao conhecendo o desvio-padrao da populacao, deverıamos subtituı-lo por sua estimativas e usar t de Student na expressao acima. Ocorre porem que nao tendo ainda sido retiradaa amostra, nao dispomos em geral do valor de s. Se nao conhecemos nem ao menos umlimite superior para σ, a unica solucao sera colher uma amostra-piloto de n0 elementospara, com base nela obtermos uma estimativa de s, empregando a seguir a expressao

n =(

t(n0−1,0.05)s

d

)2

.

Se n ≤ n0, a amostra-piloto ja tera sido suficiente para a estimacao. Caso contrario,deveremos retirar, ainda, da populacao os elementos necessarios a complementacao dotamanho mınimo de amostra.

Procedemos de forma analoga se desejamos estimar uma proporcao populacional com de-terminada confianca e dada precisao. No caso de populacao suposta infinita, da expressao

d = z

√p(1− p)

n,

podemos obter

n =(

z

d

)2

p(1− p).

O obstaculo a determinacao do tamanho de amostra por meio da expressao acima estaem desconhecermos p. Essa dificuldade pode ser resolvida atraves de uma amostra-piloto,analogamente ao caso descrito para a estimacao de µ, ou analisando-se o comportamentodo fator p(1 − p) para 0 ≤ p ≤ 1. Ve-se da figura a seguir que p(1 − p) e a expressao deuma parabola cujo ponto de maximo e p = 1/2.

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.05

0.10

0.15

0.20

0.25

p

p(1−

p)

44

Se substituirmos, p(1− p) por seu valor maximo, 1/4, seguramente o tamanho de amostraobtido sera suficiente para a estimacao de qualquer que seja p. Isso equivale a considerar

n =(

z

d

)2 14

=(

z

2d

)2

.

Evidentemente, usando-se essa expressao corre-se o risco de se superdimensionar a amos-tra. Isso ocorrera se p for na realidade proximo de 0 ou 1. Se o custo envolvido for elevadoe proporcional ao tamanho de amostra, e mais prudente a tomada de uma amostra-piloto.

6.6.1 Exemplos

1. Qual o tamanho de amostra necessario para se estimar a media de uma populacaoinfinita cujo desvio-padrao e igual a 4, com 98% de confianca e precisao de 0,5?

2. Qual o tamanho de amostra suficiente para estimarmos a proporcao da area com solocontaminado que precisa de tratamento, com precisao de 0,02 e 95% de confianca,sabendo que essa proporcao seguramente nao e superior a 0,2?

45

6.7 Exercıcios 5

1. Exercıcios 3, item 2. Teste a hipotese nula de que essa amostra provem de um corpoarenoso cuja media e µ = 0, 5mm.

2. A fim de testar a ocorrencia de estratificacao gradacional num certo arenito, amostrasforam coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-tverificar se as diferencas entre o tamanho medio das partıculas da base e do toposao significativas ou nao.

Estratos base topo d=t-b1 2,81 3,13 0,322 3,95 4,13 0,183 3,75 3,88 0,134 2,68 2,91 0,235 3,25 3,65 0,366 3,90 4,20 0,307 3,30 3,12 -0,18

3. Foram feitas vinte medidas do tempo total gasto para a precipitacao de um sal, emsegundos, num dado experimento, obtendo-se:

13 15 12 14 17 15 16 15 14 1617 14 16 15 15 13 14 15 16 15

Esses dados sao suficientes, pergunta-se, para estimar o tempo medio gasto na pre-cipitacao com precisao de meio segundo e 95% de confianca? Caso negativo, qual otamanho da amostra adicional necessaria?

4. Deseja-se estimar a resitencia media de certo tipo de peca com precisao de 2kg e95% de confianca. Desconhecendo-se a variabilidade dessa resistencia, roperam-secinco pecas, obtendo-se para elas os seguintes valores de sua resitencia (em kg):50,58,52,49,55. Com base no resultado obtido, determinou-se que deveriam ser rom-pidas mais quinze pecas, a fim de se conseguir o resultado desejado. Qual sua opiniaoa respeito dessa conclusao?

5. Exercıcios 4, item 1. Realize um teste estatıstico para ajuda-lo na decisao se vocedeve ou nao acreditar que a moeda e balanceada. Qual a sua conclusao?

6. Suponha que estejamos interessados em estimar a proporcao de todos os motoristasque excedem o limite maximo de velocidade num trecho da rodovia entre Curitiba-Sao Paulo. Quao grande deve ser a amostra para que estejamos pelo menos 99%confiantes de que o erro de nossa estimativa, a proporcao amostral, seja no maximo0,04?

7. Refaca o exercıcio anterior, sabendo que temos boas razoes para acreditar que aproporcao que estamos tentando estimar e no mınimo 0,65.

46

7 Comparando dois grupos

7.1 Diferenca entre medias de dois grupos

Na Secao 5.4, vimos como construir um intervalo de confianca para a media populacionalµ, de uma amostra aleatoria de tamanho n. Lembre-se que este intervalo de confiancaera da forma x ± t × SE or (x − t × SE, x + t × SE). Agora consideremos a comparacaodas medias de das populacoes (por exemplo, machos e femeas) atraves da estimacao dasdiferencas de medias e calculando um intervalo de confianca para esta diferenca dasmedias.

Quando temos amostras independentes de cada uma de duas populacoes, podemossumariza-las pelas suas medias, desvios padrao e tamanhos amostrais. Denote estas me-didas por x1, s1, n1 para a amostra um e x2, s2, n2 para a amostra dois. Denote ascorrespondentes medias populacionais e desvios padrao µ1, µ2, σ1 e σ2 respectivamente.

Para os dados de alturas dos estudantes da pagina 13, vamos comparar a altura mediados estudantes do sexo masculino com as dos sexo feminino. Seja os grupo dos homensa amostra um, e o grupo das mulheres a amostra dois. As alturas foram medidas emcentımetros e as medidas sumarias foram como segue:

x1 = 178.85, s1 = 7.734, n1 = 20,x2 = 164.09, s2 = 9.750, n2 = 17.

Agora claramente uma estimativa natural da diferenca entre medias na populacao, µ1−µ2,e dada pela diferenca nas medias amostrais:

x1 − x2,

e para nossos dados esta e 178.85 − 164.09 = 14.76. Agora o que precisamos e um erropadrao para esta estimativa para que possamos construir um intervalo de confianca ourealizar um teste da hipotese nula H0: µ1 − µ2 = 0 versus H1: µ1 − µ2 6= 0.

7.1.1 Erro padrao - assumindo desvios padrao iguais

Primeiramente, assumimos que os desvios padrao populacionais sao os mesmos em cadagrupo, i.e. σ1 = σ2 = σ. Podemos combinar os dois desvios padroes amostrais para formaruma estimativa combinada do desvio padrao. Atribuımos mais peso as amostras maiores.Este desvio padrao combinado sp e a raiz quadrada da variancia combinada s2

p dadapor

s2p =

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2.

Para nossos dados temos:

s2p = (19× 7.7342 + 16× 9.7502)/35 = 75.92801

entao sp =√

75.92801 = 8.71. Note que esta entre s1 e s2. Se voce obtiver um valor quenao esta entre estes valores entao seus calculos estao errados.

47

Agora podemos calcular o erro padrao das diferencas nas medias como

SE = sp

√1n1

+1n2

.

a qual para nossos dados e 8.71×√(1/20 + 1/17) = 2.87kg.

7.1.2 I.C. para a diferenca entre medias assumindo desvios padrao iguais

Um intervalo de confianca para µ1 − µ2 e dado por

((x1 − x2)− t× SE, (x1 − x2) + t× SE) ,

onde t e escolhido apropriadamente. Quando os tamanhos amostrais sao grandes umintervalo de confianca aproximado de 95% e obtido usando t = 1.96.

Se os tamanhos amostrais nao forem tao grandes entao un intervalo exato de 95% deconfianca deveria de ser calculado selecionando o valor de t da tabela da disitrbuicAo t,com n1 + n2 − 2 graus de liberdade e coluna p = 0.05. Para um intervalo de 99% deconfianca deverıamos selecionar o valor na coluna p = 0.01.

Exemplo: Para os dados de altura, temos n1 + n2 − 2 = 20 + 17 − 2 = 35, resultandot = 2.03 para um intervalo de confianca de 95% (atraves de interpolacao entre a linha 30e 40). Um intervalo de confianca de 95% para a diferenca nas medias e dado por:

(14.76− 2.03× 2.87, 14.76 + 2.03× 2.87) = (8.93, 20.59).

Estamos 95% confiantes que, em media, estudantes do sexo masculino sao entre 9cm e21cm mais do que as estudantes do sexo feminino.

7.1.3 Teste para a diferenca das medias

Um teste para a diferenca entre medias corresponde a um teste de H0: µ1 − µ2 = 0.Seguindo o mesmo tipo de procedimento visto na Secao 6.

Nosso teste estatıstico e:t =

(x1 − x2)− 0SE

,

que e a estimativa de µ1 − µ2 menos o valor hipotetico (zero neste caso) e tudo divididopelo erro padrao.

Sob a hipotese nula, este segue uma distribuicao t com n1 +n2−2 g.l. O valor obtido parat (ignorando seu sinal) e comparado com os valores tabelados com os graus de liberdadeaproriados, para obter um p-valor.

Para os nossos dados, temos t = (14.76− 0)/2.87 = 5.14, e comparando este a linha 30 e40 da tabela, vemos que devemos ter p < 0.001.

Assumindo que nossas amostras foram amostras aleatorias de todos os estudantes, temosevidencias bem fortes de a altura media dos estudantes do sexo masculino e diferentedaquela das estudantes do sexo feminino.

48

7.1.4 I.C. para diferenca de medias - desvios padrao diferentes

Uma regra pratica e que os desvios padrao populacionais σ1 e σ2 podem em geral serassumidas iguais se a razao do maior desvio padrao amostral para o menor for menor doque 2 ou 3. Alem disso a suposicao de variancias iguais pode ser grosseiramente avaliadaatraves de historgramas dos dados. Testes formais estao disponıveis se necessario.

Se os desvios padrao populacionais nao puderem ser assumidos iguais, usamos uma outraformula para o erro padrao de x1 − x2, dado por

SE =

√s21

n1+

s22

n2.

Note que esta abordagem e usada somente para grandes amostras.

A estaıstica de teste usando este SE nao segue uma distribuicao t sob a hipotese nula.Contudo, para tamanhos amostrais razoavelmente grandes (digamos ambos maiores doque 30), podemos comparar a estatıstica de teste acima com uma distribution Normalpadrao (ultima linha da tabela t).

Em nosso exemplo, calculamos um erro padrao de 2.87 kg sob a suposicao de igauldadede desvios padrao populacionais para ambos os grupos. A formula alternativa (a qual naoassume desvios padrao populacionais iguais) resulta em

SE =

√(7.734)2

20+

(9.750)2

17= 2.93 kg

que praticamente nao defire do valor previo. Entao o intervalo de confianca e o resultadode teste de hipotese seriam virtualmente os mesmos usando este erro padrao.

49

7.2 Amostras pareadas

Num estudo pareado, temos duas amostras mas cada observacao da primeira amostra epareada com uma observacao da segunda amostra. Tal delineamento ocorre, por exemplo,num estudo de medidas feitas antes e depois no mesmo indivıduo ou num estudo degemeos (onde cada conjunto de gemeos forma um dado pareado). Como esperado, as duasobservacoes do mesmo indivıduo (ou de um conjunto de gemeos) sao mais provaveis deserem similares, e portanto nao sao considerados estatıticamente independentes.

Com dados pareados, podemos usar a seguinte notacao:

x1i = measurement 1 on pair i,

x2i = measurement 2 on pair i

a entao escrevemos as diferencas nas medidas de cada par como

di = x2i − x1i.

Agora temos uma amostra de diferencas di, e podemos usar os metodos que ja estamosfamiliares. Podemos calcular um intervalo de confainca para a diferenca media e testarse a diferenca media e igaul a um particular valor (usualmente zero) ou nao. Nos referimosa tal teste como um paired t-test ao contrario do test-t para duas amostras acima.

Note que neste caso estamos interessados na diferenca media enquanto que quando temosduas amostras independentes, estamos interessados na diferenca nas medias. Ainda quenumericamente estas quantidades sao as mesmas, conceitualmente elas sao diferentes.

Exemplo: A mudanca nos nıveis de um contaminante numa certa area do inıcio ao finalde seis meses de observacao foram (em µ/l):

−1.5 −0.6 −0.3 0.2 −2.0 −1.2

A media e o desvio padrao sao −0.9 e 0.81 µ/l respectivamente. Entao o erro padrao e0.81/

√6 = 0.33 µ/l.

Podemos agora realizar um test-t pareado para testar a hipotese nula de que a perda naconcentracao media e 0. Para isso calculamos

t =d− 0SE(d)

=−0.90.33

= −2.73.

Note que este valor e negativo (porque a mudanca media observada foi a reducao naconcentracao do poluente — um valor positivo seria um aumento na concentracao dopoluente). Observamos o valor absoluto da estatıstica de teste (2.73) na tabela, usando alinha com n− 1 = 5 graus de liberdade.

A quinta linha da tabela mostra que 0.01 < p < 0.05 (porque o valor 2.73 esta entre osvalores tabelados 2.571 e 4.032). Entao, rejeitamos a hipotese nula ao nıvel de 5%. Existeevidencia ao nıvel de 5% de que a area em estudo sofreu uma reducao em media nos nıveisdo contaminante durante o perıodo de seis meses.

50

Podemos adicionar a nossa conclusao o intervalo de confianca de 95% para a reducao medianos nıveis do contaminante: −0.9 ± 2.57 × 0.33 = −0.9± 0.85 = (−1.75,−0.05) Estamos95% confiantes que a reducao media nos nıveis do contaminante esta entre 0.05µ/l e1.75µ/l.

51

7.3 Comparando proporcoes

Voltando aos dados da pagina 38 acerca de um estudo investigando a existencia de umaigualdade na proporcao de machos de uma certa especie em dois lagos distintos. Asproporcoes observadas de machos foram 74.4% dentre 43 peixes capturados no primeirolago e 60% dentre os 50 do segundo. Se construirmos intervalos de confianca para ospercentuais correspondentes de machos na populacao (peixes da mesma especie naquelesdois lagos), encontrarıamos que podemos estar 95% confiantes de que o percentual estaentre 61.4% e 87.4% no primeirop lago, e entre 46.4% e 73.6% no segundo.

Contudo, nesse tipo de experimento a ideia principal e comparar diretamente os doislagos. Portanto gostariamos de calcular um intervalo de confianca de 95% para adiferenca em proporcoes. Note contudo que isto e somente apropriado para grandesamostras, e desse modo quando a amostra e pequena devemos ser cautelosos para naosuper valorizar os resultados.

7.3.1 Intervalo de confianca para a diferenca em proporcoes

Seja p1 a verdadeira proporcao populacional no grupo 1 (lago 1), se seja p2 a proporcaono grupo 2 (lago 2). Estamos interessados na diferenca em proporcoes,

p2 − p1.

Estimativas de p1 e p2 sao dadas por

p1 = 0.744 , p2 = 0.600,

entao uma estimativa da diferenca em proporcoes e

p2 − p1 = 0.744− 0.600 = 0.144

O erro padrao desta diferenca e

SE =

√p1(1− p1)

n1+

p2(1− p2)n2

.

Com isso podemos construir um intervalo de confianca da forma ususal, ou seja

(p2 − p1)± 1.96× SE.

52

Entao para os nossos dados temos

SE =

√0.744× (1− 0.744)

43+

0.600× (1− 0.600)50

= 0.096.

Portanto um intervalo de confianca aproximado de 95% para a diferenca em proporcoes edado por 0.144 ± 1.96 × 0.096, o qual e (−0.044, 0.332), ou (-4.4%,33.2%). Estamos 95%confiantes que a verdadeira diferenca percentual entre as proporcoes de peixes machos nosdois lagos esta entre -4.4% e 33.2%.

Note que de acordo com este intervalo o valor zero e um valor plausıvel para as diferencasnos percentuais, e portanto nao existem evidencias estatısticas de que o percentual depeixes do sexo masculino diferem nos dois lagos.

7.3.2 Teste para a diferenca de duas proporcoes

Podemos testar a hipotese nula H0: p2 − p1 = 0 versus a alternativa H1: p2 − p1 6= 0usando a estatıstica

t =(p2 − p1)− 0

SE

e comparando este valor com a tabela t com ∞ graus de liberdade.

7.4 Exercıcios 6

1. Um experimento (hipotetico) sobre o efeito do alcool na habilidade perceptual mo-tora e conduzido. 10 indivıduos sao testado duas vezes, uma depois de ter tomadodois drinks e uma depois de tomado dois copos de agua. Os dois testes foram re-alizados em dois dias diferentes para evitar influencia do efeito do alcool. Metadedos indivıduos tomou a bebida alcoolica primeiro e a outra metade agua. Os escoresdos 10 indivıduos sao mostrados abaixo. Escores mais altos refletem uma melhorperformance. Deseja-se testar se a bebida alcoolica teve um efeito singificante. Useum nıvel de significancia de 1%.

------------------------------------indivıduo

1 2 3 4 5 6 7 8 9 10------------------------------------agua 16 15 11 20 19 14 13 15 14 16alcool 13 13 12 16 16 11 10 15 9 16------------------------------------

53

2. Um estudo realizado para comparacao entre duas lagunas quanto a salinidade emBimini, Bahamas, obteve as seguintes observacoes (em partes por mil):

--------------------laguna 1 laguna 2--------------------37.54 39.0437.01 39.2136.71 39.0537.03 38.2437.32 38.5337.01 38.7137.03 38.8937.70 38.6637.36 38.5136.75 40.0837.4538.85--------------------

O que voce conclui com base nestes dados?

3. Deseja-se comparar os teores de Sr provenientes de amostras de carbonato obtidos apartir de dois metodos diferentes: I-fotometro de chama; II-analise espectrografica.

---------------------------------Especimes Metodo I Metodo II---------------------------------1 0.96 0.942 0.96 0.983 0.85 0.874 0.86 0.845 0.86 0.876 0.89 0.93---------------------------------

4. As seguintes amostras aleatorias sao medidas da capacidade de producao de calor(em milhoes de calorias por tonelada) de especimes de carvao de duas minas:

------------------------------------mina 1 8400 8230 8380 7860 7930mina 2 7510 7690 7720 8070 7660------------------------------------

Use um teste de 0.05% de significancia para testar se a diferenca entre as capacidadesmedias de calor e significante.

5. Um metodo de semeadura de nuvens foi bem sucedido em 57 dentre 150 tentativas,enquanto outro metodo foi eficaz em 33 dentre 100 tentativas. Ao nıvel de signi-ficancia de 0.05% podemos concluir que o primeiro metodo e melhor do o segundo?

54

8 Correlacao

8.1 Relacoes entre variaveis

Em diversas investigacoes deseja-se avaliar a relacao entre duas medidas quantitativas.Por exemplo, estao as alturas de filhos relacionadas com as alturas dos seus pais? Processospraianos condicionam a inclinacao da zona pos-praia abaixo da linha da mare baixa? Ouseja, o angulo de inclinacao do fundo oceanico situado logo apos a linha da mare baixaa estirancio esta relacionado com o diametro medio (em mm) do sedimento do fundooceanico?

angulo de inclinacao y 0.68 0.85 0.66 0.50 1.86 2.33 2.17 1.83 1.682.05 1.83 1.84 1.87 1.82 1.85 1.75 1.51 1.38

diametro de sedimentos x 0.79 0.65 0.81 0.74 0.22 0.23 0.25 0.26 0.410.55 0.47 0.59 0.47 0.50 0.52 0.47 0.42 0.37

Tres propositos principais de tais investigacoes podem ser:

• para verificar se os valores sestao associados. (Os valores de uma medida tendema crescer (ou decrescer) a medida que a outra cresce?)

• para predizer o valor de uma variavel a partir de um valor conhecido da outra.

• para descrever a relacao entre variaveis. (Dado um aumento especıfico numa variavel,qual o crescimento medio esperado para a segunda variavel?)

A associacao linear entre duas variaveis e avaliada usando correlacao. Para predizer ovalor de uma variavel contınua a partir de uma outra variavel e para descrever a relacaoentre duas variaveis utiliza-se regressao (veja o proximo capıtulo).

O primeiro estagio em qualquer um dos casos e produzir um grafico de pontos dos dadospara obter alguma ideia da forma e grau de associacao entre duas variaveis.

55

0.2 0.3 0.4 0.5 0.6 0.7 0.8

0.5

1.0

1.5

2.0

x

y

Mesmo tendo somente 18 observacoes, podemos ver que parece existir alguma associacaoentre angulo de inclinacao do fundo oceanico e diametro medio de sedimentos.

8.2 Definicoes

Seja x1, x2, . . . , xn o conjunto das medidas de uma das variaveis (perıodo das ondas), eseja y1, y2, . . . , yn as medidas da outra variavel (diametro medio de sedimentos). Seja x,y, sx e sy as medias e desvios padrao amostrais dos dois conjuntos de dados.

Para obter uma medida do grau de associacao da relacao linear entre duas variaveis,usamos o coeficiente de correlacao, definido como:

r =sxy

sxsy.

ondesxy =

∑(xi − x)(yi − y)

n− 1=

∑xiyi − nxy

n− 1.

Para os dados do exemplo acima, temos n = 18, x = 0.48, y = 1.58, sx = 0.18, sy = 0.54,∑xiyi = 12.44 a partir dos quais podemos calcular que r = −0.079.

Assim como para medias e desvios padrao, existe uma letra Grega especial que utlizamospara o coeficiante de correlacao populacional: ρ. Podemos considerar r como sendouma estimativa de ρ, exatamente como x e uma estimativa da media populacional µ.

Abaixo estao exemplos de dados com seus coeficientes de correlacao correspondentes.

56

r=0.4

r=0.7

r=1.0

r=-0.3

r=-0.6

r=-0.9

8.3 Interpretacao do coeficiente de correlacao

O valor de r esta sempre entre −1 e +1, com r = 0 correspondendo a nao associacao.

Valores de r

{negativospositivos

}indicam uma associacao

{negativapositiva

}

Usamos o termo correlacao positiva quando r > 0, e nesse caso a medida que x crescetambem cresce y, e correlacao negativa quando r < 0, e nesse caso a medida que xcresce, y decresce (em media).

Quanto maior o valor de r (positivo ou negativo), mais forte a associacao. No extremo,se r = 1 ou r = −1 entao todos os pontos no grafico de dispersao caem exatamente numalinha reta. No outro extremo, se r = 0 nao existe nenhuma associacao linear.

A seguinte quadro fornece um guia de como podemos descrever uma correlacao em palavrasdado o valor numerico. E claro que as interpretacoes dependem de cada contexto emparticular.

Valor de ρ (+ ou −) Interpretacao0.00 a 0.19 Uma correlacao bem fraca0.20 a 0.39 Uma correlacao fraca0.40 a 0.69 Uma correlacao moderada0.70 a 0.89 Uma correlacao forte0.90 a 1.00 Uma correlacao muito forte

Note que correlacoes nao dependem da escala de valores de x ou y. (Por exemplo, ob-terıamos o mesmo valor se medıssemos altura e peso em metros e kilogramas ou em pes elibras.)

57

8.4 Linearidade e normalidade

Somente relacoes lineares sao detectadas pelo coeficiente de correlacao que acabamos dedescrever (tambem chamado coeficiente de correlacao de Pearson). Nos dados abaixo,mesmo existindo uma clara relacao (nao-linear) entre x e y, o coeficiente de correlacao ezero. Sempre faca o grafico dos dados de modo que voce possa visualizar tais relacoes.

•

•

•

•

•

•

••

• • • • ••

•

•

•

•

•

•

•

x

y

Em alguns casos pode ser apropriado transformar x e/ou y.

••

•

••

•

••••••••••

•

•••••••

•

•

•

•

•

••••

•

••

•

•••

•••

•••

••

••••

•

•

•••

•

••

••

••

••••••

•••••

Gross Domestic Product

Mili

tary

exp

endi

ture

0 50000 100000 150000

0

2000

4000

6000

•

•

•

•

•

•

•

•

•

•

•

•

••

••

•

•

•

•

•

• •

•

•

•

•

•

•

•

•

• •

•

•

•

•

•

•

•

•

••

•

•

•

••

••

• •

•

•

•

•

•

•

•

•

••

•

•

•

•

••

•

•

•

• ••

•

Log Gross Domestic Product

Log

Mili

tary

exp

endi

ture

6 7 8 9 10 11 12

2

4

6

8

58

8.5 Coeficiente de determinacao, R2

O quadrado do coeficiente de correlacao de Pearson e chamado de coeficiente de de-terminacao ou simplesmente R2. E uma medida da proporcao da variabilidade em umavariavel que e explicada pela variabilidade da outra. E pouco comum que tenhamos umacorrelacao perfeita (R2 = 1) na pratica, porque existem muitos fatores que determinam asrelacoes entre variaveis na vida real. No nosso exemplo da pagina 56, tivemos r = −0.79,de modo que R2 = 0.62 ou 62%. Entao cerca de 38% da variabilidade da inclinacao dazona pos-praia abaixo da linha da mare baixa nao pode ser descrito (ou explicado) pelavariabilidade no diametro medio de sedimentos e vice-versa. Fica portanto claro que exis-tem outros fatores que poderiam ser importantes, como por exemplo, profundidade dalamina d’agua, altura das ondas, angulo de aproximacao das ondas, etc.

8.6 Associacao nao e causalidade

Suponha que encontremos uma associacao ou correlacao entre duas variaveis A e B. Podemexistir diversas explicacoes do porque elas variam conjuntamente, incluindo:

• Mudancas em A causam mudancas em B.

• Mudancas em B causam mudancas em A.

• Mudancas em outras variaveis causam mudancas tanto em A quanto em B.

• A relacao observada e somente uma coincidencia.

A terceira explicacao e frequentemente a mais apropriada. Isto indica que existe algumprocesso de coneccao atuando. Por exemplo, o numero de pessoas usando oculos-de-sole a quantidade de sorvete consumido num particular dia sao altamente correlacionados.Isto nao significa que usar oculos-de-sol causa a compra de sorvetes ou vice-versa!

E extremamente difıcil estabelecer relacoes causais a partir de dados observacionais.Precisamos realizar experimentos para obter mais evidencias de um relacao causal.

8.7 Exercıcios 7

1. Um estudo geoquımico orientador realizado, utilizando amostras compostas de se-dimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm,provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados emppm:

59

Ni Cr Ni Cr5.2 16.8 4.5 15.55.0 20.0 5.4 13.06.8 14.2 8.8 12.57.5 17.5 18.0 20.22.5 10.1 6.2 12.55.0 15.5 20.5 13.57.5 13.8 10.0 17.87.0 18.2 4.0 12.88.0 13.0 4.4 12.24.0 15.0 15.9 13.0

(a) Faca o grafico destes dados com Ni no eixo x.

(b) Calcule o coeficiente de correlation r pata estes dados e cheque se o valor obtidoparece consistente com seu grafico.

(c) Qual proporcao da variabilidade na concentracao de Cr pode ser explicada pelaconcentracao de Ni?

2. Prosseguindo o estudo da influencia de processos praianos no condicionamento doangulo de inclinacao do fundo oceanico situado logo apos a linha da mare baixa aestirancio mediu-se a profundidade da lamina d’agua (em pes). Os dados coletadosforam:

angulo de inclinacao y 0.68 0.85 0.66 0.50 1.86 2.33 2.17 1.83 1.682.05 1.83 1.84 1.87 1.82 1.85 1.75 1.51 1.38

profundidade x 12.4 11.4 10.7 11.6 11.3 10.7 11.1 12.8 13.313.3 14.1 13.4 13.5 13.3 14.4 14.1 15.3 14.0

(a) Faca o grafico desses dados com profundidade da lamina d’agua no eixo x.

(b) Calcule o coeficiente de correlacao, r e interprete o resultado obtido.

(c) Qual proporcao da variabilidade em angulo de inclinacao pode ser explicadapor profundidade da lamina d’agua?

60

9 Regressao

9.1 Ideia basica

Em certas situacoes podemos estar interessados em descrever a relacao entre duas variaveis,e tambem predizer o valor de uma a partir de outra. Por exemplo, se sabemos a alturade um certo estudante, mas nao o seu peso, qual seria um bom chute para o peso desteestudante? O coeficiente de correlacao apenas indica a grau de associacao como um uniconumero.

Retorne aos dados de altura e peso de estudantes na pagina 13. Denote as alturas porx1, x2, . . . , xn, e os pesos por y1, y2, . . . , yn. (Por enquanto vamos ignorar se eles sao dosexo masculino ou feminino). Se estamos interessados em predizer peso de altura entao naotemos uma relacao simetrica entre as duas variaveis. Chamamos peso a variavel respostaou dependente, e altura a variavel explanatoria, preditora ou independente. Avariavel resposta e sempre disposta no eixo vertical y, e a variavel explanatoria e sempredisposta no eixo x.

Height (cm)

Wei

ght (

kg)

140 150 160 170 180 190 200

4050

6070

8090

Se a relacao entre as duas variaveis e aproximadamente linear, entao os dados podem serresumidos atraves do ajuste de uma reta passando pelos dados. A equacao dessa reta edada por

y = a + bx

onde a e conhecida como o intercepto e b e a inclinacao. Intuitivamente, queremos umareta que forneca pequenas diferencas entre os verdadeiros pesos e aqueles dados pela retapara as alturas correspondentes.

61

O metodo padrao para obter a melhor reta ajustada e chamado mınimos quadradoso qual literalmente miniza a soma dos quadrados das distancias de yi a reta ajustada.Em princıpio isto requer tracar retas possıveis, calculando a soma dos quadrados dasdistancias:

S =n∑

i=1

(yi − yi)2 =n∑

i=1

{yi − (a + bxi)}2

e encontrar os valores de a e b (equivalentemente a reta) que fornecem o menor valor deS. E possıvel mostrar que a melhor reta e aquela tal que

b =∑

(yi − y)(xi − x)∑(xi − x)2

=∑

xiyi − nxy∑x2 − nx2

=sxy

s2x

ea = y − bx.

Para os dados de altura e peso a = −51.17kg e b = 0.68kg/cm; entao a reta de regressao e

y = −51.17 + 0.68x.

Nossa reta ajustada e uma estimativa da reta de regressao populacional, y = α+βx.Nossos a e b sao estimativas de α e β. (E comum, denotar-se estas estimativas por α e βao inves de a e b.)

O proximo passo e construir intervalos de confianca etc para α e β (intercepto e inclinacaopopulacional), mas para fazer isto precisamos pensar mais cuidadosamente sobre nossassuposicoes acerca da populacao.

9.2 Modelo de regressao linear simples

Este e o modelo mais simples para descrever a relacao entre uma variavel explanatoria xe uma variavel resposta y. O modelo faz a seguintes suposicoes, em ordem decrescente deimportancia:

1. o valor medio da variavel resposta e uma funcai linear de x,

2. a variancia da variavel resposta e constante (ou seja, a mesma para todos os valoresde x),

3. a variacao aleatoria da variavel resposta para qualquer valor fixo de x segue umadistribuicao Normal, e estes termos de erro sao independentes.

Em termos algebricos, seja (xi, yi) para i = 1, . . . , n os valores observados da variavelexplanatoria x e da variavel resposta y para os n sujeitos.

62

O modelo de regressao linear e

yi = α + βxi + εi

onde εi representa desvios independentes aleatorios da relacao linear entre y e x e (parasatisfazer nossas tres suposicoes acima)

εi ∼ Normal(0, σ2).

Note que α e β sao parametros da populacao, e eles sao frequentemente conhecidos comocoeficientes. Em particular, β e denominado coeficiente, ou efeito, de x.

Os dados abaixo parecem satisfazer todas as tres suposicoes:

• •

•

•• •

••

•

•• •••

•

•

•

••

•

•

•

•

•

••

•

•

•

•

••

• •

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

••

••

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

•

••

••

•

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

•

•

••

•

•

•

••

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

•

•

•

•• •

•

• •

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

•

••

•

•

• •

• •

•

•

••

•

•

•

•

•

•

•

•

•

•

•

••

•

••

•

•

••

•

••

• ••

•

••

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

••

•

•

••

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

••

•

••

••

•

•

••

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•••

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

•

• •

•

•

•

•

•

•

•

•

••

• ••

•

•

• •

•

•

•

•

•

•

•

•

•

••

• •

•

•

••

•

•

•

••

•

•

•

•

•

•

•

•••

•

•

• ••

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

••

•

•

•

••

•

•

•

••

•

•

••

••

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

•

•

•

x

sqrt

(y)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Um exemplo construıdo de dados que nao satisfazem nenhuma das suposicoes e mos-trado abaixo:

• •

•

••

•

••

•

•• •• •

•

•

•

• •••

•

•

•

•• •

•

•

•

• •

• •

• ••

•

•

•

•

•

•

••

•

• •

•

••

••

•

•

•

•

• •

•

•

•

•

•

•

•

•

••

•

••

••

•

•

•

•

•

•

•

••

•

•

• ••

••

•

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

• •

•

•

••

•

•

•

•

•

•

•

•

•

•• •

•

• •

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•• •

•

•

•

•

•

•

•

••

•

•••

•

•

• •• •

•

•

••

•

•

•

•

•

•

•

•

•

•

•

••

•

•••

•

•

•

•••

• ••

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

•

••

•

••

•

•

••

•

•

•

•

•

••

•

• •

•

•

••

•

•

•

•

•

•

•

••

•

• •

••

•

•

• •

•

•

•

•

•

•

•••

•

••

•

•

•

•

•

•

•

•

••

•

•

•

••

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

•••

•

•

•

••

•

•

•

•

•

•

•

•

•

•• •

•

•

••

•

•

•

• • •

•

•

•

•

•

••

•

•

•

••

•

•

•

•

•

•

•

•

••

•

• •

•

•

•

•

•

•

•

•

••

• ••

•

•

• •

•

••

•

•

••

•

•

••

• •

•

•••

•

•

•

• •

•

•

•

•

•

•

•

•• •

•

•

• ••

•

•

•

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

••

•

•

•

•

•

•

•

•••

•

•

•

•

•

•

•

•

•

•

• •

•

•

•

••

••

•

••

•

•

• •• ••

•

•

•

••

•••

•

•

•

•

•

•

•

•

•

•

•

•

•

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

63

9.3 Estimando os parametros do modelo

Uma tarefa importante associada com o modelo de regressao linear e a estimacao dosvalores de α e β, os quais juntos determinam a equacao da reta ajustada.

Um metodo padrao de estimacao em estatıstica chamado maxima vaerossimilhancaleva as mesmas estimativas de mınimos quadrados descrito na Secao 9.1, ou seja

β = sxy/s2x e α = y − βx

Em aplicacoes, nao existe garantia de que o modelo de regressao linear sera resoavel paranossos dados. Devemos sempre sobrepor a reta ajustada y = α + βx sobre um scatterplotdos dados para checar se o modelo e razoavel. Devemos procurar por evidencias de umarelacao nao-linear, ou desvios muito extremos da reta ajustada.

Se acharmos que o modelo esta razoavel, podemos tambem estimar σ2, a variancia doserros εi, usando a formula

σ2 =(n− 1)(n− 2)

{s2y − β2s2

x}

onde s2y e s2

x denotam a variancia amostral de y e de x, respectivamente.

9.3.1 Exemplo

Para os nossos dados, ja sabemos que α = −51.17 e que β = 0.68. Um grafico dos dadoscom a reta ajustada e:

Height (cm)

Wei

ght (

kg)

140 150 160 170 180 190 200

4050

6070

8090

O ajuste da reta nao parece tao bom. Existem dois pontos bem distantes da reta ajustada,e o da esquerda em particular parece ter uma grande influencia na reta ajustada. Napratica e aconselhavel investigar a acuracia destes valores e/ou verificar quanto muda areta ajsutada quando estes pontos sao removidos. Contudo, por enquanto prosseguiremosassumindo que esta tudo ok!

64

Para sermos capazes de calcular erros padrao e intervalos de confianca, e importantemanter tantas casa decimais quanto possıvel: β = 0.6846253. As outras quantidades sao:

n = 37, sx = 11.38700, sy = 11.70791, sxy = 88.77102.

Podemos agora obter σ2:

σ2 =3635{(11.707912)− (0.68462532)(11.387002)} = 78.48

Entao uma estimativa do desvio padrao dos desvios aleatorios εi em torno da reta e

σ =√

78.48 = 8.86

9.4 I.C. e teste para β

Usualmente e de interesse saber qual a nossa precisao na estimativa de β. Para responderesta questao, podemos calcular um intervalo de confianca de 95% para β, como segue:

1. Calcule o erro padrao de β,

SE =√

σ2/{(n− 1)s2x}

2. Encontre o valor de tn−2,0.05, que esta na tabela t: linha r = n− 2 e coluna 0.05.

3. Um Intervalo de confianca de 95% e: β ± t× SE

Podemos tambem ter interesse em testar a hipotese H0: β = 0, ou seja, de que nao existarelacao entre x e y. Nesse caso, procedemos como segue:

1. Calcule t = (β − 0)/SE.

2. Procure na tabela t, o p-valor correspondente ao seu valor de t na linha r = n − 2da tabela para sumarizar a evidencia contra H0.

9.4.1 Exemplo

Para os dados dos estudantes, um teste da hipotese nula de nao existencia de relacao entrealtura e peso fica como segue.

SE =√

78.48/(36 ∗ 11.3870022) = 0.1297

t = 0.6846/0.1297 = 5.28 (comn− 2 = 35gl → P < 0.001)

Podemos calcular um intervalo de confianca de 99% para β (o coeficiente de altura):

(0.6846± 2.032× 0.1297) = (0.42, 0.95)

65

9.5 Transformacoes de dados

Uma forma de estender a aplicabilidade do modelo de regressao linear e aplicar umatransformacao em x ou y, ou ambos, antes de ajustar o modelo. Ou seja, se a relacaoentre duas variaveis e nao-linear (uma curva pareceria ajusta melhor do que uma reta),entao frequentemente a relacao pode ser feita linear transformando uma ou ambas asvariaveis.

Transformacoes podem ser muito uteis em algumas circunstancias, mas deveria somenteser considerada como um ultimo recurso uma vez que quando uma or ambas as variaveissao transformadas, os coeficientes deixam de ter interpretacoes diretas.

A ideia e escolher uma transformacao que faca a relacao aproximadamente linear enquantoainda premanecendo interpretaveis. Frequentemente, relacoes biologicas sao multiplicati-vas e nao aditivas e transformacoes logarıtmicas sao particularmente uteis nestes casos.

9.6 Resumo

Regressao permite-nos:

• Descrever suscintamente o nıvel geral de uma variavel que esta associada com cadanıvel de outra.

• Predizer uma variavel de uma outra variavel. E importante aqui distinguir entreinterpolacao (predicao dentro da amplitude dos dados amostrados; no exemplo,predicao do peso de uma pessoa de altura 170 cm) e extrapolacao (predicao forada amplitude dos dados; no exemplo, predicao do peso de alguem com altura 70cmcomo sendo aproximadamente −3kg!).

9.7 Exercıcios 8

1. Com relacao aos dados apresentados no Capıtulo 8 sobre processos praianos condi-cionando a inclinacao da zona pos-praia abaixa da linha da mare baixa.

(a) Ajuste um modelo de regressao linear simples a partir do qual podemos predi-zer a inclinacao do fundo oceanico situado logo apos a linha da mare baixa aestirancio em termos do diametro medio do sedimento do fundo oceanico. Adi-cione a reta ajustada ao grafico de dispersao apresentado no capıtulo anterior.

(b) Explique em palavras o que a equacao de regressao esta lhe dizendo.

(c) Quais suposicoes foram feitas para obrter essa equacao?

(d) Como voce poderia decidir se a aparente associacao entre inclinacao e diametrofoi ou nao meramente casual?

(e) Com base nesse equacao, qual seria sua predicao para a inclinacao da zona pos-praia para um diametro medio do sedimento do fundo oceanico de 0.50mm?

66

Estat´ıstica - IFSCfabiosouza/Tecnologo/Telefonia 1/Apostila... · Este curso apresenta uma...

Documents

Transcript of Estat´ıstica - IFSCfabiosouza/Tecnologo/Telefonia 1/Apostila... · Este curso apresenta uma...