notas de aula em arquivo formato pdf

62
Estat´ ıstica B´ asica Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior Departamento de Estat´ ıstica-UFPR Email: [email protected] Resumo Resumo Este curso apresenta uma introdu¸c˜ ao aos m´ etodos estat´ ısticos para modelagem de dados. Neste curso, o aluno pensar´a em problemas pr´aticos de uma forma quantitativa e ganhar´a um entendimento dos princ´ ıpios b´asicos em estat´ ıstica. A obten¸c˜ ao de um conhecimento s´olido das id´ eias b´asicas dar´a ao aluno confian¸ca para abordar m´ etodos estat´ ısticos mais avan¸ cados que podem ser encontrados no futuro. Conte´ udo 1.Introdu¸c˜ ao: Por que Estat´ ıstica? 2. Estat´ ısticas Descritivas: sum´ariodedados, gr´aficodebarras, gr´aficodesetores, histograma, ramo-e-folhas, mediana, moda, desviopadr˜ao, amplitudeinter-quartis,... 3. Popula¸coes e amostras: usando amostras para aprender sobre a popula¸c˜ ao 4. Intervalos de confian¸ca: estimando a m´ edia populacional a partir de uma amostra 5. Testes de hip´oteses: id´ eia b´asica e testes para uma amostra 6.Compara¸c˜ ao de dois grupos: Asmensura¸c˜ oes num grupo tendem a ser maiores em m´ edia do que em outro? 7.Correla¸c˜ ao: verificando se os valores de duas quantidades tendem a ser rela- cionadas 8. Regress˜ ao: descrevendo como o comportamento de uma quantidade muda com o valor da outra 1

Transcript of notas de aula em arquivo formato pdf

Page 1: notas de aula em arquivo formato pdf

Estatıstica Basica

Silvia Emiko Shimakura & Paulo Justiniano Ribeiro JuniorDepartamento de Estatıstica-UFPR

Email: [email protected]

Resumo

ResumoEste curso apresenta uma introducao aos metodos estatısticos para modelagem de

dados. Neste curso, o aluno pensara em problemas praticos de uma forma quantitativae ganhara um entendimento dos princıpios basicos em estatıstica. A obtencao de umconhecimento solido das ideias basicas dara ao aluno confianca para abordar metodosestatısticos mais avancados que podem ser encontrados no futuro.

Conteudo

1. Introducao: Por que Estatıstica?

2. Estatısticas Descritivas: sumario de dados, grafico de barras, grafico de setores,histograma, ramo-e-folhas, mediana, moda, desvio padrao, amplitude inter-quartis,...

3. Populacoes e amostras: usando amostras para aprender sobre a populacao

4. Intervalos de confianca: estimando a media populacional a partir de uma amostra

5. Testes de hipoteses: ideia basica e testes para uma amostra

6. Comparacao de dois grupos: As mensuracoes num grupo tendem a ser maioresem media do que em outro?

7. Correlacao: verificando se os valores de duas quantidades tendem a ser rela-cionadas

8. Regressao: descrevendo como o comportamento de uma quantidade muda com ovalor da outra

1

Page 2: notas de aula em arquivo formato pdf

1 Introducao

1.1 O que e Estatıstica?

Primeiro deve-se estabelecer o que se deseja dizer com “estatıstica”. Ela tem pelomenos tres significados:

1. colecao de informacoes numericas ou dados,

2. medidas resultantes de um conjunto de dados, como por exemplo medias,

3. metodos usados na coleta e interpretacao de dados.

Qual e o papel da estatıstica na ciencia?

• Na ciencia, sao realizados estudos experimentais ou observacionais, levando acolecao de dados numericos.

• O proposito da investigacao e responder uma questao cientıfica.

• O padrao de variacao nos dados faz com que a resposta nao seja obvia.

• Em geral, a disciplina de estatıstica refere-se a metodos para coleta e descricaodos dados, e entao a verificacao da forca da evidencia nos dados pro ou contra asideias cientıficas. A presenca de uma variacao nao previsıvel nos dados faz dissouma tarefa pouco trivial.

1.2 Variacao Amostral

Alguns exemplos em que a variacao esta presente nos dados podem ser encontradosem Landim (1997).

2

Page 3: notas de aula em arquivo formato pdf

2 Estatıstica Descritiva

2.1 Tipos de dado

A interpretacao das listas de numeros a olho e muito difıcil. Ao inves disso, deverıamosproduzir um resumo verbal ou numerico e/ou usar metodos graficos para descr-ever os pontos principais dos dados.

O metodo mais apropriado dependera da natureza dos dados, e aqui podemosdistinguir dois tipos principais:

1. Dados qualitativos ou categoricos que podem ser:

(a) nominais, por exemplo• sexo: masculino, feminino• classificacao de fosseis

(b) ordinais, i.e. categorias ordenadas, tais como• salinidade: baixa, media, alta• abundancia: dominante, abundante, frequente, ocasional, raro

2. Dados quantitativos ou numericos que podem ser:

(a) discretos, i.e. contagens ou numero inteiros, por exemplo• numero de ovos postos pela tartaruga marinha• numero de ataques de asma no ano passado

(b) contınuos, i.e. medidas numa escala contınua, tais como• volume, area, peso, massa• velocidade de corrente

As distincoes sao menos rıgidas do que a descricao acima insinua. Por exemplo,em geral tratarıamos idade como uma variavel contınua, mas se a idade for registradapelo ano mais proximo, podemos trata-la como discreta, e se separarmos a amostra em“criancas”, “adultos jovens”, “idade media”, “velhos”, por exemplo, entao temos faixaetaria como uma variavel ordenada categorica. No entanto, e recomendado em geralmanter os dados em sua forma original, categorizando-os somente para propositos deapresentacao.

3

Page 4: notas de aula em arquivo formato pdf

2.2 Dados qualitativos

Para sumarizar dados qualitativos numericamente, utiliza-se contagens, proporcoes,percentagens, taxas por 1000, taxas por 1.000.000 etc., dependendo da escalaapropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia saohomens, poderıamos relatar a taxa como uma proporcao (0,5) ou, provavelmente aindamelhor, como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000pessoas sao portadores de uma doenca rara poderıamos expressar isto como uma pro-porcao observada (0,0014) ou percentual (0,14%), mas melhor seria 1,4 casos por mil.

2.2.1 Tabulando dados

Frequentemente o primeiro passo da descricao de dados e criar uma tabela de frequencia.Por exemplo, as especies de “woodlice” caindo numa armadilha foram:

Species tally ni ni/N pi PercentageOniscus ||||||||||||||| 12 12/27 0.444 44.4%Porcellio |||||||| 8 8/27 0.296 29.6%Philoscia ||||| 5 5/27 0.185 18.5%Armadilidium || 2 2/27 0.074 7.4%

N = 27 Σpi = 1

Num relatorio, a segunda coluna nao seria mostrada, e os dados seriam sumarizadosnum formato mais simples como mostrado abaixo. Se o maioria dos dados caem empoucas categorias, entao e conveniente colapsar algumas das categorias com somenteuma ou duas observacoes em outra categoria chamada “outros”.

Table showing the species of 27 woodlice that fell in a pit-fall trap:Species Frequency PercentageOniscus 12 44.4%Porcellio 8 29.6%Philoscia 5 18.5%Armadilidium 2 7.4%

Tabelas simples como esta sao na maioria das vezes suficientes para descrever dadosqualitativos especialmente quando existem somente duas ou tres categorias.

4

Page 5: notas de aula em arquivo formato pdf

2.2.2 Resumindo numericamente

Considere o seguinte conjunto de dados que mostra os escores de abundancia mediosDAFOR de ocorrencia de Nardus stricta em 100 areas investigadas em Exmoor.

Dominante 8Abundante 33Frequente 32Ocasional 17Raro 10

A moda de um conjunto de dados categoricos e a categoria que tem o maiorpercentual de dados. Ela deve ser usada cuidadosamente como uma medida resumoglobal porque e muito dependente da forma como os dados sao categorizados. Paraos dados de “woodlice” a moda e Oniscus. Para os dados acima, a categoria modal e“Abundante”, mas por muito pouco.

A mediana, bem como a moda, podem ser calculadas para dados ordenados.Este e valor do “meio”, mais comumente usado para dados quantitativos. A mediananao faz sentido para os dados “woodlice”. Para os dados de abundancia, a categoriamediana e “Frequente”, porque 50% dos dados estao em categorias superiores, e menosdo que 50% estao em categorias inferiores. A mediana e mais robusta do que a modapois e menos sensıvel a categorizacao adotada.

2.2.3 Graficos de Barras

Dados qualitativos, particularmente quando as categorias sao ordenadas, sao usual-mente bem ilustrados num simples grafico de barras onde a altura da barra e iguala frequencia.

Rare Occasional Frequent Abundant Dominant

010

2030

Freq

uenc

y

5

Page 6: notas de aula em arquivo formato pdf

2.2.4 Grafico de setores

Grafico de setores tambem podem ser uteis para apresentacao de dados categoricosordenados. Os setores do grafico sao desenhados de tal forma que eles tenham areaproporcional a frequencia. Entao para os dados “woodlice”, os angulos seriam 0.444×360 = 160◦ para Oniscus, etc.

Oni

scus

Porcellio Philoscia

Armadilidium

2.3 Dados quantitativos

2.3.1 Histograma

De longe o metodo mais comum de apresentacao de dados numericos e o histograma,relacionado com o grafico de barras para dados categoricos. As areas dos retangulosresultantes devem ser proporcionais a frequencia.

Algumas vezes e conveniente agregar classes de frequencia nos extremos da dis-tribuicao de forma que os intervalos tenham larguras diferentes. Cuidado ao fazerisso - um intervalo que e duas vezes a largura de um outro deve tem altura iguala metada de sua frequencia (para preservar a area contida dentro do intervalo) Damesma forma um intervalo que e tres vezes a largura dos outros deve ter um terco daaltura de sua frequencia observada.

Exemplo. 150 peixes mortos foram encontrados vıtimas de contamincao do rioe seus comprimentos foram medidos em milımetros. As medidas foram expressas naforma de tabela de frequencia.

Comprimento do peixe (mm) Frequencia100-109 7110-119 16120-129 19130-139 31140-149 41150-159 23160-169 10170-179 3

6

Page 7: notas de aula em arquivo formato pdf

100 120 140 160 180

010

2030

40

Fish lengths (mm)

Freq

uenc

y

O histograma construıdo desses dados e mostrado na Figura.Grafico de Ramos-e-FolhasUm metodo grafico que merece ser mais amplamente utilizado quando a quantidade

de dados nao e muito grande e o grafico de ramos-e-folhas como ilustrado a seguir.Exemplo. Um estudo geoquımico realizado utilizando amostras compostas de

sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm,provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados emppm de Cr

10.6 14.1 13.7 15.2 15.4 12.5 12.914.3 13.0 12.6 12.0 14.0 10.0 18.211.5 9.4 16.5 13.7 14.7 16.6 11.418.4 17.4 11.1 15.8 17.0 13.6 16.611.8 15.8 13.5

Uma vez que a escala tenha sido determinada, a qual define os “ramos” a esquerdada linha veritcal, podemos facilmente escrever os dados no grafico de ramos-e-folhascomo no diagrama esquerdo; como um refinamento podemos entao ordenar as “folhas”no diagrama a direita:

9 410 6 011 5 4 1 812 5 9 6 013 7 0 7 6 514 1 3 0 715 2 4 8 816 5 6 617 4 018 2 4

9 410 0 611 1 4 5 812 0 5 6 913 0 5 6 7 714 0 1 3 715 2 4 8 816 5 6 617 0 418 2 4

Acima os ramos sao numeros inteiros e as folhas sao valores depois do ponto deci-mal, mas isto nao e essencial em geral; por exemplo, os ramos podem representar cen-tenas e as folhas dezenas (com unidades arredondadas para o decimal mais proximo; as

7

Page 8: notas de aula em arquivo formato pdf

folhas devem ter um unico dıgito). Nota: e importante escrever as folhas em colunasigualmente espacadas, caso contrario pode resultar uma figura distorcida.

O grafico de ramos-e-folhas fornece um resumo visual dos dados sem que haja defato a perda de qualquer informacao.

Compare-o com um histograma para os mesmos dados:

8 10 12 14 16 18 20

01

23

45

Concentracao de Cr (ppm)

Freq

uenc

y

8

Page 9: notas de aula em arquivo formato pdf

2.3.2 Resumindo numericamente

Para resumir numericamente dados quantitativos o objetivo e escolher medidas apro-priadas de locacao (“qual o tamanho dos numeros involvidos?”) e de dispersao(“quanta variacao existe?”) para os tipos de dados.

Existem tres escolhas principais para a medida de locacao, a chamada “3 Ms”, asquais estao ligadas a certas medidas de dispersao como segue:

M ‘Dispersao’media (o valor ‘medio’) desvio padraomediana (o valor do ‘meio’) IQRmoda (o valor ‘mais comum’) proporcao

2.3.3 Media, variancia e desvio padrao

Para resumir dados quantitativos aproximadamente simetricos, e usual calcular amedia aritmetica como uma medida de locacao. Se x1, x2, . . . , xn sao os valores dosdados, entao podemos escrever a media como

x =x1 + x2 + . . . + xn

n=

∑ni=1 xi

n,

onde ‘∑n

i=1 xi = x1 + x2 + . . . + xn’ e frequentemente e simplificada para∑

xi ouate mesmo

∑x que significa ‘adicione todos os valores de x’.

A variancia e definida como o ‘desvio quadratico medio da media’ e e calculadade uma amostra de dados como

s2 =∑n

i=1(xi − x)2

n− 1=

∑ni=1(x

2i )− nx2

(n− 1).

A segunda versao e mais facil de ser calculada, embora muitas calculadoras temfuncoes prontas para o calculo de variancias, e e raro ter que realisar todos os passosmanualmente. Comumente as calculadoras fornecerao a raiz quadrada da variancia, odesvio padrao, i.e.

s =√

variancia =√

s2

a qual e medida nas mesmas unidades dos dados originais.Uma informcao util e que para qualquer conjunto de dados, pelo menos 75% deles

fica dentro de uma distancia de 2 desvio padrao da media, i.e. entre x− 2s e x + 2s.Exemplo. Sete homens foram pesados, e os resultados em kg foram:

57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.

A media e 454.3/7 = 64.9 kg,a variancia e (29635.05− 454.32/7)/6 = 25.16 kg2

e o desvio padrao e√

25.16 = 5.02 kg.

2.3.4 A mediana e a amplitude inter-quartis

Uma outra forma de sumarizar dados e em termos dos quantis ou percentis. Essasmedidas sao particularmente uteis para dados nao simetricos. A mediana (ou per-centil 50) e definida como o valor que divide os dados ordenados ao meio, i.e. metadedos dados tem valores maiores do que a mediana, a outra metade tem valores menoresdo que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, sao

9

Page 10: notas de aula em arquivo formato pdf

definidos como os valores abaixo dos quais estao um quarto e tres quartos, respec-tivamente, dos dados. Estes tres valores sao frequentemente usados para resumir osdados juntamente com o mınimo e o maximo. Eles sao obtidos ordenando os dadosdo menor para o maior, e entao conta-se o numero apropriado de observacoes: ou sejae n+1

4 , n+12 e 3(n+1)

4 para o quartil inferior, mediana e quartil superior, respectiva-mente. Para um numero par de observacoes, a mediana e a media dos valores do meio(e analogamente para os quartis inferior e superior).

A medidade de dispersao e a amplitude inter-quartis, IQR = Q3 − Q1, i.e. ea diferenca entre o quartil superior e o inferior.

Exemplo. O numero de criancas em 19 famılias foi

0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10

A mediana e o (19+1) / 2 = 10o valor, i.e. 3 criancas.O quartil inferior e superior sao os valores 5o e 15o, i.e. 2 e 6 criancas, portanto

amplitude inter-quartil e de 4 criancas. Note que 50% dos dados estao entre osquartis inferior e superior.

10

Page 11: notas de aula em arquivo formato pdf

2.3.5 Box-and-Whisker Plots

Box-and-Whisker plots ou simplesmente box-plots sao simples representacoes dia-gramaticas dos cinco numeros sumarios: (mınimo, quartil inferior, mediana, quartilsuperior, maximo). Um box-plot para os dados geoquımicos fica como mostrado aseguir.

10 12 14 16 18

2.3.6 A moda

Nem todos os conjuntos de dados sao suficientemente balanceados para o calculo damedia ou mediana. Algumas vezes, especialmente para dados de contagem, um unicovalor domina a amostra. A medida de locacao apropriada e entao a moda, a qual eo valor que ocorre com maior frequencia. A proporcao da amostra a qual toma estevalor modal deveria ser utilizada no lugar de uma medida formal de dispersao.

Algumas vezes, podemos distinguir claramente ‘picos’ na frequencia dos valoresregistrados. Neste caso (chamado bimodal) deverıamos apresentar ambas as local-izacoes. Dados deste tipo sao particularmente difıceis de resumir (e analisar).

Exemplo. Dez pessoas registraram o numero de copos de cerveja que eles tomaramnum determinado sabado:

0, 0, 0, 0, 0, 1, 2, 3, 3, 6

A moda e 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamosadicionar mais informacao separando a amostra e dizendo que daqueles que tomaramcerveja a mediana foi de 3 copos.

11

Page 12: notas de aula em arquivo formato pdf

2.4 Dados multiplos

Os resultados de um estudo tipicamente envolverao mais do que uma unica amostra dedados como discutido ate aqui. Representacoes graficas sao uteis para comparar gruposde dados ou para verificar se exitem relacoes entre eles. Existem muitas possibilidades,mas a mais adequada dependera das peculiaridades de cada conjunto de dados.

Alem dos exemplos abaixo, podemos criar combinacoes de metodos ja discutidos.Por exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemosproduzir box-plots de altura lado a lado para homens e mulheres, ou graficos ramo-e-folhas lado a lado (com as alturas dos homens a esquerda do ramo, e as alturas dasmulheres a direita), ou um histograma acima do outro (com a mesma escala no eixo xde forma que eles possam ser facilmente comparados). Para um numero diferente degrupos, uma serie de box-plots verticais funciona bem como um sımples resumo dosdados.

Para combinacoes de dados categoricos, uma serie de graficos de setores podem serproduzidos, i.e. dois graficos de setores, um para homens e um para mulheres.

2.4.1 Graficos de pontos

Para avaliar se existe uma relacao entre duas variaveis contınuas, podemos produzirum grafico de pontos. E importante que o eixo x faca sentido. Em geral faz poucosentido unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). Sımbolosdiferentes podem ser usados para diferentes grupos para adicionar uma nova dimensaoao grafico. O grafico abaixo mostra alturas e pesos de estudantes do sexo masculinoe feminino.

MMM

M

M

M

M

M

MM

M

MM

M

M

MM

M

M

M

Height (cm)

Wei

ght (

kg)

140 150 160 170 180 190 200

4050

6070

8090

FF

FF

F

F

F

F

F

F F

FF

F

F

F

F

Para mais do que duas variaveis, pode-se produzir graficos entre todos os parespossıveis para produzir uma matriz de graficos de pontos.

2.4.2 Grafico temporal

Um caso especial de um grafico de pontos e um grafico temporal onde ‘tempo’ estano eixo x. As medidas sao feitas ao longo do tempo. Nestes casos e usual unir pontossucessivos por retas, e e em geral uma boa pratica deixar o eixo x mais longo do queo eixo y.

12

Page 13: notas de aula em arquivo formato pdf

Abaixo mostramos as temperaturas diarias medias em Philadelphia, USA nos doisprimeiros meses de 1980.

• ••

• ••

••

•• • •

••

••

••

• ••

• •• • •

• • •

• •• • • • •

• • •

• •

••

•• •

• ••

••

Day

Ave

rage

tem

pera

ture

0 10 20 30 40 50 60

-10

-50

5

13

Page 14: notas de aula em arquivo formato pdf

2.4.3 Ladder plot

O ladder plot nao e um grafico do tipo padrao mas pode ser util para visualizardados pareados. Considere o seguinte exemplo.

Um ornitologista deseja saber se um determinado local e usado por passaros mi-gratorios de uma certa raca para engorda antes de migrar. Ele captura alguns passarosem Agosto e pesa-os, entao em Setembro ele tenta re-capturar os mesmos passaros efaz novas medidas. Ele re-capturou 10 dos passaros duas vezes, ambos em Agosto eSetembro. A tabela abaixo mostra as massas desses passaros.

Mass in August (g) Mass in September (g)10.3 12.211.4 12.110.9 13.112.0 11.910.0 12.011.9 12.912.2 11.412.3 12.111.7 13.512.0 12.3

O ladder plot destes dados fica como segue:

Mas

s (g

) of

bir

d

1011

1213

August September

• •

••

••

••

E muito mais facil ver do grafico do que da tabela que os passaros tendem a engor-dar, e que aqueles que nao engordaram tenderam a ser os maiores que provavelmentenao necessitam de uma engorda extra.

14

Page 15: notas de aula em arquivo formato pdf

2.5 Exercıcios 1

1. Descreva de forma concisa os seguintes dados usando suas palavras e algumasestatısticas descritivas, apontando caracterısticas principais observadas.

(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantesde estatıstica no primeiro exame do semestre:

30 35 37 40 40 49 51 54 54 5557 58 60 60 62 62 65 67 74 89

(b) O numero de faltas de 20 trabalhadores num ano (ordenados por tamanho):

0 0 0 0 0 0 0 1 1 12 2 3 3 4 5 5 5 8 45

(c) O numero de exemplares de um jornal mensal em particular lidos por 20pessoas num ano:

0 1 11 0 0 0 2 12 0 012 1 0 0 0 0 12 0 11 0

2. Produza um grafico ramos-e-folhas para apresentacao dos dados de altura (emmetros) de 20 mulheres sendo estudadas para uma certa condicao medica.

1.52 1.60 1.57 1.52 1.601.75 1.73 1.63 1.55 1.631.65 1.55 1.65 1.60 1.682.50 1.52 1.65 1.60 1.65

3. Os dados a seguir fornecem a concentracao de um determinado poluente (ppm)em 8 pontos de um afluente medidos antes e uma hora depois de um acidenteambiental:

Before After4.67 5.444.97 6.115.11 6.495.17 6.615.33 6.676.22 6.676.50 6.787.00 7.89

Faca um grafico destes dados, e use o grafico para ajudar a avaliar se o acidenteprovocou um aumento significativo nos nıveis do poluente no afluente.

4. A tabela abaixo fornece o numero de granulos de arenito por cm3 em 20 amostrastomadas de uma certa localidade (A) e 20 amostras tomadas de uma outralocalidade (B).

15

Page 16: notas de aula em arquivo formato pdf

A B171 397 116 375431 795 375 440288 257 151 192

1283 902 752 503554 1621 979 1252295 1004 208 688568 1378 426 771958 435 675 377

2415 1104 410 7001212 396 736 315

(a) Calcule as medias e desvios-padrao desses duas amostras.(b) Faca histogramas dos dois conjuntos de dados, e compare-os.(c) Qual e o mınimo, maximo, mediana, quartil inferior e quartil superior de

cada grupo?(d) Usando sua resposta ao item (c), construa boxplots para os dois conjuntos

de dados - um diretamento acime do outro, ou lado a lado para facilitar acomparacao.

(e) Para cada grupo, o dado e aproximadamente simetrico ou assimetrico? Seassimetrico, em que direcao?

(f) Voce acha que existe uma diferenca real entre os numeros de granulos dearenito nas duas localidades, ou voce acha que as diferencas observadaspoderiam ter simplesmente ocorrido como uma consequencia dos gruposconsistirem de somente 20 amostras cada?

(g) Descreva as principais caracterısticas dos dados em uma ou duas sentencas.

5. O percentual de acucar e sal em 9 cereais matinais mais populares foram medidos,com os seguintes resultados:

Cereal acucar sal1 19 82 36 53 3 104 8 45 26 66 16 67 8 98 10 39 54 3

(a) Faca um grafico desses dados para investigar a relacao entre o conteudo deacucar e sal nos cereais matinais.

(b) Comente brevemente qualquer padrao observado nos dados.

16

Page 17: notas de aula em arquivo formato pdf

3 Populacoes e amostras

3.1 Inferencia estatıstica

Inferencia estatıstica e o processo pelo qual estatısticos tiram conclusoes acerca dapopulacao usando informacao de uma amostra.

Voce pode estar familiar com o termo ‘populacao’ num sentido biologico/geologico.Em estatıstica, o termo nao se refere necessariamente a pessoas, plantas, animais,etc. Ele poderia tambem se referir, por exemplo, a fosseis, rochas e sedimentos numdeterminado local, etc.

A populacao se refere a todos os casos ou situacoes as quais o pesquisador querfazer inferencias ou estimativas. Diferentes pesquisadores podem querer fazer in-ferencias acerca da concentracao de poluentes num determinado lencol freatico; predi-zer a quantidade de petroleo num poco a ser perfurado e assim por diante.

Note que o investigador nao esta interessado em todos os aspectos da populacao.O pesquisador pode nao estar interessado em estudar a concentracao de todos os tiposde poluentes, somente alguns poluentes mais importantes para seu estudo.

Uma amostra e um subconjunto da populacao usado para obter informacao acercado todo.

Mas exatamente por que tomamos uma amostra? Por que nao usamosa populacao toda?

• custo alto para obter informacao da populacao toda

• tempo muito longo para obter informacao da populacao toda

• algumas vezes impossıvel, por exemplo, estudo de poluicao atmosferica

• algumas vezes logicamente impossıvel, por exemplo, em ensaios destrutivos.

17

Page 18: notas de aula em arquivo formato pdf

Caracterısticas de uma populacao que diferem de um indivıduo para outro e asquais temos interesse em estudar sao chamadas variaveis. Exemplos sao compri-mento, massa, idade, temperatura, numero de ocorrencias, etc. Cada unidade (mem-bro) da populacao que e escolhido como parte de uma amostra fornece uma medidade uma ou mais variaveis, chamadas observacoes.

3.2 Princıpios de estimacao

Utilizamos estimativas de uma amostra como nosso “melhor chute” para os verdadeirosvalores populacionais. Exemplos sao a media amostral, o desvio padrao amostral, amediana amostral, os quais estimam a verdadeira media, desvio padrao e mediana dapopulacao (que sao desconhecidos). Os verdadeiros (desconhecidos) valores popula-cionais sao chamados parametros.

Note que estatısticas sao usualmente representadas por letras Romanas, (por ex-emplo, x para a media amostral, s para o desvio padrao amostral), enquanto queparametros sao usualmente representados por letras Gregas (por exemplo, µ para amedia populacional, σ para o desvio padrao populacional).

E claro que a medida que a amostra aumenta, mais informacao nos teremos acercada populacao de interesse, e portanto mais precisa serao as estimativas dos parametrosde interesse.

18

Page 19: notas de aula em arquivo formato pdf

3.3 Obtendo uma amostra

Obtemos uma amostra para fazer inferencias de uma populacao. Nossas inferenciassao validas somente se a amostra e representativa da populacao. Na pratica nao existeforma de garantir isto sem ter informacao da populacao inteira para comparar com aamostra. E em tais circunstancias nao haveria necessidade de amostragem!

Ao inves disso, podemos assegurar que nao existem vıcios sistematicos em nossaamostra atraves de uma selecao aleatoria dos membros da populacao. Uma amostraaleatoria independente e uma amostra selecionada de tal forma que

1. todos os membros da populacao tem a mesma chance de serem selecionados;

2. cada combinacao possıvel de um dado numero de membros tem a mesma chancede ser selecionada.

Em princıpio, a melhor forma de obter uma amostra aleatoria de tamanho n e teruma lista de todos os membros da populacao, dar a todos um numero digamos de 1a N , e entao escolher aleatoriamente n numeros de 1 a N para definir a amostra. Eclaro que na pratica isto nao e exequıvel, especialmente quando a populacao e infinita.

Na maioria dos casos e difıcil obter amostras aleatorias. Considere o seguintediagrama que mostra a ‘populacao’ de circulos. Pense neles como se fossem granulosde tamanhos diferentes. O diametro medio destes circulos e mm.

Suponha que selecionemos uma amostra de 5 destes cırculos jogando um lapis sobreo papel repetidamente ate que tenhamos atingido 5 circulos. Qual e o diametro mediode nossos 5 circulos? O valor esta perto de mm?

19

Page 20: notas de aula em arquivo formato pdf

No exemplo acima, o esquema amostral causou um vıcio. Um vıcio similar seriaobtido por exemplo na amostragem de um particular tipo de animal – pode ser que osanimais que se consegue capturar e medir sao aqueles que nao podem correr tao rapido,ou ao usar uma armadinha, voce pode amostrar somente os animais mais famintos,etc.

Sempre que uma amostra e obtida, o processo de amostragem deve estar bemdocumentado de tal forma que quais inferencias retiradas acerca da populacao podeavaliadas a luz da estrategia amostral.

20

Page 21: notas de aula em arquivo formato pdf

4 Distribuicoes teoricas de frequencias

Como visto na Secao 2, as distribuicoes dos dados podem ter uma variedade deformas, incluindo formas simetricas e nao simetricas. Introduziremos aqui alguns dosmodelos matematicos mais comumente usados para tais dados.4.1 A distribuicao Normal

A distribuicao Normal e a mais familiar das distribuicoes de probabilidade e tambemuma das mais importantes em estatıstica. Esta distribuicao tem uma forma de sino.

x

f(x)

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

A equacao da curva Normal e especificada usando 2 parametros: a media pop-ulacional µ, e o desvio padrao populacional σ, ou equivalentemente a varianciapopulacional σ2. Denotamos N(µ, σ2) a curva Normal com media µ e variancia σ2. Amedia refere-se ao centro da distribuicao e o desvio padrao ao espalhamento de curva.A distribuicao normal e simetrica em torno da media o que implica que e media, amediana e a moda sao todas coincidentes. Para referencia, a equacao da curva e

f(x) =1√

(2πσ2)exp

{− (x− µ)2

2σ2

}. (1)

Felizmente, voce nao tem que memorizar esta equacao. O importante e que voceentenda como a curva e afetada pelos valores numericos de µ e σ. isto e mostrado nodiagrama abaixo.

A area sob a curva normal (na verdade abaixo de qualquer funcao de densidade deprobabilidade) e 1. Entao, para quaisquer dois valores especıficos podemos determinara proporcao de area sob a curva entre esses dois valores. Para a distribuicao Normal,a proporcao de valores caindo dentro de um, dois, ou tres desvios padrao da mediasao:

21

Page 22: notas de aula em arquivo formato pdf

x

f(x)

0 5 10

0.0

0.2

0.4

0.6

0.8

N(0,1) N(3,1)

N(6,.25)

N(6,4)

Range Proportionµ± 1σ 68.3%µ± 2σ 95.5%µ± 3σ 99.7%

Este resultado e usado da seguinte maneira. Suponha que os comprimentos deum particular tipo de peixe podem ser descritos por uma distribuicao normal, commedia 140mm e desvio padrao 15mm. Podemos calcular a proporcao dos peixes quetem comprimentos entre 110 e 170mm, por exemplo, como a proporcao da area sob acurva entre 110 e 170mm.

Entao em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mme 170mm.

Na pratica desejamos calcular probabilidades para diferentes valores de µ e σ. Paraisso, a variavel X cuja distribuicao e N(µ, σ2) e transformada numa forma padronizadaZ com distribuicao N(0, 1) (distribuicao normal padrao) pois tal distribuicao etabelada. A quantidade Z e dada por

Z =X − µ

σ(2)

Exemplo: A concentracao de um poluente em agua liberada por uma fabricatem distribuicao N(8,1.5). Qual a chance, de que num dado dia, a concentracao dopoluente exceda o limite regulatorio de 10 ppm?

A solucao do problema resume-se em determinar a proporcao da distribuicao queesta acima de 10 ppm, ie P (X > 10). Usando a estatıstica z temos:

P (X > 10) = P (Z >10− 8

1.5) = P (Z > 1.33) = 1− P (Z ≤ 1.33) = 0.09 (3)

Portanto, espera-se que a agua liberada pela fabrica exceda os limites regulatorioscerca de 9% do tempo.

Exercıcio: A concentracao de cadmio em cinzas de um certo lixo radioativo temdistribuicao N(1,0.72). Quais sao as chances de que uma amostra aleatoria das cinzastenha uma concentracao de cadmio entre 0.5 e 1.75 ppm?

22

Page 23: notas de aula em arquivo formato pdf

4.2 A distribuicao Binomial

Suponha que n experimentos independentes, ou ensaios, sao executados, onde n eum numero fixo, e que cada experimento resulta num “sucesso” com proabilidade p enuma “falha” com probabilidade 1−p. O numero total de sucessos, X, e uma variavelaleatoria com parametros n e p.

Por exemplo, uma moeda e lancada 10 vezes e o numero total de caras e contado(aqui “cara” e um sucesso).

A probabilidade que X = k, denotada por P (k), pode ser encontrada como:

P (X = k) = P (k) =n!

k!(n− k)!pk(1− p)n−k. (4)

A media de um variavel aleatoria Binomial e np e a variancia e np(1− p).Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo

albinismo (o qual e recessivo), nos encontremos um casamento no qual sabe-se queambos os parceiros sao heterozigotos para o gene albino. De acordo com a teoriaMendeliana, a probabilidade de que um filho desse casal seja albino e um quarto.(Entao a probabilidade de nao ser albino e 3

4 .)Agora considere o mesmo casal com 2 criancas. A chance de que ambas sejam

albinas e ( 14 )2 = 1

16 = 0.0625. A desma forma, a chance de ambas serem normais e( 34 )2 = 9

16 = 0.5625. Portanto, a probabilidade de que somente uma seja um albinadeve ser 1 − 1

16 − 916 = 6

16 = 38 = 0.375. Alternativamente, poderiamos ter usado a

formula acima com n = 2, p = 14 , and k = 1.

Se agora considerarmos a famılia com n = 5 criancas, as probabilidades de existamk = 0, 1, 2, . . . , 5 criancas albinas, onde a probabilidade de albinismo e p = 1

4 , sao dadaspor

P (k) =5!

k!(5− k)!

(14

)k (34

)5−k

(5)

as quais ficam como segue.

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

23

Page 24: notas de aula em arquivo formato pdf

4.3 A distribuicao Poisson

Uma outra distribuicao comum e a distribuicao Poisson, e e frequentemente us-ada para modelar dados de contagem, por exemplo, para descrever o numero denmetoides encontrados em amostras de solo, o numero diario de novos casos de cancerde mama, ou o numero de celulas contadas usando um hemocitrometro. O histogramaabaixo mostra o numero de organismos encontrados em cada um de 400 quadradospequenos.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

020

4060

80

A distribuicao Poisson tem um parametro, λ, e a probabilidade de obter exata-mente x indivıduos e dada por

P (x) =λxe−λ

x!. (6)

Quando λ = 4.68, por exemplo, a distribuicao fica como segue.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

0.0

0.05

0.10

0.15

A variancia de uma Poisson e igual a sua media, The variance of a Poisson distri-bution is equal to its mean, λ.

24

Page 25: notas de aula em arquivo formato pdf

4.4 Exercıcios 2

1. Considere uma distribuicao normal com media 10 e desvio padrao 3.

(a) Desenhe um esboco desta distribuicao.(b) Qual e a proporcao da area sob a curva entre 7 e 13?

2. Usinas nucleares que utilizam agua para refrigeracao de seus condensadores al-gumas vezes liberam agua quente em rios, lagos ou oceanos. Sabe-se que a aguaquente acima de certa temperatura tem um efeito indesejado sobre plantas eanimais que vivem nesses ambientes. Suponha que a alta temperatura liberadapor uma certa usina nuclear tem uma distribuicao Normal com media 5◦C e umdesvio padrao de 0.5◦C.

(a) Faca um esboco da distribuicao.(b) Qual o percentual de dias nos quais o aumento da temperatura e maior do

que 5.5◦C?

3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media de72.9 batidas por minuto (bpm) e um desvio padrao de 11.0 bpm foram obtidos.Um histograma dos dados mostra uma clara forma normal. De uma amplitudede referencia de 95% para pulsos em repouso de pessoas sadias com base nessesdados.

4. Voce leva se cachorro o veterinario e descobre atraves de um exame de ultra-sonografia que ela esta gravida com uma ninhada de 8 filhotes.

(a) Qual e a probabilidade de que exatamente 3 dos filhotes sejam femeas?(b) Qual e a probabilidade de que existam um numero igual de machos e femeas?(c) Qual e a probabilidade de que existam mais machos do femeas?

5. Um investigador esta interessado no numero de ovos depositados por uma especiede passaro. Na primavera, ele procura e acha 80 ninhos. O numero medio de ovospor ninho foi 3.8 e o desvio padrao foi 1.9. Porque a variancia e aproximadamenteigual a media, ele acha que pode ser razoavel descrever o numero de ovos porninho como tendo uma distribuicao Poisson com media 3.8.

(a) Faca o grafico dessa distribuicao como em suas notas de aula.(b) Se esta realmente representa a distribuicao populacional, qual seria a proa-

bilidade de encontrar um ninho com mais do que 5 ovos?(c) Qual seria a probabilidade de nao encontrar nenhum ovo num ninho?

6. Acredita-se que existam numeros iguais de machos e femeas de uma certa especiede peixe num grande lago. Um pescador pesca 43 peixes e encontra que 32 delessao machos. Isto provocaria duvida na afirmacao acima de que exite um balancoentre machos e femeas no lago? Justifique sua resposta utilizando os recursosestatısticos de que dispoe no momento.

25

Page 26: notas de aula em arquivo formato pdf

5 Intervalos de Confianca

5.1 A ideia basica de intervalos de confianca

Suponha que estejamos interessados num parametro populacional verdadeiro(mas desconhecido) θ. Podemos estimar o parametro θ usando informacao de nossaamostra. Chamamos o unico numero que representa o valor mais plausıvel do parametro(baseado nos dados amostrais) de uma estimativa pontual de θ. Contudo, sabemosque o valor estimado na maior parte das vezes nao sera exatamente igual ao valorverdadeiro. Entao, tambem seria interessante encontrar um intervalo de confiancaque forneca um intervalo de valores plausıveis para o parametro baseado nos dadosamostrais.

Um intervalo de confianca de 95% para um parametro populacionalfornece um intervalo no qual estariamos 95% confiantes de cobertura

do verdadeiro valor do parametro.

Tecnicamente, 95% de todos os intervalos de confianca que construirmos conteraoo verdadeiro valor do parametro (dado que todas as suposicoes envolvidas estejamcorretas). Entao se obtivermos um intervalo de confianca para o parametro θ paracada uma dentre 100 amostras aleatorias da populacao, somente 5, em media destesintervalos de confianca nao conterao θ.

Podemos obter intervalos de confianca de 95% para:

medias, diferencas de medias, proporcoes, diferencas em proporcoes, etc.

Podemos tambem criar intervalos de confianca de 90%, 99%, 99.9%, etc, mas osintervalos de confianca de 95% sao os mais utilizados.

26

Page 27: notas de aula em arquivo formato pdf

5.2 Teorema Central do Limite

Uma razao para a distribuicao Normal ser considerada tao importante e porque qual-quer que seja a distribuicao da variavel de interesse para grande amostras, a dis-tribuicao das medias amostrais serao aproximadamente normalmente dis-tribuıdas, e tenderao a uma distribuicao normal a medida que o tamanho de amostracrescer. Entao podemos ter uma variavel original com uma distribuicao muito difer-ente da Normal (pode ate mesmo ser discreta), mas se tomarmos varias amostrasgrandes desta distribuicao, e entao fizermos um histograma das medias amostrais, aforma se parecera como uma curva Normal.

A distribuicao da media amostral X e aproximadamenteNormal com media µ e desvio padrao σ/

√n.

Aqui µ e σ sao a media e o desvio padrao populacionais das medidas individuais X,e n e o tamanho amostral. Denota-se

X ∼ N(µ, σ2/n).

A aproximacao para a normal melhora a medida que o tamanho amostral cresce.Este resultado e conhecido como o Teorema Central do Limite e e notavel porquepermite-nos conduzir alguns procedimentos de inferencia sem qualquer conhecimentoda distribuicao da populacao.

5.3 Exemplo simulado

Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagramana proxima pagina sumariza os resultados de um experimento no qual foi utilizadoum computador para gerar 2000 observacoes de duas distribuicoes bem diferentes(linha superior). Nos entao geramos uma amostra de tamanho 2 de cada distribuicaoe calculamos a media. Este procedimento foi repetido 1999 vezes e a segunda linhamostra os histogramas das medias resuktantes das amostras de tamanho dois. Isto foirepetido com media amostrais onde as amostras sao de tamanhos 5 (terceira linha) e10 (quarta linha).

Note como a forma da distribuicao muda a medida que se muda de uma linhapara a proxima, e como as duas distribuicoes em cada linha tornam-se mais similaresnas suas formas a medida que o tamanho das amostras aumenta. Ainda mais, cadadistribuicao parece mais e mais com uma distribuicao Normal. Nao e necessario umaamostra de tamanho muito grande para ver uma forma Normal.

As media populacionais para as duas distribuicoes sao 5 e 3 respectivamente. Notecomo, quanto maior o tamanho de amostra mais perto as medias amostrais tendem aestar da media populacional.

27

Page 28: notas de aula em arquivo formato pdf

0 2 4 6 8 10

010

020

030

040

0

x

0 2 4 6 8 10

010

020

030

040

0

y

0 2 4 6 8 10

010

020

030

040

0

(x1+x2)/2

0 2 4 6 8 10

010

020

030

040

0

(y1+y2)/2

0 2 4 6 8 10

010

020

030

040

0

(x1+x2+..+x5)/5

0 2 4 6 8 10

010

020

030

040

0

(y1+y2+..+y5)/5

0 2 4 6 8 10

010

020

030

040

0

(x1+x2+..+x10)/10

0 2 4 6 8 10

010

020

030

040

0

(y1+y2+..y10)/10

28

Page 29: notas de aula em arquivo formato pdf

5.4 Intervalos de confianca de 95% para uma media

Na secao anterior vimos que para uma amostra suficientemente grande a distribuicaodas medias amostrais em torno da media populacional e Normal com desvio padraoσ/√

n. Chamamos de σ/√

n o erro padrao (SE) da media, uma vez que quanto menorseu valos. tanto mais proximas estarao as medias amostrais da media populacional µ(i.e. tanto menor sera o erro).

media populacional = µ

desvio padrao populacional = σ

S.E. da media = σ/√

n

Isto significa que 68.3% de todas as medias amostrais cairao dentro de ±1 SE damedia populacional µ. Similarmente 95% de todas as medias amostrais cairao dentrode ±1.96× SE de µ.

entao intervalos da forma

(x− 1.96× σ√n

, x + 1.96× σ√n

)

conterao a verdadeira media populacional µ 95% das vezes.

Um problema com a construcao de tais intervalos e que nao sabemos o verdadeirodesvio padrao populacional σ. Para grandes tamanhos amostrais, contudo, o desviopadrao amostral s sera uma boa estimativa de σ. Portanto, podemos substituir σ pors de modo que podemos calcular o erro padrao como

SE = s/√

n,

e um intervalo de confianca de aproximadamente 95% para µ e:

(x− 1.96× s√n

, x + 1.96× s√n

).

Este tipo de intervalo de confianca para a media pode ser usado para grandes amostras,independentemente da distribuicao da variavel original.

29

Page 30: notas de aula em arquivo formato pdf

5.5 intervalos de confianca mais exatos

Para amostras pequenas, onde s e uma estimativa menos confiavel de σ, devemosconstruir nosso intervalo de confianca de uma forma ligeiramente diferente.

Ao inves de usar o valor 1.96, usamos um valor ligeiramente maior para refletirnossa reducao na confianca. Obtemos o valor requerido da tabela de distribuicao t.Tomamos o valor correspondente a linha r = n − 1 graus de liberdade. Note quequanto menor n, maiores os valores de t. Entao um intervalo de confianca exato e

(x− t(n−1,0.05) ×s√n

, x + t(n−1,0.05) ×s√n

).

Note ainda que a medida que n cresce, o valor de t torna-se proximo a 1.96.Repare que se a distribuicao da variavel original e muito distante de ser normal-

mente distribuıda, e o tamanho amostral e muito pequeno, entao as medias amostraisnao terao uma distribuicao aproximadamente normal e portanto este tipo de intervalode confianca nao sera muito preciso e nao deveria ser utilizado.

30

Page 31: notas de aula em arquivo formato pdf

A distribuicao tValores de t para que P (| T |> t) = p, onde T tem um distribuicao T de Student

com r graus de liberdade.

p0.20 0.10 0.05 0.01 0.001

1 3.078 6.314 12.706 63.657 636.6192 1.886 2.920 4.303 9.925 31.5993 1.638 2.353 3.182 5.841 12.9244 1.533 2.132 2.776 4.604 8.6105 1.476 2.015 2.571 4.032 6.8696 1.440 1.943 2.447 3.707 5.9597 1.415 1.895 2.365 3.499 5.4088 1.397 1.860 2.306 3.355 5.0419 1.383 1.833 2.262 3.250 4.781

10 1.372 1.812 2.228 3.169 4.58711 1.363 1.796 2.201 3.106 4.43712 1.356 1.782 2.179 3.055 4.31813 1.350 1.771 2.160 3.012 4.22114 1.345 1.761 2.145 2.977 4.14015 1.341 1.753 2.131 2.947 4.07316 1.337 1.746 2.120 2.921 4.015

r 17 1.333 1.740 2.110 2.898 3.96518 1.330 1.734 2.101 2.878 3.92219 1.328 1.729 2.093 2.861 3.88320 1.325 1.725 2.086 2.845 3.85021 1.323 1.721 2.080 2.831 3.81922 1.321 1.717 2.074 2.819 3.79223 1.319 1.714 2.069 2.807 3.76824 1.318 1.711 2.064 2.797 3.74525 1.316 1.708 2.060 2.787 3.72526 1.315 1.706 2.056 2.779 3.70727 1.314 1.703 2.052 2.771 3.69028 1.313 1.701 2.048 2.763 3.67429 1.311 1.699 2.045 2.756 3.65930 1.310 1.697 2.042 2.750 3.64640 1.303 1.684 2.021 2.704 3.55150 1.299 1.676 2.009 2.678 3.49660 1.296 1.671 2.000 2.660 3.46070 1.294 1.667 1.994 2.648 3.43580 1.292 1.664 1.990 2.639 3.41690 1.291 1.662 1.987 2.632 3.402

100 1.290 1.660 1.984 2.626 3.390∞ 1.282 1.645 1.960 2.576 3.291

31

Page 32: notas de aula em arquivo formato pdf

5.6 Exemplos

5.6.1 Diametro de arvores castanheiras

A seguir encontra-se uma amostra de 10 arvores castanheiras todas com 8 anos deidade numa certa floresta. O diametro (polegadas) das arvores foram medidos a umaaltura de 3 pes:

19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1

Queremos encontrar um intervalo de confianca de 95% para o verdadeiro diametromedio de todas as arvores castanheiras dessa idade na floresta. Usando uma calcu-ladora, encontramos que x = e que s = . O erro padrao e portanto:

SE =s√n

= .

Temos uma amostra de tamanho n = 10, entao da tabela da distribuicao t temos quet = .

Entao o intervalo de confianca de 95% para a media populacional e

x± t× SE

Portanto estamos 95% confiantes de que o diametro medio da populacao da quala amostra foi retirada esta entre e .

Quais suposicoes foram feitas? Podemos checar essas suposicoes?

5.6.2 Comprimento de plantas

Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foramplantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximada-mente normal, e a media amostral e o desvio padrao amostral foram 74mm and2.34mm, respectivamente. Construa um intervalo de confianca para o comprimentomedio populacional de plantes dessa mesma especie.

32

Page 33: notas de aula em arquivo formato pdf

5.7 Exercıcios 3

1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media de72.9 batidas por minuto (bpm) e um desvio padrao de 11.0 bpm foram obtidos.Construa um intervalo de confianca de 95% para a pulsacao media em repousode pessoas sadias com base nesses dados.

2. Tendo sido medido o eixo maior de 9 graos de quartzo de um corpo arenoso emuma lamina de arenito, obteve-se um comprimento amostral medio de 1,5mm eum desvio padrao de 0,3mm. Deseja-se construir um intervalo de confianca parao comprimento medio dos graos de quartzo do corpo arenoso.

3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos.O QI medio foi 108.08, e o desvio padrao foi 14.38.

• Calcule um intervalo de confianca de 95% para o QI medio populacional dosmeninos entre 6-7 anos de idade em Curitiba usando estes dados.

• Interprete o intervalo de confianca com palavras.• Foi necessario assumir que os QIs tem distribuicao normal neste caso? Por

que?

4. A seguinte tabela mostra os QIs de criancas por classe social dos pais.

Classe social Media DP Numero Limite inferior Limite superior

I Profissional 112.27 13.16 30 107.36 117.18II Gerencial 112.65 11.01 78IIIa Nao-Manual

(clerico) 108.86 13.94 28IIIb Manual

(com pratica) 104.38 14.41 152IV Manual

(com pouca pratica) 96.97 10.13 37V Manual

(sem pratica) 98.85 14.02 20

• Complete as duas ultimas colunas, as quais contem intervalos de confiancade 95% para o QI medio. Ilustre os IC graficamente.

• Comente os padroes gerais que voce ve.

33

Page 34: notas de aula em arquivo formato pdf

5.8 Intervalos de confianca para uma proporcao

Pesquisadores frequentemente expressam a frequencia de ocorrencia de um item numaamostra como uma proporcao do total. Por exemplo, uma amostra de larvas demosquito coletadas de um lago com agua limpa parada contem 80 larvas das quais 60sao Aedes detritus. A proporcao daquela especie na amostra e 60/80 = 0.75 ou 75%.Considerando esta amostra uma amostra aleatoria, esta proporcao e uma estimativa daproporcao total populacional. Outras amostras forneceriam estimativas ligeiramentediferentes daquela proporcao.

Seja n o tamanho da amostra e seja x o numero observado do evento de interesse.Entao estimamos a proporcao populacional p com a proporcao observada p = x/n.

Da mesma forma que um conjunto de medias amostrais sao distribuıdas nas prox-imidades da media populacional, as proporcoes amostrais p sao distribuıdas ao redorda verdadeira proporcao populacional p. Devido ao Teorema Central do Limite, paran grande e p nao muito proximo de 0 ou 1, a distribuicao de p sera aproximadamentenormalmente distribuıda com media p e um desvio padrao dado por

√p(1− p)

n.

Chamamos SE=√

p(1−p)n de erro padrao da proporcao amostral. Podemos usar isto

na construcao de um intervalo de confianca para a verdadeira proporcao p.Um intervalo de confianca de aproximadamente 95% para p e portanto

(p− 1.96× SE , p + 1.96× SE)

onde

SE =

√p(1− p)

n.

Note que nao sabemos o verdadeiro valor de p, e portanto usamos p na formula acimapara estimar SE.

Uma regra geral e que este intervalo de confianca e valido quando quando temosambos np e n(1− p) maiores do que digamos 10.

Em alguns livros o divisor n − 1 e utlizado. Nao se preocupe quanto a isso; ointervalo resultante nao sera notavelmente diferente.

5.8.1 Exemplo

Calcule um intervalo de confianca de 95% para a proporcao de larvas de mosquito nolago da especie Aedes detritus. Interprete os resultados.

34

Page 35: notas de aula em arquivo formato pdf

5.9 Comparacao de intervalos de confianca

Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e femeas.Algumas vezes pode-se construir um intervalo de confianca de 95% para a media paracada um dos grupos, e entao controi-se um grafico com esses intervalos contra um eixocomum para verificar se existe uma intersecao (i.e. existem alguns valores em comum).Se os intervalos nao se sobrepoem, entao temos (pelo menos) 95% de confianca deque as verdadeiras medias nao sao iguais. Embora estes graficos sejam uteis paravisualizacao, utilizaremos um aboradgem mais formal (veja Secao 7) para construirum intervalo de confianca para a diferenca entre duas medias ou a diferenca entre duasproporcoes.

5.9.1 Exemplo

Considere os dados de um estudo investigando a existencia de um balanco entre aproporcao de peixes machos e femeas de uma certa especie em dois lagos distintos.A proporcao observada de machos capturados no primeiro lago foi 74.4% dentre 43capturados e no segundo foi 60% dentre 50. Podemos agora construir intervalos deconfianca para as percentagens correspondente nas populacoes dos dois lagos.

5.10 Exercıcios 4

1. Um amigo sugere que voce lance uma moeda para ajudar voce a tomar umadecisao muito importante, o resultado tambem o afetara. Seu amigo sugere quevoce escolha cara para tomar a decisao A, e coroa para tomar a decisao B aqual e a preferida por ele. O unico problema e que seu amigo insiste que voceuse uma moeda “da sorte” dele. Voce fica um pouco suspeito e decide fazer umexperimento enquanto seu amigo nao esta olhando. Voce lanca a moeda 40 vezese cara aparece somente 13 vezes. Construa um intervalo de 95% de confiancapara a verdadeira proporcao de caras p para ajuda-lo a decidir se voce acreditaou nao que a moeda e balanceada. O que voce conclui?

2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariamno candidato X. Com uma confianca de 90%, o que voce pode dizer acerca daproporcao real de votos aquele candidato tera?

3. Dentre 100 peixes capturados num certo lago, 18 nao estavam apropriados paraconsumo devido aos nıveis de poluicao do ambiente. Construa um intervalo deconfianca de 99% para a correspondente verdadeira proporcao.

35

Page 36: notas de aula em arquivo formato pdf

6 Testes de Hipoteses

6.1 Introducao e notacao

Em geral, intervalos de confianca sao a forma mais informativa de apresentar os acha-dos pricipais de um estudo. Contudo, algumas vezes existe um particular interesseem decidir sobre a verdade ou nao de uma hipotese especıfica (se dois grupos tem amesma media ou nao, ou se o parametro populacional tem um valor em particular ounao). Teste de hipoteses fornece-nos a estrutura para que facamos isto. Veremosque intervalos de confianca e testes de hipoteses estao intimamente relacionados.

6.1.1 Os passaros migratorios engordam antes de migrar?

Considere os dados coletados pelo ornitologista na pagina 15. Achamos apropriadoapresentar os dados na forma de um ladder plot. Agora e natural perguntar se emmedia estes passaros engordam entre Agosto e Setembro. Somente 10 passaros foramcapturados e seu peso medio nas duas ocasioes foram 11.47 e 12.35 entao o peso medioaumentou para esta amostra em particular. (Note que o mesmo conjunto de passarosforam medidos ambas as vezes.) Podemos generalizar para o resto dos passaros quenao foram capturados? Sera que esta diferenca poderia ser devida simplesmente aoacaso?

Queremos testar a hipotese nula (H0) de que, em media, nao existe mudancano peso dos passaros. Assumiremos que os 10 passaros foram uma amostra aleatoriade todos os passaros migradores daquela especie e usaremos primeiramente o queaprendemos sobre intervalos de confianca para responder nossas perguntas.

Primeiro vamos calcular as mudancas de peso (Setembro-Agosto):

1.9 0.7 2.2 − 0.1 2.0 1.0 − 0.8 − 0.2 1.8 0.3

Seja µ a mudanca media de peso na populacao. Entao nossa hipotese nula H0 e ahipotese alternativa H1 podem ser escritas como segue:

H0 : µ = 0, H1 : µ 6= 0.

Um procedimento util e calcular um intervalo de confianca para a media populacionalµ como descrito na Secao 5.5, e ver ser o intervalo inclui 0 como um valor plausıvel.

Agora n = 10, x = 0.88 e s = 1.065 para as diferencas, entao

SE = s/√

n = 1.065/√

10 = 0.337,

e um valor-t de 2.262 e obtido da coluna P = 0.05 e linha r = n−1 = 9. Um intervalode confianca de 95% para µ e portanto

(0.88− 2.262× 0.337, 0.88 + 2.262× 0.337) = (0.12, 1.64).

O intervalo nao contem o valor 0, fornecendo evidencias contra a hipotese nula.

36

Page 37: notas de aula em arquivo formato pdf

Podemos dizer: “existem evidencias significativas (P < 0.05) de que, em media,os passaros da especie estudada mudam de peso de Agosto para Setembro. Estamos95% confiantes de que em media os pesos aumentam por um montante entre 0.12 e1.64 gramas.”

Mas e o intervalo de 99%? Sera que ele conteria o valor 0? Este intervalo seriamais amplo e entao e mais provavel que ele contenha 0. Se ele nao incluir 0, istoindicaria uma evidencia ainda mais forte contra H0.

Calculando o intervalo de confianca exatamente da mesma forma, exceto que destavez precisamos olhar na coluna P = 0.01 para obter t = 3.250:

(0.88− 3.250× 0.337, 0.88 + 3.250× 0.337) = (−0.21, 1.97).

Como esperado, este e mais amplo, e agora inclui o valor 0.Podemos agora dizer: “nao existem evidencias significativas ao nıvel de 1% de que,

em media, os passaros da especie estudada mudam de peso de Agosto para Setembro.”O que nos acabamos de fazer foi conduzir um teste perfeitamente valido para a

hipotese nula usando intervalos de confianca. Podemos fazer o teste mais rapidamentee obter exatamente as mesmas conclusoes pelo seguinte procedimento:

• Calcule t = (x − 0)/SE = 0.88/0.337 = 2.61, o numero de erros padrao que xdista de 0.

• Compare este valor de t com aqueles na linha r = n− 1 = 9 da tabela.

• Para este exemplo, t = 2.61 o qual esta entre os valores nas colunas P = 0.01 eP = 0.05. Entao nosso valor deve corresponder a um P entre estes e portantodevemos ter 0.01 < P < 0.05. (P e a probabilidade de observar um valor de ttao grande ou mais extremo do que 2.61 se µ = 0.)

37

Page 38: notas de aula em arquivo formato pdf

6.2 Procedimento geral de teste

1. Estabeleca a hipotese nula, H0 e a hipotese alternativa H1.

2. Decida qual oteste a ser usado, checando se este e valido para o seu problema.

3. Calcule a estatıstica de teste, T.

4. Encontre a probabilidade (p-valor) de observar um valor tao extremo ou maiordo que T se a hipotese nula e de fato verdadeira. Voce precisara se referir aos val-ores crıticos nas tabelas estatısticas as quais fornecem p-valores correspondendoaos valores das estatıstica de teste.

5. Avalie a forca da evidencia contra H0.(Quanto menor p-valor, tanto mais evidenciacontra a hipotese nula.) Se necesario, decida se esta e evidencia suficiente pararejeitar (ou nao rejeitar) a hipotese nula.

6. Estabeleca as conclusoes e interpretacao dos resultados.

O p-valor e a probabilidade de observar dados tao extremos quanto os obtidos sea hipotese nula e verdadeira. Note as seguintes interpretacoes de p-valores:

P ≥ 0.10 Nao existe evidencia contra H0

P < 0.10 Fraca evidencia contra H0

P < 0.05 Evidencia significativa . . .P < 0.01 Evidencia altamente significativa . . .P < 0.001 Evidencia muito altamente significativa . . .

Esteja ciente da diferenca entre significancia estatıstica e significancia pratica. Umefeito pode ser estatisticamente significante mas nao ter qualquer importancia praticae vice-versa. Por exemplo, um estudo muito grande pode estimar a diferenca entrea media de peso de plantas como sendo 0.0001 gramas e concluir que a diferencae estatısticamente significativa (p < 0.05). Contudo, na pratica, esta diferenca enegligıvel e provavelmente de pouca importancia pratica.

38

Page 39: notas de aula em arquivo formato pdf

6.3 Teste para uma media

Na Secao 5.1.1 conduzimos, atraves de um exemplo, o chamado teste-t para uma unicamedia. Os passos principais de tal test-t para uma amostra aleatoria x1, x2, . . . , xn deuma populacao com media µ sao dados a seguir:

1. Estabeleca a hipotese nula, H0 : µ = µ0, e a hipotese alternativa H1 : µ 6= µ0.

2. Calcule a media amostral µ = x e o desvio padrao amostral s.

3. Calcule o erro padrao, SE= s/√

n.

4. Calcule a estatıstica de teste t = (µ− µ0)/SE. Este e o numero de erros padraoque µ dista do valor de hipotese µ0.

5. Encontre o p-valor da distribuicao t, com r = n−1 graus de liberdade, da tabelausando os valores absolutos da estatıstica de teste.

6. Estabeleca conclusoes e interprete os resultados.

6.4 Teste para uma proporcao

Agora suponha que tenhamos um valor hipotetico p0 para uma proporcao. Podemosrealisar um teste de H0 : p = p0 praticamente da mesma forma que o test-t acima. Adualidade com intervalos de confianca segue exatamente da mesma forma.

Suponha que tenhamos uma amostra aleatoria de tamanho n de uma populacaode interesse onde a verdadeira proporcao de membros numa categoria em particular ep. A hipotese nula e H0 : p = p0. Se o numero observado na categoria de interesse ex, entao um teste da hipotese e como segue:

1. Estabeleca a hipotese nula, H0 : p = p0, e a hipotese alternativa H1 : p 6= p0.

2. Calcule a proporcao amostral p = x/n.

3. Calcule o erro padrao, SE=√

p(1− p)/n.

4. Calcule t = (p − p0)/SE, o numero de erros padrao que p dista do valor dehipotese p0.

5. Encontre o p-valor usando o valor absoluto da estatıstica de teste da tabela dadistribuicao normal (ou equivalentemente da t com r = ∞ graus de liberdade).

Uma regra geral e que este teste e valido quando quando temos ambos np e n(1− p)maiores do que digamos 10.

6.4.1 Exemplo

Referindo-se ao exemplo da Secao 5.8, suponha que alguem tenha sugerido de ex-periencias passadas que 60% das larvas de mosquito no lago deveriam ser da especieAedes detritus. Foram encontrados 60 desse tipo de uma amostra de 80. Os dadossuportam esta hipoteste?

39

Page 40: notas de aula em arquivo formato pdf

6.5 Decisoes e poder

Ao tomar uma decisao a favor ou contra uma hipotese existem dois tipos de errosque voce pode cometer. Voce pode rejeitar a hipotese nula quando de fato ela everdadeira (erro tipo I) ou voce pode falhar em rejeitar H0 quando de fato ela efalsa (erro tipo II). Existe um balanco entre esses dois tipos de erros, no sentido deque ao tentar-se minizar a possibilidade de um tipo, aumenta-se a probabilidade dooutro. Frequentemente denotamos as probabilidades destes dois erros como α e βrespectivamente.

DecisaoVerdade Aceitar H0 Rejeitar H0

H0 verdadeiro — Erro Tipo I(1− α) (α)

H0 falso Erro Tipo II —β (1− β)

O poder de um teste e a probabilidade de rejeitar a hipotese nula quando esta e defato falsa. Isto e igual a 1− β. Em geral, quanto maior o tamanho da amostra, maioro poder do teste. E desejavel decidir sobre um tamanho de amostra conveniente antesde conduzir um estudo de forma que o resultados do teste de hipotese tera podersuficiente para responder a questao cientıfica de interesse.

6.6 Dimensionamento de amostras

Vimos no Capıtulo 5 e nas secoes anteriores deste capıtulo como construir intervalose testes de hipoteses para os principais parametros populacionais. Em todos os, su-pusemos dado o nıvel de confianca desses intervalos e testes. Evidentemente, o nıvelde confianca deve ser fixado de acordo com a probabilidade de acerto que se desejater na estimacao por intervalo e testes. Sendo conveniente, o nıvel de confianca podeser aumentado ate tao proximo de 100% quanto se queira, mas isso resultara em in-tervalos de amplitude cada vez maiores (e testes com poderes cada vez menores), oque significa perda de precisao na estimacao. E claro que seria desejavel termos inter-valos com alto nıvel de confianca e pequena probabilidade de erro e grande precisao.Isso porem requer uma amostra suficientemente grande, pois, para n fixo, confianca eprecisao variam em sentidos opostos.

Veremos a seguir como determinar o tamanho das amostras necessarias nos casosde estimacao da media ou de uma proporcao populacional. Vimos na Secao 5.4 queo intervalo de confianca de 95% para a media µ da populacao quando σ e conhecidotem semi-amplitude d dada pela expressao

d = zσ√n

,

onde z = 1.96 para uma confianca de 95%. Ora, o problema entao resolvido foi,fixados o nıvel de confianca (1 − α = 0.95) e n, determinar d. Mas, e evidente dessaexpressao que podemos resolver outro problema. Fixados, d e o nıvel de confianca,determinar n, que e o problema da determinacao do tamanho de amostra necessariopara se realizar a estimacao por intervalo com a confianca e a precisao desejadas.Vemos imediatamente que

n =(zσ

d

)2

.

Essa sera a expressao usada se σ for conhecido.Nao conhecendo o desvio-padrao da populacao, deverıamos subtituı-lo por sua

estimativa s e usar t de Student na expressao acima. Ocorre porem que nao tendoainda sido retirada a amostra, nao dispomos em geral do valor de s. Se nao conhecemos

40

Page 41: notas de aula em arquivo formato pdf

nem ao menos um limite superior para σ, a unica solucao sera colher uma amostra-piloto de n0 elementos para, com base nela obtermos uma estimativa de s, empregandoa seguir a expressao

n =(

t(n0−1,0.05)s

d

)2

.

Se n ≤ n0, a amostra-piloto ja tera sido suficiente para a estimacao. Caso contrario,deveremos retirar, ainda, da populacao os elementos necessarios a complementacao dotamanho mınimo de amostra.

Procedemos de forma analoga se desejamos estimar uma proporcao populacionalcom determinada confianca e dada precisao. No caso de populacao suposta infinita,da expressao

d = z

√p(1− p)

n,

podemos obter

n =(z

d

)2

p(1− p).

O obstaculo a determinacao do tamanho de amostra por meio da expressao acima estaem desconhecermos p. Essa dificuldade pode ser resolvida atraves de uma amostra-piloto, analogamente ao caso descrito para a estimacao de µ, ou analisando-se o com-portamento do fator p(1− p) para 0 ≤ p ≤ 1. Ve-se da figura a seguir que p(1− p) ea expressao de uma parabola cujo ponto de maximo e p = 1/2.

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.05

0.10

0.15

0.20

0.25

p

p(1−

p)

Se substituirmos, p(1− p) por seu valor maximo, 1/4, seguramente o tamanho deamostra obtido sera suficiente para a estimacao de qualquer que seja p. Isso equivalea considerar

n =(z

d

)2 14

=( z

2d

)2

.

Evidentemente, usando-se essa expressao corre-se o risco de se superdimensionar aamostra. Isso ocorrera se p for na realidade proximo de 0 ou 1. Se o custo envolvidofor elevado e proporcional ao tamanho de amostra, e mais prudente a tomada de umaamostra-piloto.

6.6.1 Exemplos

1. Qual o tamanho de amostra necessario para se estimar a media de uma populacaoinfinita cujo desvio-padrao e igual a 4, com 98% de confianca e precisao de 0,5?

41

Page 42: notas de aula em arquivo formato pdf

2. Qual o tamanho de amostra suficiente para estimarmos a proporcao da area comsolo contaminado que precisa de tratamento, com precisao de 0,02 e 95% deconfianca, sabendo que essa proporcao seguramente nao e superior a 0,2?

42

Page 43: notas de aula em arquivo formato pdf

6.7 Exercıcios 5

1. Exercıcios 3, item 2. Teste a hipotese nula de que essa amostra provem de umcorpo arenoso cuja media e µ = 0, 5mm.

2. A fim de testar a ocorrencia de estratificacao gradacional num certo arenito,amostras foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-t verificar se as diferencas entre o tamanho medio das partıculas dabase e do topo sao significativas ou nao.

Estratos base topo d=t-b1 2,81 3,13 0,322 3,95 4,13 0,183 3,75 3,88 0,134 2,68 2,91 0,235 3,25 3,65 0,366 3,90 4,20 0,307 3,30 3,12 -0,18

3. Foram feitas vinte medidas do tempo total gasto para a precipitacao de um sal,em segundos, num dado experimento, obtendo-se:

13 15 12 14 17 15 16 15 14 1617 14 16 15 15 13 14 15 16 15

Esses dados sao suficientes, pergunta-se, para estimar o tempo medio gasto naprecipitacao com precisao de meio segundo e 95% de confianca? Caso negativo,qual o tamanho da amostra adicional necessaria?

4. Deseja-se estimar a resitencia media de certo tipo de peca com precisao de 2kg e95% de confianca. Desconhecendo-se a variabilidade dessa resistencia, roperam-se cinco pecas, obtendo-se para elas os seguintes valores de sua resitencia (emkg): 50,58,52,49,55. Com base no resultado obtido, determinou-se que deveriamser rompidas mais quinze pecas, a fim de se conseguir o resultado desejado. Qualsua opiniao a respeito dessa conclusao?

5. Exercıcios 4, item 1. Realize um teste estatıstico para ajuda-lo na decisao sevoce deve ou nao acreditar que a moeda e balanceada. Qual a sua conclusao?

6. Suponha que estejamos interessados em estimar a proporcao de todos os mo-toristas que excedem o limite maximo de velocidade num trecho da rodovia entreCuritiba-Sao Paulo. Quao grande deve ser a amostra para que estejamos pelomenos 99% confiantes de que o erro de nossa estimativa, a proporcao amostral,seja no maximo 0,04?

7. Refaca o exercıcio anterior, sabendo que temos boas razoes para acreditar que aproporcao que estamos tentando estimar e no mınimo 0,65.

43

Page 44: notas de aula em arquivo formato pdf

7 Comparando dois grupos

7.1 Diferenca entre medias de dois grupos

Na Secao 5.4, vimos como construir um intervalo de confianca para a media popula-cional µ, de uma amostra aleatoria de tamanho n. Lembre-se que este intervalo deconfianca era da forma x ± t × SE or (x − t × SE, x + t × SE). Agora consideremosa comparacao das medias de das populacoes (por exemplo, machos e femeas) atravesda estimacao das diferencas de medias e calculando um intervalo de confianca paraesta diferenca das medias.

Quando temos amostras independentes de cada uma de duas populacoes, pode-mos sumariza-las pelas suas medias, desvios padrao e tamanhos amostrais. Denoteestas medidas por x1, s1, n1 para a amostra um e x2, s2, n2 para a amostra dois.Denote as correspondentes medias populacionais e desvios padrao µ1, µ2, σ1 e σ2

respectivamente.Para os dados de alturas dos estudantes da pagina 13, vamos comparar a altura

media dos estudantes do sexo masculino com as dos sexo feminino. Seja os grupodos homens a amostra um, e o grupo das mulheres a amostra dois. As alturas forammedidas em centımetros e as medidas sumarias foram como segue:

x1 = 178.85, s1 = 7.734, n1 = 20,x2 = 164.09, s2 = 9.750, n2 = 17.

Agora claramente uma estimativa natural da diferenca entre medias na populacao,µ1 − µ2, e dada pela diferenca nas medias amostrais:

x1 − x2,

e para nossos dados esta e 178.85−164.09 = 14.76. Agora o que precisamos e um erropadrao para esta estimativa para que possamos construir um intervalo de confiancaou realizar um teste da hipotese nula H0: µ1 − µ2 = 0 versus H1: µ1 − µ2 6= 0.

7.1.1 Erro padrao - assumindo desvios padrao iguais

Primeiramente, assumimos que os desvios padrao populacionais sao os mesmos emcada grupo, i.e. σ1 = σ2 = σ. Podemos combinar os dois desvios padroes amostraispara formar uma estimativa combinada do desvio padrao. Atribuımos mais peso asamostras maiores. Este desvio padrao combinado sp e a raiz quadrada da varianciacombinada s2

p dada por

s2p =

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2.

Para nossos dados temos:

s2p = (19× 7.7342 + 16× 9.7502)/35 = 75.92801

entao sp =√

75.92801 = 8.71. Note que esta entre s1 e s2. Se voce obtiver um valorque nao esta entre estes valores entao seus calculos estao errados.

Agora podemos calcular o erro padrao das diferencas nas medias como

SE = sp

√1n1

+1n2

.

a qual para nossos dados e 8.71×√

(1/20 + 1/17) = 2.87kg.

44

Page 45: notas de aula em arquivo formato pdf

7.1.2 I.C. para a diferenca entre medias assumindo desvios padraoiguais

Um intervalo de confianca para µ1 − µ2 e dado por

((x1 − x2)− t× SE, (x1 − x2) + t× SE) ,

onde t e escolhido apropriadamente. Quando os tamanhos amostrais sao grandes umintervalo de confianca aproximado de 95% e obtido usando t = 1.96.

Se os tamanhos amostrais nao forem tao grandes entao un intervalo exato de 95% deconfianca deveria de ser calculado selecionando o valor de t da tabela da disitrbuicAot, com n1 + n2 − 2 graus de liberdade e coluna p = 0.05. Para um intervalo de 99%de confianca deverıamos selecionar o valor na coluna p = 0.01.

Exemplo: Para os dados de altura, temos n1 + n2 − 2 = 20 + 17 − 2 = 35,resultando t = 2.03 para um intervalo de confianca de 95% (atraves de interpolacaoentre a linha 30 e 40). Um intervalo de confianca de 95% para a diferenca nas mediase dado por:

(14.76− 2.03× 2.87, 14.76 + 2.03× 2.87) = (8.93, 20.59).

Estamos 95% confiantes que, em media, estudantes do sexo masculino sao entre 9cme 21cm mais do que as estudantes do sexo feminino.

7.1.3 Teste para a diferenca das medias

Um teste para a diferenca entre medias corresponde a um teste de H0: µ1 − µ2 = 0.Seguindo o mesmo tipo de procedimento visto na Secao 6.

Nosso teste estatıstico e:

t =(x1 − x2)− 0

SE,

que e a estimativa de µ1−µ2 menos o valor hipotetico (zero neste caso) e tudo divididopelo erro padrao.

Sob a hipotese nula, este segue uma distribuicao t com n1 + n2 − 2 g.l. O valorobtido para t (ignorando seu sinal) e comparado com os valores tabelados com os grausde liberdade aproriados, para obter um p-valor.

Para os nossos dados, temos t = (14.76 − 0)/2.87 = 5.14, e comparando este alinha 30 e 40 da tabela, vemos que devemos ter p < 0.001.

Assumindo que nossas amostras foram amostras aleatorias de todos os estudantes,temos evidencias bem fortes de a altura media dos estudantes do sexo masculino ediferente daquela das estudantes do sexo feminino.

7.1.4 I.C. para diferenca de medias - desvios padrao diferentes

Uma regra pratica e que os desvios padrao populacionais σ1 e σ2 podem em geralser assumidas iguais se a razao do maior desvio padrao amostral para o menor formenor do que 2 ou 3. Alem disso a suposicao de variancias iguais pode ser grosseira-mente avaliada atraves de historgramas dos dados. Testes formais estao disponıveisse necessario.

Se os desvios padrao populacionais nao puderem ser assumidos iguais, usamos umaoutra formula para o erro padrao de x1 − x2, dado por

SE =

√s21

n1+

s22

n2.

Note que esta abordagem e usada somente para grandes amostras.

45

Page 46: notas de aula em arquivo formato pdf

A estaıstica de teste usando este SE nao segue uma distribuicao t sob a hipotesenula. Contudo, para tamanhos amostrais razoavelmente grandes (digamos ambosmaiores do que 30), podemos comparar a estatıstica de teste acima com uma distri-bution Normal padrao (ultima linha da tabela t).

Em nosso exemplo, calculamos um erro padrao de 2.87 kg sob a suposicao deigauldade de desvios padrao populacionais para ambos os grupos. A formula alterna-tiva (a qual nao assume desvios padrao populacionais iguais) resulta em

SE =

√(7.734)2

20+

(9.750)2

17= 2.93 kg

que praticamente nao defire do valor previo. Entao o intervalo de confianca e o resul-tado de teste de hipotese seriam virtualmente os mesmos usando este erro padrao.

46

Page 47: notas de aula em arquivo formato pdf

7.2 Amostras pareadas

Num estudo pareado, temos duas amostras mas cada observacao da primeira amostrae pareada com uma observacao da segunda amostra. Tal delineamento ocorre, porexemplo, num estudo de medidas feitas antes e depois no mesmo indivıduo ou numestudo de gemeos (onde cada conjunto de gemeos forma um dado pareado). Comoesperado, as duas observacoes do mesmo indivıduo (ou de um conjunto de gemeos)sao mais provaveis de serem similares, e portanto nao sao considerados estatıticamenteindependentes.

Com dados pareados, podemos usar a seguinte notacao:

x1i = measurement 1 on pair i,

x2i = measurement 2 on pair i

a entao escrevemos as diferencas nas medidas de cada par como

di = x2i − x1i.

Agora temos uma amostra de diferencas di, e podemos usar os metodos queja estamos familiares. Podemos calcular um intervalo de confainca para a diferencamedia e testar se a diferenca media e igaul a um particular valor (usualmente zero)ou nao. Nos referimos a tal teste como um paired t-test ao contrario do test-t paraduas amostras acima.

Note que neste caso estamos interessados na diferenca media enquanto quequando temos duas amostras independentes, estamos interessados na diferenca nasmedias. Ainda que numericamente estas quantidades sao as mesmas, conceitualmenteelas sao diferentes.

Exemplo: A mudanca nos nıveis de um contaminante numa certa area do inıcioao final de seis meses de observacao foram (em µ/l):

−1.5 −0.6 −0.3 0.2 −2.0 −1.2

A media e o desvio padrao sao −0.9 e 0.81 µ/l respectivamente. Entao o erro padraoe 0.81/

√6 = 0.33 µ/l.

Podemos agora realizar um test-t pareado para testar a hipotese nula de que aperda na concentracao media e 0. Para isso calculamos

t =d− 0SE(d)

=−0.90.33

= −2.73.

Note que este valor e negativo (porque a mudanca media observada foi a reducao naconcentracao do poluente — um valor positivo seria um aumento na concentracaodo poluente). Observamos o valor absoluto da estatıstica de teste (2.73) na tabela,usando a linha com n− 1 = 5 graus de liberdade.

A quinta linha da tabela mostra que 0.01 < p < 0.05 (porque o valor 2.73 estaentre os valores tabelados 2.571 e 4.032). Entao, rejeitamos a hipotese nula ao nıvelde 5%. Existe evidencia ao nıvel de 5% de que a area em estudo sofreu uma reducaoem media nos nıveis do contaminante durante o perıodo de seis meses.

Podemos adicionar a nossa conclusao o intervalo de confianca de 95% para areducao media nos nıveis do contaminante: −0.9 ± 2.57 × 0.33 = −0.9 ± 0.85 =(−1.75,−0.05) Estamos 95% confiantes que a reducao media nos nıveis do contami-nante esta entre 0.05µ/l e 1.75µ/l.

47

Page 48: notas de aula em arquivo formato pdf

7.3 Comparando proporcoes

Voltando aos dados da pagina 38 acerca de um estudo investigando a existencia deuma igualdade na proporcao de machos de uma certa especie em dois lagos distin-tos. As proporcoes observadas de machos foram 74.4% dentre 43 peixes capturadosno primeiro lago e 60% dentre os 50 do segundo. Se construirmos intervalos de con-fianca para os percentuais correspondentes de machos na populacao (peixes da mesmaespecie naqueles dois lagos), encontrarıamos que podemos estar 95% confiantes de queo percentual esta entre 61.4% e 87.4% no primeirop lago, e entre 46.4% e 73.6% nosegundo.

Contudo, nesse tipo de experimento a ideia principal e comparar diretamenteos dois lagos. Portanto gostariamos de calcular um intervalo de confianca de 95%para a diferenca em proporcoes. Note contudo que isto e somente apropriado paragrandes amostras, e desse modo quando a amostra e pequena devemos ser cautelosospara nao super valorizar os resultados.

7.3.1 Intervalo de confianca para a diferenca em proporcoes

Seja p1 a verdadeira proporcao populacional no grupo 1 (lago 1), se seja p2 a proporcaono grupo 2 (lago 2). Estamos interessados na diferenca em proporcoes,

p2 − p1.

Estimativas de p1 e p2 sao dadas por

p1 = 0.744 , p2 = 0.600,

entao uma estimativa da diferenca em proporcoes e

p2 − p1 = 0.744− 0.600 = 0.144

O erro padrao desta diferenca e

SE =

√p1(1− p1)

n1+

p2(1− p2)n2

.

Com isso podemos construir um intervalo de confianca da forma ususal, ou seja

(p2 − p1)± 1.96× SE.

48

Page 49: notas de aula em arquivo formato pdf

Entao para os nossos dados temos

SE =

√0.744× (1− 0.744)

43+

0.600× (1− 0.600)50

= 0.096.

Portanto um intervalo de confianca aproximado de 95% para a diferenca em pro-porcoes e dado por 0.144 ± 1.96 × 0.096, o qual e (−0.044, 0.332), ou (-4.4%,33.2%).Estamos 95% confiantes que a verdadeira diferenca percentual entre as proporcoes depeixes machos nos dois lagos esta entre -4.4% e 33.2%.

Note que de acordo com este intervalo o valor zero e um valor plausıvel para asdiferencas nos percentuais, e portanto nao existem evidencias estatısticas de que opercentual de peixes do sexo masculino diferem nos dois lagos.

7.3.2 Teste para a diferenca de duas proporcoes

Podemos testar a hipotese nula H0: p2 − p1 = 0 versus a alternativa H1: p2 − p1 6= 0usando a estatıstica

t =(p2 − p1)− 0

SE

e comparando este valor com a tabela t com ∞ graus de liberdade.

7.4 Exercıcios 6

1. Um experimento (hipotetico) sobre o efeito do alcool na habilidade perceptualmotora e conduzido. 10 indivıduos sao testado duas vezes, uma depois de tertomado dois drinks e uma depois de tomado dois copos de agua. Os dois testesforam realizados em dois dias diferentes para evitar influencia do efeito do alcool.Metade dos indivıduos tomou a bebida alcoolica primeiro e a outra metade agua.Os escores dos 10 indivıduos sao mostrados abaixo. Escores mais altos refletemuma melhor performance. Deseja-se testar se a bebida alcoolica teve um efeitosingificante. Use um nıvel de significancia de 1%.

------------------------------------indivıduo

1 2 3 4 5 6 7 8 9 10------------------------------------agua 16 15 11 20 19 14 13 15 14 16alcool 13 13 12 16 16 11 10 15 9 16------------------------------------

49

Page 50: notas de aula em arquivo formato pdf

2. Um estudo realizado para comparacao entre duas lagunas quanto a salinidadeem Bimini, Bahamas, obteve as seguintes observacoes (em partes por mil):

--------------------laguna 1 laguna 2--------------------37.54 39.0437.01 39.2136.71 39.0537.03 38.2437.32 38.5337.01 38.7137.03 38.8937.70 38.6637.36 38.5136.75 40.0837.4538.85--------------------

O que voce conclui com base nestes dados?

3. Deseja-se comparar os teores de Sr provenientes de amostras de carbonato obti-dos a partir de dois metodos diferentes: I-fotometro de chama; II-analise espec-trografica.

---------------------------------Especimes Metodo I Metodo II---------------------------------1 0.96 0.942 0.96 0.983 0.85 0.874 0.86 0.845 0.86 0.876 0.89 0.93---------------------------------

4. As seguintes amostras aleatorias sao medidas da capacidade de producao de calor(em milhoes de calorias por tonelada) de especimes de carvao de duas minas:

------------------------------------mina 1 8400 8230 8380 7860 7930mina 2 7510 7690 7720 8070 7660------------------------------------

Use um teste de 0.05% de significancia para testar se a diferenca entre as capaci-dades medias de calor e significante.

5. Um metodo de semeadura de nuvens foi bem sucedido em 57 dentre 150 tentati-vas, enquanto outro metodo foi eficaz em 33 dentre 100 tentativas. Ao nıvel designificancia de 0.05% podemos concluir que o primeiro metodo e melhor do osegundo?

50

Page 51: notas de aula em arquivo formato pdf

8 Correlacao

8.1 Relacoes entre variaveis

Em diversas investigacoes deseja-se avaliar a relacao entre duas medidas quantita-tivas. Por exemplo, estao as alturas de filhos relacionadas com as alturas dos seuspais? Processos praianos condicionam a inclinacao da zona pos-praia abaixo da linhada mare baixa? Ou seja, o angulo de inclinacao do fundo oceanico situado logo aposa linha da mare baixa a estirancio esta relacionado com o diametro medio (em mm)do sedimento do fundo oceanico?

angulo de inclinacao y 0.68 0.85 0.66 0.50 1.86 2.33 2.17 1.83 1.682.05 1.83 1.84 1.87 1.82 1.85 1.75 1.51 1.38

diametro de sedimentos x 0.79 0.65 0.81 0.74 0.22 0.23 0.25 0.26 0.410.55 0.47 0.59 0.47 0.50 0.52 0.47 0.42 0.37

Tres propositos principais de tais investigacoes podem ser:

• para verificar se os valores sestao associados. (Os valores de uma medida ten-dem a crescer (ou decrescer) a medida que a outra cresce?)

• para predizer o valor de uma variavel a partir de um valor conhecido da outra.

• para descrever a relacao entre variaveis. (Dado um aumento especıfico numavariavel, qual o crescimento medio esperado para a segunda variavel?)

A associacao linear entre duas variaveis e avaliada usando correlacao. Parapredizer o valor de uma variavel contınua a partir de uma outra variavel e para descr-ever a relacao entre duas variaveis utiliza-se regressao (veja o proximo capıtulo).

O primeiro estagio em qualquer um dos casos e produzir um grafico de pontosdos dados para obter alguma ideia da forma e grau de associacao entre duas variaveis.

0.2 0.3 0.4 0.5 0.6 0.7 0.8

0.5

1.0

1.5

2.0

x

y

51

Page 52: notas de aula em arquivo formato pdf

Mesmo tendo somente 18 observacoes, podemos ver que parece existir alguma asso-ciacao entre angulo de inclinacao do fundo oceanico e diametro medio de sedimentos.

8.2 Definicoes

Seja x1, x2, . . . , xn o conjunto das medidas de uma das variaveis (perıodo das ondas), eseja y1, y2, . . . , yn as medidas da outra variavel (diametro medio de sedimentos). Sejax, y, sx e sy as medias e desvios padrao amostrais dos dois conjuntos de dados.

Para obter uma medida do grau de associacao da relacao linear entre duasvariaveis, usamos o coeficiente de correlacao, definido como:

r =sxy

sxsy.

onde

sxy =∑

(xi − x)(yi − y)n− 1

=∑

xiyi − nxy

n− 1.

Para os dados do exemplo acima, temos n = 18, x = 0.48, y = 1.58, sx = 0.18,sy = 0.54,

∑xiyi = 12.44 a partir dos quais podemos calcular que r = −0.079.

Assim como para medias e desvios padrao, existe uma letra Grega especial queutlizamos para o coeficiante de correlacao populacional: ρ. Podemos considerarr como sendo uma estimativa de ρ, exatamente como x e uma estimativa da mediapopulacional µ.

Abaixo estao exemplos de dados com seus coeficientes de correlacao correspon-dentes.

52

Page 53: notas de aula em arquivo formato pdf

r=0.4

r=0.7

r=1.0

r=-0.3

r=-0.6

r=-0.9

8.3 Interpretacao do coeficiente de correlacao

O valor de r esta sempre entre −1 e +1, com r = 0 correspondendo a nao associacao.

Valores de r

{negativospositivos

}indicam uma associacao

{negativapositiva

}

Usamos o termo correlacao positiva quando r > 0, e nesse caso a medida que xcresce tambem cresce y, e correlacao negativa quando r < 0, e nesse caso a medidaque x cresce, y decresce (em media).

Quanto maior o valor de r (positivo ou negativo), mais forte a associacao. Noextremo, se r = 1 ou r = −1 entao todos os pontos no grafico de dispersao caem ex-atamente numa linha reta. No outro extremo, se r = 0 nao existe nenhuma associacaolinear.

A seguinte quadro fornece um guia de como podemos descrever uma correlacaoem palavras dado o valor numerico. E claro que as interpretacoes dependem de cadacontexto em particular.

Valor de ρ (+ ou −) Interpretacao0.00 a 0.19 Uma correlacao bem fraca0.20 a 0.39 Uma correlacao fraca0.40 a 0.69 Uma correlacao moderada0.70 a 0.89 Uma correlacao forte0.90 a 1.00 Uma correlacao muito forte

Note que correlacoes nao dependem da escala de valores de x ou y. (Por exemplo,obterıamos o mesmo valor se medıssemos altura e peso em metros e kilogramas ou empes e libras.)

8.4 Linearidade e normalidade

Somente relacoes lineares sao detectadas pelo coeficiente de correlacao que acabamosde descrever (tambem chamado coeficiente de correlacao de Pearson). Nos dados

53

Page 54: notas de aula em arquivo formato pdf

abaixo, mesmo existindo uma clara relacao (nao-linear) entre x e y, o coeficiente decorrelacao e zero. Sempre faca o grafico dos dados de modo que voce possavisualizar tais relacoes.

••

• • • • ••

x

y

Em alguns casos pode ser apropriado transformar x e/ou y.

••

••

••••••••••

•••••••

••••

••

•••

•••

•••

••

••••

•••

••

••

••

••••••

•••••

Gross Domestic Product

Mili

tary

exp

endi

ture

0 50000 100000 150000

0

2000

4000

6000

••

••

• •

• •

••

••

••

• •

••

••

• ••

Log Gross Domestic Product

Log

Mili

tary

exp

endi

ture

6 7 8 9 10 11 12

2

4

6

8

54

Page 55: notas de aula em arquivo formato pdf

8.5 Coeficiente de determinacao, R2

O quadrado do coeficiente de correlacao de Pearson e chamado de coeficiente dedeterminacao ou simplesmente R2. E uma medida da proporcao da variabilidadeem uma variavel que e explicada pela variabilidade da outra. E pouco comum quetenhamos uma correlacao perfeita (R2 = 1) na pratica, porque existem muitos fa-tores que determinam as relacoes entre variaveis na vida real. No nosso exemplo dapagina 56, tivemos r = −0.79, de modo que R2 = 0.62 ou 62%. Entao cerca de 38%da variabilidade da inclinacao da zona pos-praia abaixo da linha da mare baixa naopode ser descrito (ou explicado) pela variabilidade no diametro medio de sedimentose vice-versa. Fica portanto claro que existem outros fatores que poderiam ser impor-tantes, como por exemplo, profundidade da lamina d’agua, altura das ondas, angulode aproximacao das ondas, etc.

8.6 Associacao nao e causalidade

Suponha que encontremos uma associacao ou correlacao entre duas variaveis A e B.Podem existir diversas explicacoes do porque elas variam conjuntamente, incluindo:

• Mudancas em A causam mudancas em B.

• Mudancas em B causam mudancas em A.

• Mudancas em outras variaveis causam mudancas tanto em A quanto em B.

• A relacao observada e somente uma coincidencia.

A terceira explicacao e frequentemente a mais apropriada. Isto indica que existe algumprocesso de coneccao atuando. Por exemplo, o numero de pessoas usando oculos-de-sole a quantidade de sorvete consumido num particular dia sao altamente correlacionados.Isto nao significa que usar oculos-de-sol causa a compra de sorvetes ou vice-versa!

E extremamente difıcil estabelecer relacoes causais a partir de dados observa-cionais. Precisamos realizar experimentos para obter mais evidencias de um relacaocausal.

8.7 Exercıcios 7

1. Um estudo geoquımico orientador realizado, utilizando amostras compostas desedimentos de corrente com granulometria de 100-150 mesh e profundidade de40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintesresultados em ppm:

Ni Cr Ni Cr5.2 16.8 4.5 15.55.0 20.0 5.4 13.06.8 14.2 8.8 12.57.5 17.5 18.0 20.22.5 10.1 6.2 12.55.0 15.5 20.5 13.57.5 13.8 10.0 17.87.0 18.2 4.0 12.88.0 13.0 4.4 12.24.0 15.0 15.9 13.0

(a) Faca o grafico destes dados com Ni no eixo x.(b) Calcule o coeficiente de correlation r pata estes dados e cheque se o valor

obtido parece consistente com seu grafico.(c) Qual proporcao da variabilidade na concentracao de Cr pode ser explicada

pela concentracao de Ni?

55

Page 56: notas de aula em arquivo formato pdf

2. Prosseguindo o estudo da influencia de processos praianos no condicionamentodo angulo de inclinacao do fundo oceanico situado logo apos a linha da marebaixa a estirancio mediu-se a profundidade da lamina d’agua (em pes). Osdados coletados foram:

angulo de inclinacao y 0.68 0.85 0.66 0.50 1.86 2.33 2.17 1.83 1.682.05 1.83 1.84 1.87 1.82 1.85 1.75 1.51 1.38

profundidade x 12.4 11.4 10.7 11.6 11.3 10.7 11.1 12.8 13.313.3 14.1 13.4 13.5 13.3 14.4 14.1 15.3 14.0

(a) Faca o grafico desses dados com profundidade da lamina d’agua no eixo x.(b) Calcule o coeficiente de correlacao, r e interprete o resultado obtido.(c) Qual proporcao da variabilidade em angulo de inclinacao pode ser explicada

por profundidade da lamina d’agua?

56

Page 57: notas de aula em arquivo formato pdf

9 Regressao

9.1 Ideia basica

Em certas situacoes podemos estar interessados em descrever a relacao entre duasvariaveis, e tambem predizer o valor de uma a partir de outra. Por exemplo, sesabemos a altura de um certo estudante, mas nao o seu peso, qual seria um bomchute para o peso deste estudante? O coeficiente de correlacao apenas indica a graude associacao como um unico numero.

Retorne aos dados de altura e peso de estudantes na pagina 13. Denote as alturaspor x1, x2, . . . , xn, e os pesos por y1, y2, . . . , yn. (Por enquanto vamos ignorar se eles saodo sexo masculino ou feminino). Se estamos interessados em predizer peso de alturaentao nao temos uma relacao simetrica entre as duas variaveis. Chamamos peso avariavel resposta ou dependente, e altura a variavel explanatoria, preditora ouindependente. A variavel resposta e sempre disposta no eixo vertical y, e a variavelexplanatoria e sempre disposta no eixo x.

Height (cm)

Wei

ght (

kg)

140 150 160 170 180 190 200

4050

6070

8090

Se a relacao entre as duas variaveis e aproximadamente linear, entao os dadospodem ser resumidos atraves do ajuste de uma reta passando pelos dados. A equacaodessa reta e dada por

y = a + bx

onde a e conhecida como o intercepto e b e a inclinacao. Intuitivamente, queremosuma reta que forneca pequenas diferencas entre os verdadeiros pesos e aqueles dadospela reta para as alturas correspondentes.

57

Page 58: notas de aula em arquivo formato pdf

O metodo padrao para obter a melhor reta ajustada e chamado mınimos quadra-dos o qual literalmente miniza a soma dos quadrados das distancias de yi a reta ajus-tada. Em princıpio isto requer tracar retas possıveis, calculando a soma dos quadradosdas distancias:

S =n∑

i=1

(yi − yi)2 =n∑

i=1

{yi − (a + bxi)}2

e encontrar os valores de a e b (equivalentemente a reta) que fornecem o menor valorde S. E possıvel mostrar que a melhor reta e aquela tal que

b =∑

(yi − y)(xi − x)∑(xi − x)2

=∑

xiyi − nxy∑x2 − nx2

=sxy

s2x

ea = y − bx.

Para os dados de altura e peso a = −51.17kg e b = 0.68kg/cm; entao a reta deregressao e

y = −51.17 + 0.68x.

Nossa reta ajustada e uma estimativa da reta de regressao populacional, y =α+βx. Nossos a e b sao estimativas de α e β. (E comum, denotar-se estas estimativaspor α e β ao inves de a e b.)

O proximo passo e construir intervalos de confianca etc para α e β (intercepto einclinacao populacional), mas para fazer isto precisamos pensar mais cuidadosamentesobre nossas suposicoes acerca da populacao.

9.2 Modelo de regressao linear simples

Este e o modelo mais simples para descrever a relacao entre uma variavel explanatoriax e uma variavel resposta y. O modelo faz a seguintes suposicoes, em ordem decres-cente de importancia:

1. o valor medio da variavel resposta e uma funcai linear de x,

2. a variancia da variavel resposta e constante (ou seja, a mesma para todos osvalores de x),

3. a variacao aleatoria da variavel resposta para qualquer valor fixo de x segue umadistribuicao Normal, e estes termos de erro sao independentes.

Em termos algebricos, seja (xi, yi) para i = 1, . . . , n os valores observados davariavel explanatoria x e da variavel resposta y para os n sujeitos.

58

Page 59: notas de aula em arquivo formato pdf

O modelo de regressao linear e

yi = α + βxi + εi

onde εi representa desvios independentes aleatorios da relacao linear entre y e x e(para satisfazer nossas tres suposicoes acima)

εi ∼ Normal(0, σ2).

Note que α e β sao parametros da populacao, e eles sao frequentemente conhecidoscomo coeficientes. Em particular, β e denominado coeficiente, ou efeito, de x.

Os dados abaixo parecem satisfazer todas as tres suposicoes:

• •

•• •

••

•• •••

••

••

••

• •

••

••

••

••

••

••

••

••

••

•• •

• •

••

••

• •

• •

••

••

••

••

••

• ••

••

••

••

••

••

••

••

••

••

••

•••

••

••

••

••

••

• •

••

• ••

• •

••

• •

••

••

•••

• ••

••

••

••

••

••

••

x

sqrt

(y)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Um exemplo construıdo de dados que nao satisfazem nenhuma das suposicoese mostrado abaixo:

• •

••

••

•• •• •

• •••

•• •

• •

• •

• ••

••

• •

••

••

• •

••

••

••

••

• ••

••

••

• •

••

•• •

• •

•• •

••

•••

• •• •

••

••

•••

•••

• ••

••

••

••

••

• •

••

••

• •

••

• •

•••

••

••

••

••

••

•••

••

•• •

••

• • •

••

••

••

• •

••

• ••

• •

••

••

••

• •

•••

• •

•• •

• ••

••

••

•••

• •

••

••

••

• •• ••

••

•••

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

59

Page 60: notas de aula em arquivo formato pdf

9.3 Estimando os parametros do modelo

Uma tarefa importante associada com o modelo de regressao linear e a estimacao dosvalores de α e β, os quais juntos determinam a equacao da reta ajustada.

Um metodo padrao de estimacao em estatıstica chamado maxima vaerossimil-hanca leva as mesmas estimativas de mınimos quadrados descrito na Secao 9.1,ou seja

β = sxy/s2x e α = y − βx

Em aplicacoes, nao existe garantia de que o modelo de regressao linear sera resoavelpara nossos dados. Devemos sempre sobrepor a reta ajustada y = α + βx sobre umscatterplot dos dados para checar se o modelo e razoavel. Devemos procurar porevidencias de uma relacao nao-linear, ou desvios muito extremos da reta ajustada.

Se acharmos que o modelo esta razoavel, podemos tambem estimar σ2, a varianciados erros εi, usando a formula

σ2 =(n− 1)(n− 2)

{s2y − β2s2

x}

onde s2y e s2

x denotam a variancia amostral de y e de x, respectivamente.

9.3.1 Exemplo

Para os nossos dados, ja sabemos que α = −51.17 e que β = 0.68. Um grafico dosdados com a reta ajustada e:

Height (cm)

Wei

ght (

kg)

140 150 160 170 180 190 200

4050

6070

8090

O ajuste da reta nao parece tao bom. Existem dois pontos bem distantes dareta ajustada, e o da esquerda em particular parece ter uma grande influencia nareta ajustada. Na pratica e aconselhavel investigar a acuracia destes valores e/ouverificar quanto muda a reta ajsutada quando estes pontos sao removidos. Contudo,por enquanto prosseguiremos assumindo que esta tudo ok!

60

Page 61: notas de aula em arquivo formato pdf

Para sermos capazes de calcular erros padrao e intervalos de confianca, e impor-tante manter tantas casa decimais quanto possıvel: β = 0.6846253. As outras quanti-dades sao:

n = 37, sx = 11.38700, sy = 11.70791, sxy = 88.77102.

Podemos agora obter σ2:

σ2 =3635{(11.707912)− (0.68462532)(11.387002)} = 78.48

Entao uma estimativa do desvio padrao dos desvios aleatorios εi em torno da retae

σ =√

78.48 = 8.86

9.4 I.C. e teste para β

Usualmente e de interesse saber qual a nossa precisao na estimativa de β. Pararesponder esta questao, podemos calcular um intervalo de confianca de 95% paraβ, como segue:

1. Calcule o erro padrao de β,

SE =√

σ2/{(n− 1)s2x}

2. Encontre o valor de tn−2,0.05, que esta na tabela t: linha r = n−2 e coluna 0.05.

3. Um Intervalo de confianca de 95% e: β ± t× SE

Podemos tambem ter interesse em testar a hipotese H0: β = 0, ou seja, de que naoexista relacao entre x e y. Nesse caso, procedemos como segue:

1. Calcule t = (β − 0)/SE.

2. Procure na tabela t, o p-valor correspondente ao seu valor de t na linha r = n−2da tabela para sumarizar a evidencia contra H0.

9.4.1 Exemplo

Para os dados dos estudantes, um teste da hipotese nula de nao existencia de relacaoentre altura e peso fica como segue.

SE =√

78.48/(36 ∗ 11.3870022) = 0.1297

t = 0.6846/0.1297 = 5.28 (com n− 2 = 35gl → P < 0.001)

Podemos calcular um intervalo de confianca de 99% para β (o coeficiente de altura):

(0.6846± 2.032× 0.1297) = (0.42, 0.95)

61

Page 62: notas de aula em arquivo formato pdf

9.5 Transformacoes de dados

Uma forma de estender a aplicabilidade do modelo de regressao linear e aplicar umatransformacao em x ou y, ou ambos, antes de ajustar o modelo. Ou seja, se a relacaoentre duas variaveis e nao-linear (uma curva pareceria ajusta melhor do que uma reta),entao frequentemente a relacao pode ser feita linear transformando uma ou ambas asvariaveis.

Transformacoes podem ser muito uteis em algumas circunstancias, mas deveriasomente ser considerada como um ultimo recurso uma vez que quando uma or ambasas variaveis sao transformadas, os coeficientes deixam de ter interpretacoes diretas.

A ideia e escolher uma transformacao que faca a relacao aproximadamente linearenquanto ainda premanecendo interpretaveis. Frequentemente, relacoes biologicas saomultiplicativas e nao aditivas e transformacoes logarıtmicas sao particularmenteuteis nestes casos.

9.6 Resumo

Regressao permite-nos:

• Descrever suscintamente o nıvel geral de uma variavel que esta associada comcada nıvel de outra.

• Predizer uma variavel de uma outra variavel. E importante aqui distinguirentre interpolacao (predicao dentro da amplitude dos dados amostrados; noexemplo, predicao do peso de uma pessoa de altura 170 cm) e extrapolacao(predicao fora da amplitude dos dados; no exemplo, predicao do peso de alguemcom altura 70cm como sendo aproximadamente −3kg!).

9.7 Exercıcios 8

1. Com relacao aos dados apresentados no Capıtulo 8 sobre processos praianoscondicionando a inclinacao da zona pos-praia abaixa da linha da mare baixa.

(a) Ajuste um modelo de regressao linear simples a partir do qual podemospredizer a inclinacao do fundo oceanico situado logo apos a linha da marebaixa a estirancio em termos do diametro medio do sedimento do fundooceanico. Adicione a reta ajustada ao grafico de dispersao apresentado nocapıtulo anterior.

(b) Explique em palavras o que a equacao de regressao esta lhe dizendo.(c) Quais suposicoes foram feitas para obrter essa equacao?(d) Como voce poderia decidir se a aparente associacao entre inclinacao e diametro

foi ou nao meramente casual?(e) Com base nesse equacao, qual seria sua predicao para a inclinacao da zona

pos-praia para um diametro medio do sedimento do fundo oceanico de0.50mm?

62