Probabilidade e Estatisti_cap1_exercicios Resolvidos

30
No ¸ c˜oes de Probabilidade e Estat ´ ıstica Resolu¸ c˜ao dos Exerc ´ ıcios Pares Cap ´ ıtulo 1 Gledson Luiz Picharski Data da ´ ultima atualiza¸ c˜ao: 2 de Maio de 2008 Se¸ ao 1.1 2. Para as situa¸ c˜oes descritas a seguir, identifique a popula¸ c˜ao e a amostra correspondente. Discuta a validade do processo de inferˆ encia estat´ ıstica para acada um dos casos. a) Para avaliar a efic´acia de uma campanha de vacina¸ c˜ao no estado de S˜ao Paulo,200 m˜aesderec´ em-nascidos,durante o primeiro semestre de um dado ano em uma dada maternidade em S˜ao Paulo, foram entrevistadas a respeito da ´ ultima vez em que vacinaram seus filhos. b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. c) Para verificar a audiˆ encia de um programa de TV, 563 indiv´ ıduos foram entrevistados por telefone com rela¸ c˜ao ao canal em que estavam sintonizados. d) A fim de avaliar a inten¸ c˜ao de votopara presidente dos brasileiros, 122 pessoas foram entrevistadas em Bras´ ılia. Resposta: a) As crian¸ cas do estado de S˜ao Paulo s˜ao a popula¸ c˜aodeinteresse, est˜aofazendoparte da amostra 200 m˜aes de rec´ emnascidos, n˜ao´ e interessante utilizar esta amostra, pois n˜ao´ e representativa, pode ser que algumas m˜aes estejam no primeiro filho e apenas um posto de sa´ ude n˜ao representa o estado todo. b) A popula¸ c˜ao´ e o sangue do paciente, a amostra ´ e um pouco deste sangue, como o sangue ´ e homogˆ eneo ent˜ao esta ´ e uma amostra representativa e podemos tirar conclus˜oes sobre todo o sangue do paciente. c) Os telespectadores de um programa de TV s˜ao a popula¸ c˜ao de interesse, a amostra ´ e formada pelos 563 indiv´ ıduos que foram entrevistados por telefone com rela¸ c˜aoao canal em eu estavam sintonizados .N˜ao seria valido inferir atravez desta amostra, 1

Transcript of Probabilidade e Estatisti_cap1_exercicios Resolvidos

Page 1: Probabilidade e Estatisti_cap1_exercicios Resolvidos

Nocoes de Probabilidade e Estatıstica

Resolucao dos Exercıcios Pares

Capıtulo 1

Gledson Luiz Picharski

Data da ultima atualizacao: 2 de Maio de 2008

Secao 1.1

2. Para as situacoes descritas a seguir, identifique a populacao e a amostra correspondente.Discuta a validade do processo de inferencia estatıstica para acada um dos casos.

a) Para avaliar a eficacia de uma campanha de vacinacao no estado de Sao Paulo,200maes de recem-nascidos,durante o primeiro semestre de um dado ano em uma dadamaternidade em Sao Paulo, foram entrevistadas a respeito da ultima vez em quevacinaram seus filhos.

b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.

c) Para verificar a audiencia de um programa de TV, 563 indivıduos foram entrevistadospor telefone com relacao ao canal em que estavam sintonizados.

d) A fim de avaliar a intencao de votopara presidente dos brasileiros, 122 pessoas foramentrevistadas em Brasılia.

Resposta:

a) As criancas do estado de Sao Paulo sao a populacao de interesse, estao fazendo parteda amostra 200 maes de recem nascidos, nao e interessante utilizar esta amostra, poisnao e representativa, pode ser que algumas maes estejam no primeiro filho e apenasum posto de saude nao representa o estado todo.

b) A populacao e o sangue do paciente, a amostra e um pouco deste sangue, comoo sangue e homogeneo entao esta e uma amostra representativa e podemos tirarconclusoes sobre todo o sangue do paciente.

c) Os telespectadores de um programa de TV sao a populacao de interesse, a amostrae formada pelos 563 indivıduos que foram entrevistados por telefone com relacao aocanal em eu estavam sintonizados .Nao seria valido inferir atravez desta amostra,

1

Page 2: Probabilidade e Estatisti_cap1_exercicios Resolvidos

pois apenas um seleto grupo esta participando da pesquisa, como a pesquisa e portelefone, pode ser que telespectadores nao tenham telefone, ou nao quiseram atender,ou entao nao quiseram atender.

d) Os eleitores brasileiros formam a populacao, a amostra sao as 122 pessoas entrevis-tadas em Brasılia, a amostra nao e representativa, para saber a intencao de votodos brasileiros, precisariamos pesquisar com um numero bem maior de pessoas edistribuido entre varios estados, apenas um estado nao representa o paıs todo.

Secao 1.2

2. Quinze pacientes de uma clınica de ortopedia foram entrevistados quanto ao numero demeses previstos de fisioterapia, se havera(S) ou nao(N) sequelas apos o tratamento e ograu de complexidade da cirurgia realizada: alto(A), medio(M) ou baixo(B). Os dadossao apresentados na tabela abaixo.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Fisioterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5

Sequelas S S N N N S S N N S S N S N NCirurgia A M A M M B A M B M B B M M A

a) Classifique cada uma das variaveis.

b) Para o cada variavel, construa a tabela de frequuencia e faca uma representacaografica.

c) Para o grupo de pacientes que nao ficaram com sequelas, faca um grafico de barraspara a variavel Fisioterapia. Voce acha que essa variavel se comporta de mododiferente nesse grupo?

Resposta:

a) Fisioterapia e quantitativa discreta, Sequelas e qualitativa nominal e Cirurgia e qua-litativa ordinal.

b) A Figura 1 mostra os graficos de cada uma das variaveis e as tabelas de frequenciasao geradas pelos comandos a seguir.

> tb1 <- with(dados, table(Fisioterapia))

> tb1

Fisioterapia

4 5 6 7 8

2 5 3 3 2

> seque.tb <- table(dados$Sequelas)

> seque.tb

2

Page 3: Probabilidade e Estatisti_cap1_exercicios Resolvidos

N S

8 7

> cir.tb <- table(dados$Cirurgia)

> cir.tb

B M A

4 7 4

> barplot(tb1, main = "meses de fisioterapia")

> pie(seque.tb, main = "sequelas", radius = 0.95, init.angle = 45)

> barplot(cir.tb, main = "complexidade da cirurgia")

4 5 6 7 8

meses de fisioterapia

01

23

45

N

S

seqüelas

B M A

complexidade da cirurgia

01

23

45

67

Figura 1: Representacoes graficas das variaveis.

c) Nota-se que o tempo de fisioterapia e menor nos pacientes sem sequelas, observamosisso na Figura 2

> fisio.tb <- table(with(dados, Fisioterapia[Sequelas == "N"]))

> fisio.tb

> barplot(fisio.tb)

4. Um grupo de estudantes do ensino medio foi submetido a um teste de matematica resul-tando em:

freq(0,2] 14(2,4] 28(4,6] 27(6,8] 11

(8,10] 4

a) Construa o histograma.

b) Se a nota mınima para aprovacao e 5, qual sera a porcentagem de aprovacao?

3

Page 4: Probabilidade e Estatisti_cap1_exercicios Resolvidos

> op <- options()

> par(mar = c(2, 2, 2, 2))

> fisio.tb <- table(with(dados, Fisioterapia[Sequelas == "N"]))

> fisio.tb

> barplot(fisio.tb)

> options(op)

4 5 6 7

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 2: barplot para a variavel Fisioterapia.

c) Obtenha o box-plot.

Resposta:

Para gerar os dados em classes percebi 3 possibilidades, aqui esta resolvido pela queconsiderei mais simples, as duas outras maneiras estrao no final do capitulo.

> freqs <- c(14, 28, 27, 11, 4)

> dados <- rep(0:4 * 2 + 1, freqs)

> dados.tb <- table(cut(dados, seq(0, 10, l = 6)))

> dados.tb

(0,2] (2,4] (4,6] (6,8] (8,10]

14 28 27 11 4

a) A Figura 3 representa o histograma das notas.

> op <- options()

> par(mar = c(2, 2, 2, 2))

> hist(dados, breaks = 0:5 * 2, main = "", xlab = "", ylab = "")

> options(op)

b) Primeiramente monto uma tabela de frequencia acumulada, descubro o percentualque tirou acima de 4 e acima de 6 entao trato a media 5 linearmente e encontro o

4

Page 5: Probabilidade e Estatisti_cap1_exercicios Resolvidos

percentual de aprovados.

> freqAc <- cumsum(prop.table(freqs))

> result <- 1 - (freqAc[2] + freqAc[3])/2

> result

[1] 0.3392857

Encontramos entao aprovacao de aproximadamente 0.339.

No histograma da Figura 3 esta representado o percentual de aprovados.

> hist(dados, breaks = 0:5 * 2, main = "", xlab = "", ylab = "")

> rect(5, 0, 6, dados.tb[3], col = "gray")

> rect(6, 0, 8, dados.tb[4], col = "gray")

> rect(8, 0, 10, dados.tb[5], col = "gray")

> legend("topright", c("repr.", "apr."), fill = c("white", "gray"))

c) A Figura 3 representa o boxplot das notas.

> boxplot(dados, main = "")

0 2 4 6 8 10

05

1015

2025

0 2 4 6 8 10

05

1015

2025

repr.apr.

24

68

Figura 3: Representacoes para as notas dos alunos.

5

Page 6: Probabilidade e Estatisti_cap1_exercicios Resolvidos

Secao 1.3

2. Considerando o banco de dados criado no Exercıcio 1 desta secao, construa um histogramapara as quatro variaveis e, baseado no grafico, descreva os seus comportamentos.

Resposta:

A tabela da pagina 7 do livro foi obtida no endereco http://www.ime.usp.br/~noproest.E possivel notar que grande parte dos estudantes teem entre 17 e 18 anos e a quantidadede pessoas e menor quanto maiores sao as idades. Percebe-se que aparecem mais pessoasconforme maior a altura ate 1,70, alturas entre 1,7 e 1,85 tem frequencia de aproxima-damente 4 pessoas a cada 5cm. Nota-se que a maioria das pessoas tem peso entre 50 e60Kg. Percebe-se ainda que grande parte das pessoas teem 1 ou 2 filhos. Estes dadosestao representados na Figura 2

> # enderecando a um endereco de internet poderiamos ter problemas de conectividade,

> # mas pode facilitar um pouco a programac~ao se tudo funcionar certinho.

> tab1.1 <- read.table('http://www.ime.usp.br/~noproest/dados/questionario',head=T)> with(tab1.1, hist(Idade, main = "Idade", xlab = "", ylab = ""))

> with(tab1.1, hist(Alt, main = "ALtura", xlab = "", ylab = ""))

> with(tab1.1, hist(Peso, main = "Peso", xlab = "", ylab = ""))

> with(tab1.1, hist(Filhos, main = "Filhos", xlab = "", ylab = ""))

6

Page 7: Probabilidade e Estatisti_cap1_exercicios Resolvidos

Idade

18 20 22 24

05

1015

2025

30

ALtura

1.5 1.6 1.7 1.8

02

46

810

12

Peso

40 50 60 70 80 90 100

05

1015

20

Filhos

1 2 3 4 5 6 7

010

2030

40

Figura 4:

Secao 1.4

2. Suponha que duas empresas desejam emprega-lo e apos considerar as vantagens de cadauma, voce vai escolher aquela que lhe pagar melhor. Apos mcerta pesquisa, voce conseguea distribuicao de salario das empresas, dadas segundo os graficos abaixo.

7

Page 8: Probabilidade e Estatisti_cap1_exercicios Resolvidos

Empresa A

10 20 30 40 50

020

4060

8010

0

Empresa B

10 20 30 40 50 60 70

020

4060

8010

0

Com base nas informacoes de cada grafico, qual seria sua decisao?

Resposta:

Para poder representar os histogramas fiz uma soposicao dos dados. Na Figura ?? epossivel verificar que o salario na empresa A esta distribuido de forma mais uniforme, oque indica que ela deve pagar mais para pessoas em cargos intermediarios, a empresa Bmostra ter um salario inicial um pouco maior e tambem poucas pessoas ganham mais doque na A, entao se eu fosse ser contratado para um auto cargo escolheria A e se fosse paracargos intermediarios, que sao a maioria ds cargos, escolheria B.

4. A idade dos 20 ingressantes num certo ano no curso de pos-graduacao em jornalismo deuma universidade foi o seguinte: 22,22,22,22,23,23,24,24,24,24,25,25,26,26,26,26,27,28,35,40.

a) Apresente os dados em uma tabela de frequencia, incluindo a frequencia relativa.

b) Idades atıpicas parecem ter ocorrido nesse ano. Apos sua retirada do conjunto dedados refaca o item (a). Comente as diferencas encontradas.

Resposta:

As idades sao apresentadas a seguir.

> idade <- c(rep(22:28, c(4, 2, 4, 2, 4, 1, 1)), 35, 40)

> idade

[1] 22 22 22 22 23 23 24 24 24 24 25 25 26 26 26 26 27 28 35 40

a) > table(idade)

idade

22 23 24 25 26 27 28 35 40

4 2 4 2 4 1 1 1 1

> range(idade)

[1] 22 40

> nclass.Sturges(idade)

8

Page 9: Probabilidade e Estatisti_cap1_exercicios Resolvidos

[1] 6

> idade.class <- ordered(cut(idade, seq(21.5, 41.5, 5)))

> idade.class

[1] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5]

[7] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5]

[13] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (26.5,31.5] (26.5,31.5]

[19] (31.5,36.5] (36.5,41.5]

Levels: (21.5,26.5] < (26.5,31.5] < (31.5,36.5] < (36.5,41.5]

> idade.class.tb <- table(idade.class)

> idade.class.tb

idade.class

(21.5,26.5] (26.5,31.5] (31.5,36.5] (36.5,41.5]

16 2 1 1

> freqs <- data.frame(Classes = names(idade.class.tb), absoluta = as.vector(idade.class.tb),

+ relativa = as.vector(prop.table(idade.class.tb)))

> freqs

Classes absoluta relativa

1 (21.5,26.5] 16 0.80

2 (26.5,31.5] 2 0.10

3 (31.5,36.5] 1 0.05

4 (36.5,41.5] 1 0.05

b) Usando o box-plot apresentado na Figura 5, percebemos que 35 e 40 sao dadosatıpicos. Na tabela de frequencia a seguir e possivel perceber que todas as classesestao com alguma informacao, sendo assim o resultado fica melhor resumido, alemdisso, na tabela de frequencia do item a ocorreu um acumulo de frequencia nosmenores valores e nesta todos os dados sao representativos da grande maioria.

> boxplot(idade)

> idade1 <- idade[idade < 35]

> idade1

[1] 22 22 22 22 23 23 24 24 24 24 25 25 26 26 26 26 27 28

> table(idade1)

idade1

22 23 24 25 26 27 28

4 2 4 2 4 1 1

> range(idade1)

[1] 22 28

> nclass.Sturges(idade1)

[1] 6

> idade1.class <- ordered(cut(idade1, seq(20.5, 28.5, 4)))

> idade1.class

9

Page 10: Probabilidade e Estatisti_cap1_exercicios Resolvidos

[1] (20.5,24.5] (20.5,24.5] (20.5,24.5] (20.5,24.5] (20.5,24.5] (20.5,24.5]

[7] (20.5,24.5] (20.5,24.5] (20.5,24.5] (20.5,24.5] (24.5,28.5] (24.5,28.5]

[13] (24.5,28.5] (24.5,28.5] (24.5,28.5] (24.5,28.5] (24.5,28.5] (24.5,28.5]

Levels: (20.5,24.5] < (24.5,28.5]

> idade1.class.tb <- table(idade1.class)

> idade1.class.tb

idade1.class

(20.5,24.5] (24.5,28.5]

10 8

2530

3540

Figura 5: Boxplot representando outliers

6. O posto de saude de um certo bairro mantem um arquivo com o numero de criancas nas fa-mılias que utilizam do Posto. Os dados sao os seguintes: 3,4,3,4,5,1,6,3,4,5,3,4,3,3,4,3,5,5,5,5,6,11,10,2,e 2.

a) Organize uma tabela de frequencia.

b) Faca uma representacao grafica.

c) Voce identifica valores muito discrepantes? Que fazer com eles?

Resposta:

> crian <- c(rep(1:5, c(3, 4, 7, 5, 6)), 6, 6, 10, 11)

> crian

[1] 1 1 1 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5

[26] 6 6 10 11

10

Page 11: Probabilidade e Estatisti_cap1_exercicios Resolvidos

a) A tabela de frequencia e apresentada a seguir

> table(crian)

crian

1 2 3 4 5 6 10 11

3 4 7 5 6 2 1 1

b) A representacao grafica e mostrada atraves do box-plot da Figura 6

> boxplot(crian)

24

68

10

Figura 6: Numero de criancas nas familias que utilizam o posto

c) Percebemos que 10 e 11 sao valores discrepantes, eles podem ser retirados da amostra,afim de analisar melhor os dados, pois esses valores influenciam as medidas resumoo que interferiria em qualquer tomada de decisao, nota-se por exemplo a diferencaentre a media considerando ou nao estes valores.

> mean(crian)

[1] 3.965517

> mean(crian[crian < 10])

[1] 3.481481

8. Um grupo de pedagogos estuda a influencia da troca de escolas no desempenho de alunosdo ensino fundamental. Como parte do levantamento realizado, foi anotado o numero deescolas cursadas pelos alunos participantes do estudo.

a) Qual a porcentagem dos alunos que cursaram mais de uma escola?

11

Page 12: Probabilidade e Estatisti_cap1_exercicios Resolvidos

freq1 462 573 214 155 4

b) Construa o grafico de barras.

c) Classifique os alunos em dois grupos segundo a rotatividade: alta para alunos commais de 2 escolas e baixa para os demais. Obtenha a tabela de frequencia dessavariavel.

Resposta:

a) Percebe-se fazendo uma simples operacao que em torno de 68% dos alunos cursaramem mais de uma escola.

> 1 - cumsum(prop.table(table(freq)))[1]

1

0.6783217

b) o grafico de barras e apontado na Figura 7

> barplot(table(freq))

1 2 3 4 5

010

2030

4050

Figura 7: Numero de Escolas cursadas pelos alunos.

c) A tabela de frequencia e obtida a seguir.

12

Page 13: Probabilidade e Estatisti_cap1_exercicios Resolvidos

> freq[freq > 2] <- "alta"

> freq[freq <= 2] <- "baixa"

> table(freq)

freq

alta baixa

40 103

10. O tempo de utilizacao de caixas eletronicos depende de cada usuario e das operacoesefetuadas. Foram coletadas 26 medidas desse tempo(em minutos):

1.10 1.20 1.70 1.50 0.90 1.30 1.40 1.60 1.70 1.60 1.00 0.80 1.501.30 1.70 1.60 1.40 1.20 1.20 1.00 0.90 1.80 1.70 1.50 1.30 1.50

a) organize uma tabela de frequencia sem agrupar os dados.

b) Agrupe os dados em faixas de tamanho 0,2 a partir de 0,8 e obtenha uma nova tabelade frequencia.

c) Compare as tabelas obtidas em (a) e (b). Comente as diferencas.

d) Se ao inves de 26 medidas tivessemos 1000, qual procedimento, dentre agrupar ounao, voce utilizaria?

Resposta:

a) A tabela de frequencia vem a seguir.

> table(temp)

temp

0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8

1 2 2 1 3 3 2 4 3 4 1

b) Podemos observar a tabela de frequencia por classes a seguir.

> range(temp)

[1] 0.8 1.8

> table(ordered(cut(temp, seq(0.8, 1.8, by = 0.2), include.lowest = T)))

[0.8,1] (1,1.2] (1.2,1.4] (1.4,1.6] (1.6,1.8]

5 4 5 7 5

c) Percebemos que no item b fica mais facil de visualizar os dados por eles estaremmais resumidos.

d) se tivessemos estas 1000 medidas no digitadas no computador poderiamos ultilizarvarias outras jeitos de resumir os dados, entre eles agrupar em poucas classes poderiaser uma solucao, mas tentar visualizar todos os 1000 dados nao parece ser uma boaalternativa.

13

Page 14: Probabilidade e Estatisti_cap1_exercicios Resolvidos

12. Foram feitas medidas em operarios da construcao civil a respeito da taxa de hemoglobinano sangue(em gramas/cm3):

11.10 12.20 11.70 12.50 13.90 12.30 14.40 13.60 12.70 12.6011.30 11.70 12.60 13.40 15.20 13.20 13.00 16.90 15.80 14.7013.50 12.70 12.30 13.50 15.40 16.30 15.20 12.30 13.70 14.10

a) Organize os dados em faixas de tamanho 1 a partir do 11.

b) Construa o histogrma.

c) Determine o terceiro quartil e a mediana.

d) Taxas abaixo de 12 ou acima de 16 sao consideradas alteradas e requerem aompa-nhamento medico. Obtenha a tabela de frequencia da variavel Acompanhamento

Medico com duas opcoes sim ou nao.

Resposta:

a) Separando os dados em classes de tamanho 1, obtemos 5 classes

> range(hem)

[1] 11.1 16.9

> table(ordered(cut(hem, 11:17)))

(11,12] (12,13] (13,14] (14,15] (15,16] (16,17]

4 10 7 3 4 2

b) O Histograma e representado na Figura 8

> hist(hem, main = "")

c) Atravez do comando a seguir, podemos verificar a mediana o terceiro quartil e outrasmedidas resumo.

> summary(hem)

Min. 1st Qu. Median Mean 3rd Qu. Max.

11.10 12.35 13.30 13.46 14.32 16.90

d) Obtemos a tabela de acompanhamento medico substituindo os valores numericos,pelos caracteres sim e nao de acordo com a situacao, como percebe-se nos comandosa seguir.

> hem[hem < 12 | hem > 16] <- "sim"

> hem[hem != "sim"] <- "nao"

> table(hem)

hem

nao sim

24 6

14

Page 15: Probabilidade e Estatisti_cap1_exercicios Resolvidos

11 12 13 14 15 16 17

02

46

810

Figura 8: Histograma sobre a Taxa de Hemoglobina

Clube 1 2 3 4 5 6 7 8 9 10Gols 32 42 73 35 79 57 37 52 35 25

Clube 11 12 13 14 15 16 17 18 19 20Gols 55 70 42 41 63 66 74 29 47 53

14. O numero de gols marcados no ultimo campeonato da Federacao Paulista de Futebolpelos 20 clubes participantes nos seus 38 jogos e uma variavel com os seguintes valores:

a) Classifique a variavel. Voce acha rasoavel construir uma tabela de frequencia deacordo com a classificacao dada?

b) Construa uma tabela de frequencia agrupando as observacoes em intervalos de com-primento 10 a partir de 20(nao esqueca de indicar claramente os intervalos).

c) obtenha o histograma.

d) Que porcentagem dos clubes marcaram mais de 38 gols?

Resposta:

a) A variavel e quantitativa ordinal, nao parece interessante construir uma tabela defrequencia com os valores dados, pois eles estariam pouco resumidos e seria quase amesma coisa que olhar para os valores originais.

b) A tabela de frequencia iniciando em 20 e de comprimento 10 e obtida a seguir.

> range(gols)

15

Page 16: Probabilidade e Estatisti_cap1_exercicios Resolvidos

[1] 25 79

> table(ordered(cut(gols, 2:8 * 10)))

(20,30] (30,40] (40,50] (50,60] (60,70] (70,80]

2 4 4 4 3 3

c) O Histograma e obtido na Figura 9

> hist(gols)

Histogram of gols

20 30 40 50 60 70 80

01

23

4

Figura 9: Taxa de Hemoglobina

d) Observamos na Figura 10 que 0.7 dos times marcaram mais que 38 gols

> por <- length(gols[gols > 38])/length(gols)

> por

[1] 0.7

> hist(gols, main = "")

> rect(c(38, 4:7 * 10), rep(0, 5), 4:8 * 10, c(4, 4, 4, 3, 3),

+ col = "gray")

> legend("topright", c("> 38 gols", "< 38 gols"), fill = c("gray",

+ "white"))

16. O ındice de germinacao e um dos principais fatores para definir a qualidade das sementes.Ele e determinado em experimento cientıfico conduzido pelo fabricante e regulamentadopelos orgaos fiscalizadores. Um fabricante afirma que o ındice de germinacao de suassementes de milho e de 85%. Para verificar tal afirmacao, uma cooperativa de agricul-tores sorteou 100 amostras com 100 sementes em cada uma e anotou a porcentagem degerminacao em cada amostra.

16

Page 17: Probabilidade e Estatisti_cap1_exercicios Resolvidos

20 30 40 50 60 70 80

01

23

4 > 38 gols< 38 gols

Figura 10: Numero de gols.

V1(60,75] 8(75,80] 20(80,85] 42(85,90] 18(90,95] 10

(95,100] 2

a) Faca uma representacao grafica da tabela acima.

b) Construa o box-plot

c) Comente a afirmacao do fabricante.

Resposta:

Primeiramente suponho que os dados sao o ponto medio de cada classe, e em seguidamonto as classes atraves desses valores, e uma suposicao bastante valida para asanalises a seguir.

> freq <- c(8, 20, 42, 18, 10, 2)

> pm <- c(67.5, 0:4 * 5 + 77.5)

> sgerm <- rep(pm, freq)

> sgerm.tb <- table(ordered(cut(sgerm, c(60, seq(75, 100, by = 5)))))

> sgerm.tb

(60,75] (75,80] (80,85] (85,90] (90,95] (95,100]

8 20 42 18 10 2

17

Page 18: Probabilidade e Estatisti_cap1_exercicios Resolvidos

a) Os dados sao continuos, mas as classes podem ser tratadas como dados discretose podemos melhor visualizar os dados em um grafico de barras, mostrado pela Fi-gura 11.

> barplot(sgerm.tb)

(60,75] (75,80] (80,85] (85,90] (90,95] (95,100]

010

2030

40

Figura 11: Indice de germinacao de sementes de milho do fabricante.

b) O Box-plot e mostrado na Figura 12

> boxplot(sgerm)

c) Para verificar se a afirmacao do fabricante e rasoavel poderia ser feito um testede hipoteses, mas isso e visto apenas no capitulo 8, entao intuitivamente podemosperceber que em media a germinacao e bastante proxima da afirmada pelo fabricante.

> mean(sgerm)

[1] 82.5

> rm("freq", "pm", "sgerm", "sgerm.tb")

18. Num estudo sobre rotatividade de mao-de-obra na industria, anotou-se o numero deempregos nos ultimos 3 anos para operarios especializados.

a) Construa o diagrama de barra correspondente a cada tabela usando a porcentagemno eixo das ordenadas.

b) Junte as informacoes das duas tabelas em uma so e obtenha um diagrama de barrasda rotatividade de mao-de-obra na industria (sem diferenciar a especializacao).

18

Page 19: Probabilidade e Estatisti_cap1_exercicios Resolvidos

7075

8085

9095

Figura 12: Box-plot sobre as germinacoes.

c) Voce acha que os trabalhadores especializados trocam menos de emprego? Justifique.

Resposta:

a) Os histogramas sao mostrados na Figura 13

> par(mfrow = c(1, 2))

> hist(esp, breaks = 0:5, freq = F, main = "especializados")

> hist(nesp, breaks = 0:5, freq = F, main = "n~ao especializados")

> par(mfrow = c(1, 1))

especializados

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

não especializados

0 1 2 3 4 5

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Figura 13: Rotatividade de mao de obra na industria.

19

Page 20: Probabilidade e Estatisti_cap1_exercicios Resolvidos

b) Podemos observar o diagrama de barras na Figura 14

> barplot(table(c(nesp, esp)), main = "")

1 2 3 4 5

010

020

030

040

050

0

Figura 14: Rotatividade de mao de obra na industria.

c) Percebemos, atraves do item a, que os trabalhadores especializados trocam menos deemprego do que os nao especializados, isso esta no fato de termos uma quantidademaior de especializados com menor variacao de empregos.

20. Um exame vestibular para uma faculdade tem 80 nquestoes, sendo 40 de portugues e 40de matematica. Para os 20 melhores classificados, apresentamos o numero de acertos emcada disciplina, em ordem decrescente do total de pontos.

a) Organize uma tabela de frequencia para cada variavel.

b) Faca uma representacao grafica das tabelas obtidas em (a).

c) Construa a tabela de frequencia da variavel total de pontos.

d) Comente sobre a afirmacao: os aprovados sao melhores em portugues do que emmatematica.

Resposta:

O numero de acerto em cada disciplina de cada aluno e apresentado a seguir.

> Port <- c(35, 35, 34, 32, 31, 30, 26, 26, 24, 23, 23, 12, 11,

+ 20, 17, 12, 14, 20, 8, 10)

> Mat <- c(31, 29, 27, 28, 28, 26, 30, 28, 25, 23, 21, 32, 31,

+ 20, 21, 25, 20, 13, 23, 20)

20

Page 21: Probabilidade e Estatisti_cap1_exercicios Resolvidos

Histogram of Port

5 10 15 20 25 30 35

01

23

45

Histogram of Mat

10 15 20 25 30 35

01

23

45

67

Figura 15: Comparacao de Notas.

> notas <- t(matrix(c(Port, Mat), ncol = 2, nrow = 20))

> dimnames(notas) <- list(c("Port", "Mat"), 1:20)

> notas

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Port 35 35 34 32 31 30 26 26 24 23 23 12 11 20 17 12 14 20 8 10

Mat 31 29 27 28 28 26 30 28 25 23 21 32 31 20 21 25 20 13 23 20

a) Por termos poucos dados, parece ser de facil visualisacao, por isso nao e necessarioque os dados sejam separados em classes(mas poderiam), as tabelas sao apresentadasa seguir.

> table(Port)

Port

8 10 11 12 14 17 20 23 24 26 30 31 32 34 35

1 1 1 2 1 1 2 2 1 2 1 1 1 1 2

> table(Mat)

Mat

13 20 21 23 25 26 27 28 29 30 31 32

1 3 2 2 2 1 1 3 1 1 2 1

b) A Figura 15 representa as tabelas obtidas no item a.

> hist(Port, freq = T)

> hist(Mat, freq = T)

c) O total de pontos de cada aluno, pode ser obtido com a soma entre as duas linhas, querepresentam as disciplinas, da matriz gerada anteriormente, talvez fosse interessantecolocarmos os dados em classes, mas por termos pouca informacao nao consideronecessario.

> table(notas[1, ] + notas[2, ])

21

Page 22: Probabilidade e Estatisti_cap1_exercicios Resolvidos

30 31 33 34 37 38 40 42 44 46 49 54 56 59 60 61 64 66

1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1

d) Nota-se, nos histogramas do item b, que poucos alunos tiraram notas mais altas emmatematica, o que demonstra que eles se sairam melhor em portugues.

22. Deseja-se comparar tres tecnicas para extracao do siso. Cada uma das tecnicas foi aplicadaem 20 pacientes e os resultados sao apresentados a seguir.

A B C

56

78

910

a) Encontre valores aproximados para a mediana de cada tecnica.

b) O intervalo interquartil e definido como a diferenca entre o terceiro e o primeiroquartis. Calcule seu valor para cada uma das tecnicas e comente.

c) Discuta a variabilidade do tempo de recuperacao em cada tecnica.

d) Se voce e otimista, qual tecnica escolheria?

Resposta:

a) Pelo box-plot apresentado no livro, encontramos medianas de aproximadamente 6,7,9,5 e 8 para as variaveis A, B e C.

b) O intervalo interquartil pode ser obtido observando o grafico do livro. Entre ospacientes submetidos a cada uma das tres tecnicas, seu valor e de aproximadamente2, 0,5 e 1,5 dias para as tecnicas A, B e C.

c) O tempo de recuperacao para a tecnica A e entre 4,8 e 8,7 dias, para a B e entre 8,7e 10 dias e para a C e entre 6 e 9,5 dias, esta variacao e dada pelas caracteristicasde cada tecnica.

d) Escolheria a tecnica A, pois tem um possui um grupo razoavel com menor tempo derecuperacao do que as outras tecnicas.

22

Page 23: Probabilidade e Estatisti_cap1_exercicios Resolvidos

24. (Use o computador) Os itens seguintes referem-se aos dados contidos no arquivo de nomecancer.txt. Esse arquivo contem os dados de uma pesquisa sobre incidencia de cancer e eapresentado em 9 colunas representando as seguintes variaveis de interesse:

coluna 1:identificacao do paciente.

coluna 2:diagnostico:

1 = falso-negativo:diagnostico como nao tendo a doenca quando na verdade tinham.

2 = negativo: diagnostico como nao tendo a doenca quando de fato nao a tinham

3 = positivo:diagnosticados como tendo a doenca.

4 = falso-positivo:diagnosticados como tendo a doenca quando na verdade naotinham.

coluna 3:idade

coluna 4:espectro quımico da analise de sangue-alkaliine phosphatose(AKP).

coluna 5:concentracao de fosfato no sangue(P).

coluna 6:enzima, lactate dehydrogenase(LDH).

coluna 7:albumina(ALB).

coluna 8:nitrogenio na ureia(N).

coluna 9:glicose(GL).

a) Escolha 3 variaveis dentre as colunas 2 a 9. Classifique-as e faca o histograma e atabela de frequencia para cada uma delas(se necessario, crie ate cinco faixas).

b) Uma afirmacao feita por alguns medicos e a de que o grupo dos false-positivos e maisjovem do que o dos falso-negativos. Para os dados dessa pesquisa, o que voce diriaa respeito? Justifique sua resposta baseando-se em graficos e tabelas de frequencia.

Resposta:

Os arquivos do livro sao encontrados em http://www.ime.usp.br/~noproest, ondetemos cancer.xls.

> cancer <- read.table("http://www.ime.usp.br/~noproest/dados/cancer",

+ head = T)

> head(cancer)

Ident Grupo Idade AKP P LDH ALB N GL

1 1 1 71 8.0 3.2 7.8 62 6 113

2 2 1 66 10.5 5.1 50.1 57 9 93

3 3 1 83 8.5 3.3 15.3 53 21 109

4 4 1 52 12.8 3.2 18.8 45 14 91

5 5 1 61 7.4 4.3 12.9 69 19 78

6 6 1 54 8.1 2.7 15.9 57 10 122

> attach(cancer)

a) O Grupo e uma variavel qualitativa nominal, GL e quantitativa continua e Idade euma quantitativa continua. A Figura 16 mostra os histogramas das tres variaveis.

23

Page 24: Probabilidade e Estatisti_cap1_exercicios Resolvidos

> table(Grupo)

> range(Idade)

> table(ordered(cut(Idade, 0:5 * 20 + 5)))

> range(GL)

> table(ordered(cut(GL, 0:5 * 60, include.lowest = T)))

> hist(Grupo, breaks = 0:4, main = "")

> hist(Idade, breaks = 0:5 * 20 + 5, main = "")

> hist(GL, breaks = 0:5 * 60, main = "")

Grupo

Fre

quen

cy

0 1 2 3 4

050

100

150

Idade

Fre

quen

cy

20 40 60 80 100

020

4060

8010

014

0

GLF

requ

ency

0 50 100 150 200 250 300

050

100

150

200

250

300

Figura 16: Histogramas de idade, grupo e glicose(GL).

b) Pela Figura 17, podemos perceber que o grupo com falso-positivos e um pouco maisjovem do que o outro, pois temos um maior quantidade de pessoas mais novas nessegrupo. y

> range(Idade[Grupo == 1])

[1] 18 101

> range(Idade[Grupo == 4])

[1] 9 88

> table(ordered(cut(Idade[Grupo == 1], 0:9 * 10 + 15)))

(15,25] (25,35] (35,45] (45,55] (55,65] (65,75] (75,85] (85,95]

5 7 8 9 13 9 2 2

(95,105]

1

> table(ordered(cut(Idade[Grupo == 4], 0:8 * 10 + 5)))

(5,15] (15,25] (25,35] (35,45] (45,55] (55,65] (65,75] (75,85]

1 9 3 7 18 11 10 5

> hist(Idade[Grupo == 1], freq = F, main = "falso-negativo")

> hist(Idade[Grupo == 4], freq = F, main = "falso-positivo")

> detach(cancer)

24

Page 25: Probabilidade e Estatisti_cap1_exercicios Resolvidos

falso−negativo

20 40 60 80 100

0.00

00.

010

0.02

0

falso−positivo

0 20 40 60 80

0.00

00.

005

0.01

00.

015

0.02

00.

025

Figura 17: Comparativo de idade entre falso-negativo e falso-positivo

> rm("cancer")

26. (Use o computador) Os itens seguintes referem-se aos dados contidos no arquivo de nomeaeusp.txt, que contem parte dos dados de uma pesquisa, realizada pela Associacao dosEducadores da USP(AEUSP), sobre aspectos socio-economicos e culturais de comunidadesde baixa renda da regiao do Butanta, Sao Paulo. O questionario foi respondido por umdos moradores da casa sorteada para participar da pesquisa. Os dados estao organizadosda seguinte forma:

coluna 1:Numero do questionario(Num).

coluna 2:COmunidade(Comun).

coluna 3:Sexo(Sexo).

1 = masculino;

2 = feminino;

coluna 4:Faixas de idade, em anos(Idade):

1 = [14, 25);

2 = [25, 35);

3 = [35, 45);

4 = [45,∞);

coluna 5:Estado civil(Ecivil).

1 = solteiro;

2 = casado;

3 = divorciado;

4 = viuvo;

5 = outro;

25

Page 26: Probabilidade e Estatisti_cap1_exercicios Resolvidos

coluna 6:Regiao de procedencia(Reproce).

coluna 7:Tempo de residencia em Sao PAulo, em anos(Temposp).

coluna 8:Numero de residentes na casa(Resid).

coluna 9:Trabalho(Trab):

1 = sim;

2 = nao;

3 = aposentado;

coluna 10:Tipo de trabalho, so para os que trabalham(Ttrab):

1 = empregado com carteira;

2 = empregado sem carteira;

3 = profissional liberal;

4 = autonomo;

5 = rural;

coluna 11:Idade em que comecou a trabalhar, em anos(Itrab).

coluna 12:Renda familiar em faixa de reais(Renda).

1 = [0, 150);

2 = [150, 300);

3 = [300, 450);

4 = [450, 900);

5 = [900, 1500);

6 = [1500,∞);

coluna 13:Acesso a computador(Acompu):

1 = sim;

2 = nao;

coluna 14:Serie em que parou de estudar(Serief).

Branco = nao parou de estudar;

1 a 8 = series do ensino fundamental;

9 a 12 = series do ensino medio.

a) Explore o conjunto de dados e classifique as variaveis. Verifique se existem variaveiscom valores incompatıveis ou invalidos e proponha alternativas para a solucao doproblema. Observe que existem variaveis com respostas em branco e discuta porqueisso acontece.

b) Estude a variavel Renda em funcao de Comun. Voce diria que os moradores daCohab e do Jardim d’Abril tem a mesma renda? Justifique sua resposta baseando-seem graficos e tabelas de frequencia.

c) Verifique se o comportamento da variavel Temposp e influenciado pelo tipo de tra-balho(variavel Trab).

26

Page 27: Probabilidade e Estatisti_cap1_exercicios Resolvidos

d) Faca um box-plot para a variavel Itrab.

Resposta:

> se <- read.xls("aeusp.xls", head = T)

[1] "/tmp/Rtmp55nwWQ/file69e7f3e5.csv"

> head(se)

Num Comun Sexo Idade Ecivil X.Reproce X.Temposp X.Resid Trab Ttrab X.Itrab

1 1 JdRaposo 2 4 4 Nordeste 21 9 3 NA 20

2 2 JdRaposo 2 1 1 Sudeste 24 9 1 1 14

3 3 JdRaposo 2 2 1 Nordeste 31 3 1 1 14

4 4 JdRaposo 1 2 2 Nordeste 10 3 1 4 10

5 5 JdRaposo 2 4 2 Nordeste 31 6 1 1 11

6 6 JdRaposo 2 4 2 Sudeste 24 4 2 NA 15

X.Renda X.Acompu X.Serief

1 1 2 1

2 2 2 7

3 5 2 7

4 5 2 11

5 6 1 4

6 4 2 4

> attach(se)

a) Classificacao das veriaveis:

quantitativas continuas:Tempo de residencia em SP e Idade que comecou atrabalhar.

quantitativas discretas:Faixa de Idade, Numero de residencias e faixa da rendafamiliar.

qualitativas nominais:Comunidade, sexo, estado civil, regiao de procedencia,trabalho, tipo de trabalho e acesso ao computador.

qualitativas ordinais:Serie em que parou de estudar.

A seguir faco o teste para verificar se todos os dados apresentados, sao possiveis, paraos dados nao coerentes substituo por NA. Existem outras atitudes que poderiam sertomadas conforme o caso, os testes de verificacao tambem poderiam ser de variasformas, poderiamos por exemplo tentar perceber se o dado esta errado por erro dedigitacao, ou por que a resposta do individuo foi incoerente, ou pelo pesquisador naoter colotado os dados de forma correta, mas aqui vou assumir que seja o suficientesubstituir por NA.

> with(se, Sexo[Sexo != 1 & Sexo != 2] <- NA)

> with(se, Idade[Idade < 1 | Idade > 4] <- NA)

> with(se, Ecivil[Ecivil < 1 | Ecivil > 5] <- NA)

> with(se, X.Temposp[X.Temposp[Idade == 1] > 25] <- NA)

> with(se, X.Temposp[X.Temposp[Idade == 2] > 35] <- NA)

> with(se, X.Temposp[X.Temposp[Idade == 3] > 45] <- NA)

> with(se, X.Temposp[X.Temposp[Idade == 4] > Inf] <- NA)

27

Page 28: Probabilidade e Estatisti_cap1_exercicios Resolvidos

> with(se, Idade[X.Temposp == NA] <- NA)

> with(se, Trab[Trab < 1 | Trab > 3] <- NA)

> with(se, Ttrab[Ttrab < 1 | Ttrab > 5] <- NA)

> with(se, X.Renda[X.Renda < 1 | X.Renda > 6] <- NA)

> with(se, X.Acompu[X.Acompu < 1 | X.Acompu > 2] <- NA)

> with(se, X.Serief[X.Serief < 1 | X.Serief > 12] <- NA)

As variaveis em branco podem aparecer por que o item nao foi respondido pelomorador.

b) Pelos histogramas apresentados na Figura 2 e possivel perceber que o Jardim d’Abriltem uma renda um pouco menor

> ren.c <- X.Renda[Comun == "Cohab"]

> ren.j <- X.Renda[Comun == "JddAbril"]

> table(ren.c)

ren.c

1 2 3 4 5 6

3 7 9 36 17 14

> table(ren.j)

ren.j

1 2 3 4 5 6

5 16 10 14 4 1

> hist(ren.c, breaks = 0:6, main = "Cohab", freq = F)

> hist(ren.j, breaks = 0:6, main = "Jardim d'Abril", freq = F)

Cohab

0 1 2 3 4 5 6

0.0

0.1

0.2

0.3

0.4

Jardim d’Abril

0 1 2 3 4 5 6

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Figura 18: Comparativo de renda entre os dois bairros.

c) Podemos verificar na Figura 3 que o tempo de residencia em SP independe do tipo detrabalho, pois o tipo 1 e 4 acumulam aproximadamente o mesma quantia de pessoascom o limite de idade proximo e sao bem distintos.

28

Page 29: Probabilidade e Estatisti_cap1_exercicios Resolvidos

1 2 3 4

010

2030

4050

1 2 3 4

010

2030

4050

Figura 19: Camparacao entre tempo em SP e tipo de trabalho.

> boxplot(X.Temposp ~ Ttrab)

> stripchart(X.Temposp ~ Ttrab, vertical = TRUE)

d) O boxplot esta representado na Figura 20.

> boxplot(X.Itrab, main = "")

510

1520

2530

35

Figura 20: Idade em que comecou a trabalhar.

> detach(se)

> rm("se", "ren.c", "ren.j")

29

Page 30: Probabilidade e Estatisti_cap1_exercicios Resolvidos

Existem muitas solucoes para um mesmo exercıcio, em alguns casos acho interessante fazeruma demonstracao de mais casos possıveis.

No caso em que recebemos uma tabela de classe e precisamos tratar dos dados, percebo 3solucoes, uma delas seria pegar o ponto medio de cada classe e gerar ele conforme a frequenciaque a classe a parece, foi essa a possicao que assumi e esta resolvido em exercıcios como o 4 dasecao 1.2, outras solucoes seriam pegar numeros espacados igualmente dentro de cada classe,ou entao pegar numeros aleatorios dentro de cada classe, vou usar o exercıcio citado para fazeristo.

1.2.4

Solucao 2

Dentro da primeira classe tem 14 numeros igualmente espacados, e assi ocorre para cadaclasse com a quantidade de numeros relativos a sua frequencia.

> freq <- c(14, 28, 27, 11, 4)

> x <- paste("a", 1:5, sep = "")

> for (i in 1:5) (assign(x[i], seq((0:4 * 2.001)[i], (1:5 * 2)[i],

+ l = freq[i])))

> y <- matrix(unlist(sapply(x, get)))

> table(ordered(cut(y, seq(0, 10, by = 2), include.lowest = T)))

[0,2] (2,4] (4,6] (6,8] (8,10]

14 28 27 11 4

> hist(y, breaks = 0:5 * 2)

Solucao 3

Muito semelhante a anterior, mas agora os numeros foram gerados de forma aleatoriadentro de cada classe.

> freq <- c(14, 28, 27, 11, 4)

> x <- paste("a", 1:5, sep = "")

> for (i in 1:5) (assign(x[i], runif(freq[i], (0:4 * 2.001)[i],

+ (1:5 * 2)[i])))

> y <- matrix(unlist(sapply(x, get)))

> table(ordered(cut(y, seq(0, 10, by = 2), include.lowest = T)))

[0,2] (2,4] (4,6] (6,8] (8,10]

14 28 27 11 4

> hist(y, breaks = 0:5 * 2)

E importante observar que as duas primeiras solucoes fornecem as mesmas medias que olivro ensina calcular, ja a solucao 3 a media pode se distinguir, pois os dados supostosforam gereados aleatoriamente dentro de cada classe.

30