Bright Blue Gradients - Blog de Computação | Blog da ... · causa Frequência Acidente 29.601...

51
Bioestatística Aula 2 Prof. Alessandra Bussador

Transcript of Bright Blue Gradients - Blog de Computação | Blog da ... · causa Frequência Acidente 29.601...

Bioestatística

Aula 2

Prof. Alessandra Bussador

VARIÁVEIS

CATEGÓRICA(qualitativa)

NUMÉRICA(quantitativa)

Nominal Ordinal Discreta Continua

2

Exercício• Classificar cada uma das seguintes variáveis (qualitativa

nominal, qualitativa ordinal, quantitativa discreta ou contínua)

• População: válvulas fabricadas em certa industria• Variável: numero de válvulas defeituosas em cada lote de 100 válvulas

• População: curso de matemática de nível superior

• Variável: colocação no provão do mec

• População: bois da raça nelore• Variável: peso de abate

• População: televisão de certa marca• Variável: opinião dos compradores acerca da qualidade

Componentes das Tabelas• As tabelas têm:• Título: explica o que a tabela contém;• Corpo: é formado por linhas e colunas de dados;• Cabeçalho: especifica o conteúdo das colunas;• Coluna Indicadora: especifica o conteúdo das linhas.• Fonte: especifica onde foi retirado

Componentes das TabelasCasos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993

Fonte: MS/FIOCRUZ/SINITOX

causa Frequência

Acidente 29.601

Abuso 2.604

Suicídio 7.965

Profissional 3.735

Outras 1.959

Ignorada 1.103

Título

cabeçalho

corpo

Fonte

Componentes das Tabelas• Toda tabela deve ser delimitada por traços horizontais.

• Podem ser usados traços na vertical para separaras colunas, mas não devem ser feitos traços verticais para delimitar a tabela. O cabeçalho é separado do corpo por um traço horizontal

Componentes das Tabelas

• As tabelas com grande número de dados são cansativas e não dão ao leitor visão rápida e global fenômeno.

• Peso ao nascer de nascidos vivos, em quilogramas

Tabelas• Dados brutos: É a listagem dos dados originais

• Rol: é a listagem dos valores observados em ordem crescente, ou decrescente

• Frequência: medida que qualifica a ocorrência de valores de uma variável

• Distribuição de frequências: consiste em associar os valores que uma variável assume com suas respectivas frequências de ocorrência

.Classes: intervalos numéricos que representam valores de uma variável

Tabelas de Distribuição de Frequências

• Construa uma tabela de distribuição de frequência usando as regras estabelecidas anteriormente, com o exemplo abaixo:

55 69 43 61 7562 65 50 67 6765 88 66 70 5892 60 76 54 6778 75 76 43 5650 78 58 60 5285 69 52 62 5375 56 64 50 60

Tabelas de Distribuição de Frequências

• Como estabelecer o número de classe de uma tabela de distribuição de frequências?

• A sugestão é utilizar a fórmula de Sturges:

k=1+3,222×log n.

• Ou pela fórmula de recurso: 

K ≈ √n 

Onde n é a quantidade dados colhidos

Tabelas de Distribuição de Freqüências

• Determinação da amplitude de um intervalo de classes:

h=(Xmáx-Xmin)/k

• Para o exemplo da tabela anterior

h=(92-43)/6=8,16

• Caso o resultado da divisão não seja exato, sugerimos que seja feito o arredondamento do valor.

Tabelas de Distribuição de Frequências

Classe Fi Fr % Fac Xi

43,0 ├ 52,0 5

52,0 ├ 61,0 12

61,0 ├ 70,0 12

70,0 ├ 79,0 8

79,0 ├ 88,0 1

88,0 ├ 97,0 2

TOTAL 40

Tabelas de Distribuição de Freqüências

• Determinação da Frequencia relativa• É dada pela frequencia absoluta em relação ao total de elementos, ou

seja, Fr = Fi / n, em que n é o número de elementos da amostra

• Porcentagem %• É dada pela frequencia relativa Fr multiplicada por 100, ou seja, % =

Fi / n x 100

• Frequencia acumulada Fac• É dada pelas frequencias absoluta, relativa, porcentagem ou acumulada

de acordo com cada categoria

• Ponto Médio da Classe Xi = (Li + Ls)/2 onde Li = limite inferior e Ls é o limite superior da classe

Tabelas de Distribuição de Frequências

Classe Fi Fr % Fac Xi

43,0 ├ 52,0 5 0,125 12,50 12,5 47

52,0 ├ 61,0 12 0,300 30,00 43,5 56

61,0 ├ 70,0 12 0,300 30,00 72,5 65

70,0 ├ 79,0 8 0,200 20,00 92,5 74

79,0 ├ 88,0 1 0,025 2,50 95 83

88,0 ├ 97,0 2 0,050 5,00 100 92

TOTAL 40 1 100,00

Em uma turma de uma escola de Medicina, um aluno registrou o batimento cardíaco por minuto de seus colegas, obtendo os seguintes dados:

75 76 77 78 79 80 85 88 90 92 75 76 78 78 90 7678 76 90 92 75 76 77 8585 85 88 77 77 92 90 7885 79 90 76 78 76 77 9290 76 85 80 90 80 78 76

Observe que nesta tabela, muitos valores aparecem repetidas vezes. Mais ainda, os dados encontram-se dispostos de modo aleatório, complicando uma análise mais detalhada de seus elementos.

Situação-problema:

Número de batimento cardíacos por minuto

75 76 77 78 79 80 85 88 90 92

Frequência 3 9 5 7 2 3 6 2 7 4

Deste modo, podemos expressar os dados de acordo com a seguinte distribuição de frequências:

Observamos, por exemplo, que ao todo 5 alunos da turma apresentaram 77 batimentos cardíacos por minuto.

Observamos ainda que a menor frequência cardíaca observada foi 75 batimentos por minuto e que a maior foi 92 batimentos por minuto, correspondendo a 3 e 4 alunos, respectivamente.

Mais ainda, podemos afirmar que 76 batimentos por minuto foi a frequência cardíaca que apareceu mais vezes na tabela.

Como vimos, a distribuição de frequências é uma ferramenta que facilita a descrição de um modo mais resumido de nossa população ou amostra e proporciona uma primeira análise que valores de uma determinada variável em estudo pode assumir.

Para obter uma análise mais aprofundada, podemos fazer uso de medidas que expressam tendências de determinada característica ou valores de nossa amostra.

Deste modo, estudaremos algumas medidas de tendência central, que de modo simplificado, trazem consigo informações do comportamento geral da população ou amostra estudada. Assim, consideramos as seguintes medidas estatísticas:

Média Aritmética Média Aritmética PonderadaModa Mediana

Medidas Estatísticas

A média aritmética, ou simplesmente média, é uma medida de tendência central que se comporta com o ponto de equilíbrio dos valores obtidos a partir de um conjunto de dados.

Dentre todas as medidas de tendência, talvez seja a mais popular, pois desde o início de nossa vida escolar somos obrigatoriamente apresentados a ela e nos habituamos com seu cálculo, que por ser simples é bastante utilizada no nosso cotidiano.

Quando nossa amostra ou população apresenta uma distribuição de frequências aproximadamente simétrica e não apresenta valores muito deslocados, isto é, valores extremamente afastados uns dos outros, sua utilização para estimar informações da amostra se torna mais eficiente.

Média Aritmética

Média Aritmética

Relação entre soma e contagem; Centro geométrico de um conjunto de dados. µ = população X = amostra

média=soma

contagem μ ou x̄=∑i=1

n

x

n

Para calcular a média aritmética de dois ou mais dados numéricos, dividimos a soma desses números pela quantidade dos números dados.

Vejamos com isso se aplica na nossa situação-problema:

Considerando inicialmente as frequências cardíacas que apareceram, isto é, desconsideramos as frequências de cada uma delas.

Assim, os valores para os quais calcularemos a média aritmética serão:

Número de batimento cardíacos por minuto

75 76 77 78 79 80 85 88 90 92

Frequência 3 9 5 7 2 3 6 2 7 4

.9290,88,85,80,79,78,77,76,75 e

Média Aritmética

Assim, podemos ver que a média aritmética, ou simplesmente a média, será dada por:

De modo geral, podemos dizer que na média a frequência cardíaca dos alunos da turma foi de 82 batimentos por minuto. Isso significa dizer que se todos os batimentos fossem iguais, esse seria o valor encontrado.

.8210

820

10

92908885807978777675

Média

Média Aritmética

Para calcular a média aritmética ponderada dos dados numéricos de uma tabela de distribuição de frequências, dividimos a soma desses números, multiplicados pelas suas respectivas frequências, pela quantidade total dos dados, isto é, pela soma de todas as frequências.

Voltemos à nossa situação-problema:

Agora, consideramos as frequências cardíacas que apareceram na tabela de distribuição de frequências, bem como suas respectivas frequências.

Ou seja, calculamos a média aritmética ponderada utilizando os valores dos batimentos cardíacos que aparecem na tabela, bem como suas respectivas frequências.

Média Aritmética Ponderada

Assim, temos que sua média aritmética ponderada será dada por:

Observe que este valor representa melhor os valores encontrados, pois dá a devida contribuição de todos os valores de batimentos cardíacos presentes na tabela.

Número de batimento cardíacos por minuto

75 76 77 78 79 80 85 88 90 92

Frequência 3 9 5 7 2 3 6 2 7 4

.7,8148

3922

4726327593

492790288685380279778577976375

Média

Média Aritmética Ponderada

Cuidado com a Média

Empresa paga R$ 400,00 aos estagiários de Administração. Ela quer saber se está pagando muito ou pouco. Para isso coletou dados de outras 6 empresas.

Dados = {300; 350; 6.000; 340; 310; 380} Média = 7680 = R$ 1.280,00• 6 Muito Pouco!

Cuidado com a Média

Empresa paga R$ 400,00 aos estagiários de Administração. Ela quer saber se está pagando muito ou pouco. Para isso coletou dados de outras 6 empresas.

Dados = {300; 350; 6.000; 340; 310; 380} Média = 7680 = R$ 1.280,00• 6 Muito Pouco!

Por definição, a moda de uma coleção de dados amostrais ou populacionais é simplesmente o valor que aparece o maior número de vezes, isto é, aquele que apresenta a maior frequência observada na tabela de distribuição de frequências.

Em amostras grandes ou com valores muito repetidos, há casos em que a moda não é única, situações em que dois ou mais valores amostrais tenham ocorrido com a mesma frequência e esta quantidade de ocorrências seja máxima.

Assim, dependendo de cada caso, podemos ter distribuições monomodais, ou simplesmente modais, bimodais, trimodais ou ainda multimodais. Pode acontecer ainda o caso em que todos os valores amostrais tenham apresentado o mesmo número de ocorrências, significando que neste caso não há moda, pois nenhum valor se destacou, configurando assim uma distribuição amodal.

Moda

Moda é o elemento (ou os elementos) que aparece com a maior frequência na lista de todos os dados pesquisados, isto é, aqueles elementos que se destacam pela maior quantidade na tabela de distribuição de frequências analisada.

Assim, vejamos nossa tabela de distribuição de frequências da situação-problema:

Observe que 76 batimentos cardíacos por minuto é o valor que mais aparece na tabela e que sua frequência é 9.

Neste caso, dizemos 76 é a moda dessa amostra de dados estatísticos.

Número de batimento cardíacos por minuto

75 76 77 78 79 80 85 88 90 92

Frequência 3 9 5 7 2 3 6 2 7 4

Moda

Agora, considerando uma outra distribuição de frequências, poderíamos obter resultados diferentes:

Neste caso, temos uma distribuição trimodal com os valores de 77, 80 e 90 batimentos cardíacos por minuto.

Por outro lado a distribuição abaixo é amodal, visto que todos os valores apresentam a mesma frequência:

Número de batimento cardíacos por minuto

75 76 77 78 79 80 85 88 90 92

Frequência 2 4 8 7 2 8 6 2 8 4

Número de batimento cardíacos por minuto

75 76 77 78 79 80 85 88 90 92

Frequência 5 5 5 5 5 5 5 5 5 5

Moda

A mediana de uma distribuição de frequências é definida como o valor ocupante da posição central da coleção ordenada de modo crescente ou decrescente dos dados amostrais.

Deste modo, sua principal propriedade é dividir o conjunto das informações em dois subconjuntos iguais com o mesmo número de elementos: os valores que são menores ou iguais à mediana e os valores que são maiores ou iguais à mediana.

Note que se um valor for extremamente deslocado, ou seja, muito afastado dos outros, a mediana não será influenciada por este, ao contrário da média, pois, por definição, é uma medida estatística vinculada à posição ocupada e não à proximidade dos valores apresentados.

Assim, se um valor for extremamente pequeno ou grande, não influenciará no cálculo da mediana.

Mediana

Para calcular a mediana dos dados numéricos de uma tabela de distribuição de frequências, ordenamos estes valores de modo crescente ou decrescente, repetindo-os de acordo com as suas respectivas frequências, e tomamos o valor que divide esta tabela em dois grupos iguais, isto é, com a mesma quantidade de elementos.

De modo simples, se o número de elementos da amostra N for um número ímpar, ou seja, N=2n+1, tomamos o elemento de ordem n+1.

Agora, no caso que este número de elementos é par, N=2n, tomamos a média aritmética dos termos de ordem n e n+1.

Desse modo, a situação-problema tem 48 elementos que a compõem.Assim, tomamos os termos de ordem 24 e 25, respectivamente dados por 79 e 79, e calculamos sua média aritmética, obtendo, assim, o valor da mediana desta amostra como sendo igual a 79.

Mediana

Mediana

Série ordenada (Rol)• {3; 7; 9; 10; 4; 8; 2}• {2; 3; 4; 7; 8; 9; 10}

• {2; 3; 4; 8; 9; 10}E se for par?

Mediana = 6

Usamos a média quando a distribuição dos dados for simétrica (ou quase) e não apresenta valores muito deslocados, visto que é a medida de tendência central mais popular e fácil de ser calculada.

Devemos usar a mediana quando aparecem valores deslocados na distribuição dos dados, pois ela não é influenciada por valores extremos.

Usamos a moda quando existirem variáveis qualitativas e nominais, visto que neste caso é a única medida de tendência central que podemos obter. Além disso, quando queremos evidenciar o valor (ou valores) que mais aparece na distribuição de frequências dos dados.

Quando usar a média, a moda ou a mediana?

1. Uma fábrica do Complexo Industrial de SUAPE para estimar o número de lâmpadas consumidas por ano, registrou o tempo de duração das lâmpadas utilizadas em dias, obtendo a seguinte tabela:

21 25 23 28 19

23 23 20 25 21

20 19 19 20 20

25 28 28 20 21

20 19 19 25 19

a) Construa uma tabela de distribuição de frequências associada a esta tabela;

b) Determine a média aritmética ponderada, obtendo o tempo médio de duração de uma lâmpada;

c) Estime o número de lâmpadas necessárias durante um ano comercial para um ponto de luz desta empresa.

Exercício

Duração de uma lâmpada (em dias) 19 20 21 23 25 28

Frequência 6 6 3 3 4 3

Inicialmente construímos uma tabela de distribição de frequências, respondendo assim o item (a):

(b) Agora, podemos então calcular o tempo médio de duração de uma lâmpada:

(c) Finalmente, podemos estimar o número de lâmpadas necessárias para manter um ponto de luz durante um ano comercial:

.2225

550

343366

328425323321620619diasTM

.1722

360360lâmpadas

TN

M

Solução:

2. O IBOPE pesquisou qual é o esporte preferido pelos moradores de uma certa cidade. Para isto, entrevistou 2.500 pessoas, obtendo o seguinte resultado:

a) Qual é o esporte que apresenta maior frequência nesta tabela?

b) E qual é o esporte que apresenta menor frequência?

c) Qual o percentual da população prefere voleibol?

d) Você saberia dizer qual é o esporte da moda? Justifique sua opinião!

Esporte preferido Número de pessoas

Futebol 650

Voleibol 350

Natação 420

Tênis 280

Basquete 300

Boxe 220

Corrida 280

a) Note que o esporte que apresenta a maior popularidade nesta tabela é o futebol com a preferência de 650 pessoas.

b) Por outro lado, o esporte que apresenta a menor popularidade é o boxe, preferido por 220 pessoas.

c) O percentual da população que prefere o voleibol é

d) O esporte da moda é o futebol, pois como o próprio nome indica é a moda da tabela de frequências acima.

%.1450

7

2500

350

Solução

Esporte preferido Número de pessoas

Futebol 650

Voleibol 350

Natação 420

Tênis 280

Basquete 300

Boxe 220

Corrida 280

3. Insatisfeito com seu salário, um funcionário pesquisou nas empresas vizinhas quanto ganhavam seus colegas que exerciam a mesma função:

1200,00 1400,00 1000,00

1050,00 1500,00 1400,00

1350,00 1100,00 1300,00

1200,00 1300,00 1400,00

a) Construa uma tabela de distribuição de frequências associada aos valores encontrados;

b) Determine o salário médio desses funcionários;

c) Determine o salário modal desses funcionários;

d) Sabendo que um funcionário ganha R$ 1200,00, você acha que ele deve pedir aumento? Justifique!

a) Da tabela ao lado contruímos a seguinte tabela de distribuição de frequências associada aos salários encontrados;

Salário de cargo equivalente

1050,00 1100,00 1200,00 1300,00 1350,00 1400,00 1500,00

Frequência 2 1 2 2 1 3 1

Deste modo, temos que:b) O salário médio destes funcionários é reais.

c) O salário modal dos funcionários é R$ 1400,00.

d) Sim, pois o salário médio e o salário modal encontrados na vizinhança são maiores do que o salário do funcionário.

00,127112

15250MS

Solução1200,00 1400,00 1000,00

1050,00 1500,00 1400,00

1350,00 1100,00 1300,00

1200,00 1300,00 1400,00

4. No edifício em que moro foi feito um censo dos moradores e identificados os jovens com idade entre 15 e 20 anos conforme o seguinte gráfico:

a) Quantos jovens residem no edifício?

b) Calcule a média de idade dos garotos e das garotas, bem como a média de idade dos jovens;

c) Determine a idade modal das garotas, dos garotos e dos jovens do edifício;

d) Calcule a idade mediana dos garotos, das garotas e dos jovens.

a) É fácil ver que no edifício moram 53 garotos e 47 garotas, totalizando 100 jovens.

b) As médias de idades aproximadamente são: 19 anos é a média de idade dos garotos, 18 é a média de idade das garotas e 18 é a média de idade dos jovens.

c) A idade das garotas é bimodal com valores 16 e 19 anos, dos garotos é modal com valor de 20 anos e dos jovens é trimodal com valores 16, 19 e 20 anos.

d) As idades medianas dos garotos, das garotas e dos jovens são todas 18 anos.

Quartis

•Dividem os dados ordenados em quatro partes:

Primeiro Quartil (Q1): valor que faz com que 25% das observações sejam menores e 75% sejam maiores que Q1

Segundo Quartil (Q2): é a MEDIANA – 50% das observações são menores que Q2 e 50% são maiores

Terceiro Quartil (Q3): valor que faz com que 75% das observações sejam menores e 25% sejam maiores que Q3

Dados não agrupados

Q1 = valor que corresponde à posição:

 

 

   

Q2 = valor que corresponde à posição:

  

 

 

Q3 = valor que corresponde à posição:

N+14

2(N+1 )4

3(N+ 1)4

Regras usadas para obter os valores do quartil

Se o ponto de posicionamento for um número inteiro, é só

usar o número correspondente àquela posição

Se o ponto de posicionamento estiver na metade entre 2

números inteiros, a média dos dois números à direita e à

esquerda será o quartil

Se o ponto de posicionamento não for a metade do caminho

entre dois números inteiros, usamos o que estiver mais próximo.

 

Quartis•Os salários mensais para uma amostra de 12 administradores são:

•2.350 2.450 2.550 2.380 2.255 2.210•2.390 2.630 2.440 2.825 2.420 2.380

•Determine os três quartis.

Quartis•Os salários mensais para uma amostra de 12 administradores são:

•2.350 2.450 2.550 2.380 2.255 2.210•2.390 2.630 2.440 2.825 2.420 2.380

•Determine os três quartis.

2.210 2.550 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.630 2.825

Q1 = (N+1) /4 = (12+1)/4 = 13/4 = 3,25 = 3 -> 2.255Q2 = 2(N+1) /4 = 2*13/4 = 6,5 -> (2.380+2.390) / 2 -> 2.385Q3 = 3(N+1) /4 = 3*13/4 = 9,75 -> 2.450

Exercícios Propostos:

1. Uma concessionária de veículos vendeu no primeiro semestre de um ano as quantidades de automóveis indicadas no quadro abaixo:

a) Qual foi o número total de carros vendidos no semestre?

b)Qual foi o número médio de carros vendidos por mês?

c) Quantos carros foram vendidos acima da média no mês de maio?

Mês Jan Fev Mar Abr Mai Jun

Qtd de carros vendidos 38 30 25 36 38 31

d) Tomando como referência os três primeiros meses, faça uma estimativa de quantos carros deveriam ter sido vendidos no primeiro semestre. e) Compare os resultados dos itens (a) e (d). Por que eles não são iguais? Justifique!

Exercícios Propostos:

2. Em uma turma com 30 alunos, foram obtidas as seguintes notas em Matemática:

2,0 3,0 4,0 3,0 4,0 5,0

4,0 5,0 6,0 6,0 5,0 4,0

6,0 7,0 5,0 3,0 4,0 8,0

7,0 5,0 2,0 9,0 9,0 9,0

10,0 2,0 9,0 7,0 10,0 8,0

a) Construa uma tabela de distribuição de frequências associada às notas dos alunos da turma;

b) Calcule a média aritmética das notas;

c) Determine a nota mediana da turma;

d) Obtenha a nota modal desta tabela.

Exercícios Propostos:

3. (PUC-SP) O gráfico abaixo apresenta a distribuição de frequências das faixas salariais numa pequena empresa:

Com os dados disponíveis, pode-se concluir que a média desses salários é, aproximadamente:

a) R$ 420,00 b) R$ 536,00 c) R$ 652,00 d) R$ 640,00 e) R$ 708,00

Para estimar a quantidade de água que seria necessária para abastecer uma cidade na próxima década, a prefeitura precisa descobrir a quantidade de água que uma amostra de famílias utiliza atualmente. As famílias da amostra utilizaram o seguinte volume de água, em milhares de litros:

•11,1 21,5 16,4 19,7 14,6 16,9 32,2 18,2•13,1 23,8 18,3 15,5 18,8 22,7 14,0

•Encontre os três quartis.

Exercícios Propostos:

Próxima Aula

Medidas de Dispersão. Amplitude; Desvio Médio; Variância; Desvio padrão.

Referências Bibliográficas• MARTINS, G. A. Estatística geral e aplicada. São Paulo: Atlas, 2011.• PAGANO, M.. Princípios de Bioestatística. 2.ed. SÃO PAULO: Cengage Learning, 2011. • VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Campus, 2010 • BEIGUELMAN. B. Curso prático de bioestatística. Belo Horizonte: Funpec, 2002. • CALLEGARI-JACQUES, S. M. Bioestatistica: Princípios e Aplicações. PORTO ALEGRE: ARTMED,

2003.• MASSAD, E.; MENEZES, R. X.; SILVEIRA, P. S. P.; ORTEGA, N. R. S. Métodos quantitativos em

medicina. Barueri: Manole, 2004.• MOTTA, V. T., WAGNER, M. B. Bioestatística. Caxias do Sul: Educs, 2003.• RODRIGUES, P. C. Bioestatística. Rio de Janeiro: Eduff, 2003.• BERQUÓ, E. S; GOTLIEB, S. L.D.; SOUZA, J. M. P. de. Bioestatística. São Paulo: EPU, 1981.• DORIA FILHO, U. Introdução à bioestatística: para simples mortais. São Paulo: Elsevier, 1999.

• __. Matemática e suas Tecnologias. Governo do estado de Pernambuco. Notas de aula. Ensino Fundamental.

• MORILHAS, Leandro. Estatística e Análise de Dados. Notas de aula. Fundação Instituto de Administração.