Renato Vicente EACH-USP/2008 - Escola de Artes, Ciências ... · 7 médio 27 600,00 5 8 médio 22...
Transcript of Renato Vicente EACH-USP/2008 - Escola de Artes, Ciências ... · 7 médio 27 600,00 5 8 médio 22...
Resumo
1. O que é Estatística2. Tipos de Dados3. Processamento Descritivo4. Tabelas de Frequência5. Medidas Resumo
OrigensWilliam Petty
1623-1687 (Reino Unido)
Political Arithmetik
John Graunt
1620-1674 (Reino Unido)
Observation on the Bills of Mortality
Hermann Conring
1606-1681 (Alemanha)
“Statistik”= Staten+Arithmetik
Método Estatístico
População
Amostra
Estatística Descritiva
Teoria de Probabilidades
InferênciaEstatística
Questões sobre os dados
1. QUEM ? Que indivíduos os dados descrevem ? Quantos são ?
2. O QUE ? Quantas variáveis os dados contêm ? Quais são as definições exatas dessas variáveis ? Quais são as unidades de medida destas variáveis ?
3. PARA QUE ? Para que propósito servirão os dados ? Há questões específicas que desejamos responder ? Queremos concluir algo sobre indivíduos diferentes dos presentes nos dados ? As variáveis medidas são apropriadas para nossos objetivos?
Tipos de Variáveis
1. Quantitativas: toma valores numéricos para os quais faz sentido fazer operações aritméticas;
2. Qualitativas ou Categóricas: Coloca cada indivíduo em diferentes grupos ou categorias.
Estudo Médico Um estudo médico levantou as seguintes variáveis:Sexo (M ou F)Altura (m)Peso (kg)Idade (anos)Fumante (S ou N)Pressão arterial (mm de Hg)Nível de Cálcio no sangue (microgramas por mililitro)
Tipos de Variáveis II
1. Quantitativas:(a) Discretas: valores inteiros resultado de contagens;(b) Contínuas: valores reais resultado de mensuração.
2. Qualitativas ou Categóricas: (a) Nominais: sem ordem natural;(b) Ordinais: têm ordenação indicando intensidades crescentes.
Processamento Estatístico Descritivo
Rol = dados adequadamente organizados
Resumo de informação através de tabelas e gráficos
Medidas resumo
Exercício1: Questionário em clínica ortopédica
Pacientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Fisioterapia(meses)
7 8 5 6 4 5 7 7 6 8 6 5 5 4 5
Seqüelas S S N N N S S N N S S N S N N
Cirurgia(complexidade)
A M A M M B A M B M B B M M A
1. Quais são os tipos de variáveis ?
2. Construa uma tabela de freqüência para cada variável.
Exercício2: Questionário no Departamento de Contabilidade
Funcionário Escolaridade Idade Salário (R$) Anos de Empresa
1 superior 34 1100,00 52 superior 43 1450,00 83 médio 31 960,00 64 médio 37 960,00 85 médio 24 600,00 36 médio 25 600,00 27 médio 27 600,00 58 médio 22 450,00 29 fundamental 21 450,00 310 fundamental 26 450,00 3
Distribuições Estatísticas: Histograma
Histograma
02468
101214161820
0 3 6 9 12 15 18 21 24 27 30 33
Mai
s
Livros por ano
Freq
üênc
ia
Medidas Resumo
POSIÇÃO: Média, Moda e
Mediana
DISPERSÃO: Desvio Padrão, Largura à Meia Altura e Distância Interquartis
Quanto ganha quem tem curso superior ?
Entrevistamos 15 pessoas que responderam (em milhares de R$/mês):
11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6
Salário de Indivíduos com Curso Superior
0
2
4
6
8
2 4 6 8 10 12 Mais
Salário
Freq
üênc
ia
Como resumir esta informação ?
Média
Para achar a média aritmética, ou simplesmente média, você deve somar cada um dos valores e dividir pelo número de observações. A média é comumente denotada por uma barra sobre a variável, assim para nosso exemplo:
11+2,5+5+5+5,5+3+3,5+3+0,4+3,2+5+3+3,2+7,4 +6 66,7 4,4515 15
x = = =
A forma geral para a média é:1 2
1
1
n
n
kk
x x xx
n
xn =
+ + +=
= ∑
00,5
11,5
22,5
33,5
44,5
1 2 3 4 5 6 7 8 9 10 11 12 Mais
Salários
Freqüên
ciaO que a média representa ?
Uma analogia física para a média.
00,5
11,5
22,5
33,5
44,5
1 2 3 4 5 6 7 8 9 10 11 12
Mai
s
Salários
Freq
üênc
ia
O que a média representa ?
Representa quanto cada um receberia se o total de salários fosse dividido identicamente.
outlier
E se removermos o outlier da amostra ? O que acontece com a média ?
Eliminando o outlier
Calculando a média novamente:
2,5+5+5+5,5+3+3,5+3+0,4+3,2+5+3+3,2+7,4+6 3,9814
x = =
00,5
11,5
22,5
33,5
44,5
1 2 3 4 5 6 7 8 9 10 11 12
Mai
s
Salários
Freq
üênc
ia
E se entrevistássemos um felizardo que ganhe R$200 mil/mês ? O que ocorre com a média ?
Efeito do outlier
Calculando a média novamente:
CUIDADO: A média é uma medida sensível a valores grandes.
200+2,5+5+5+5,5+3+3,5+3+0,4+3,2+5+3+3,2+7,4+6 17,015
x = =
02468
2 16 30 44 58 72 86 100
114
128
142
156
170
184
198
Salários
Freq
üênc
ia
Mediana
Para achar a mediana ordenamos os dados e encontramos o valor que divide as observações ao meio:
Dados fora de ordem:
11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6
Dados ordenados:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11
A mediana M será: M=3,5
E se eliminarmos o outlier ?
Eliminando o outlier
Dados ordenados sem o outlier:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4
A mediana M será: M=(3,2+3,5)/2 = 3,35
A mediana é bem menos sensível a valores grandes do que a média. Mas, e se agora introduzirmos nosso felizardo assalariado que recebe R$200 mil/mês ?
Efeito do outlier
Dados ordenados sem o outlier:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 200
A mediana M será: M=3,5
Um único valor muito grande não altera a mediana. A mediana édita uma medida de posição resistente devido a essa característica.
Moda
Qual seria o salário (ou salários) mais freqüentes ?Para achar a moda montamos uma tabela de freqüências e procuramos pelo salário ou faixa com maior freqüência:
É mais fácil começar com dados ordenados:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11Montamos a tabela de freqüências:
x [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11)
n 1 0 1 6 0 4 1 1 0 0 1
A moda está no intervalo [3,4), escolhemos o meio do intervalo como indicador: MODA=3,5.
Pense a respeito 1
1. Como deve ser a distribuição para que a média e a mediana sejam idênticas? Desenhe o histograma.
2. Como deve ser o histograma para que a mediana seja igual a moda mas a média seja maior que a mediana ?
3. Como deve ser o histograma para que a moda seja maior que a mediana e a mediana seja maior que a média ?
Pense a respeito 1
-5 -4 -3 -2 -1 0 1 2 3 4 50
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
MODA=MEDIANA=MEDIA
Pense a respeito 1
0 5 10 150
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
MEDIANA
MEDIA
MODA
-5 -4 -3 -2 -1 0 1 2 3 4 50
0.05
0.1
0.15
0.2
0.25
0.3
0.35
MODA
MEDIANA
MEDIA
Pense a respeito 2
Você está procurando emprego para o próximo ano. As empresas A e B são totalmente equivalentes a menos de suas políticas de remuneração. As características de remuneração de cada uma das empresas são resumidas na tabela a seguir:
Empresa A B
Média 2500 2000
Mediana 1700 1900
Moda 1500 1900
Qual das duas empresas você escolheria ? Justifique
Pense a respeito 3
Quais medidas de posição são mais adequadas nos seguintes casos ? Justifique.
• Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto.
• O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação.
• Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias.
Exercício 3
Vinte e cinco residência de um bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes:
2,2,2,3,1,2,1,1,1,1,0,1,2,2,2,2,3,1,1,3,1,2,1,0,2
Organize os dados em uma tabela de freqüência e determine as diversas medidas de posição.
Exercício 4Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em kg) foram os seguintes:1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5; 2,2a. Utilizando os dados brutos acima, determine média, moda e mediana.b. Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5.c. Calcule a partir da tabela de freqüência e com o ponto médio representando cada faixa , a média, a moda e a mediana. Comente as diferenças em relação ao item a.d. Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente (a) ou (c)?
QuartisOs quartis são outra forma de caracterizar quantitativamente a distribuição de uma variável. A idéia geral consiste em ordenar os dados brutos e registrar o valor abaixo do qual está 25% dos dados (Primeiro Quartil), 50% dos dados (Mediana) e 75% dos dados (Terceiro Quartil). Por exemplo, retornando aos dados salariais temos:
Dados fora de ordem:
200 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6
Dados ordenados:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200
• 25% dos dados está abaixo de 3, assim, o Primeiro Quartil é Q1=3;
• 50% dos dados está abaixo de 4,25, assim, o Segundo Quartil, que também é a Mediana é Q2=M=4,25;
• 75% dos dados está abaixo de 5,75, assim, o Teceiro Quartil é Q3=5,75
Sumário de 5 números
Podemos descrever uma distribuição de forma resumida fornecendo 5 números apenas: mínimo, Q1, M, Q3, máximo. No exemplo:
Dados ordenados:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200
MIN = 0,4
Q1 = 3,0
M = 4,25
Q3 = 5,75
MAX = 200
Questionário respondido em sala de aula: Variável Peso para ambos os sexos
0
5
10
15
20
25
30
40 50 60 70 80 90 100
110
Peso kg
Freq
üênc
ia
MIN=40 Q1=58 M=64 Q2=72MAX=105
Box Plot
MIN = 0,4Q1 = 3,0
Q1 = 4,25
Q3 = 5,75
MAX = 200
O Boxplot tambem é conhecido como diagrama de traço-caixa. Nele obtemos um sumário completo dos dados de forma simples. Modemos ver a mediana, a dispersão, a assimetria e potenciais outliers.
Questionário respondido em sala de aula: Variável Altura versus Sexo
SEXO F MQ1 1,6 1,715
Q3-Q1 0,1 0,1075Q3 1,7 1,8225MIN 1,52 1,62MAX 1,79 1,9
MEDIANA 1,655 1,75MED-MIN 0,135 0,13MAX-MED 0,135 0,15
1,4
1,5
1,6
1,7
1,8
1,9
2
F M
Box Plot no Excel
Curiosamente, não há uma forma de fazer um boxplot que seja automatizada no Excel. Para construí-lo é necessário seguir os seguintes passos:
1. Monte uma tabela com o sumário de 5 números na seqüência indicada abaixo:
SEXO F MQ1 1,6 1,72MIN 1,52 1,62
MEDIANA 1,66 1,75MAX 1,79 1,9Q3 1,7 1,82
Box Plot no Excel
2. Marque a tabela inteira, inclusive os títulos e selecione “Inserir Gráfico”. Escolha um gráfico de linhas e selecione “Seqüências em Linhas” ( o padrão é “Seqüências em Colunas”). Conclua a operação, ajuste a escala e apague as legendas automáticas. Ao final deste passo você teráobtido:
1,4
1,5
1,6
1,7
1,8
1,9
2
F M
Box Plot no Excel
3. Selecione as linhas uma a uma. Selecione “Linha > Nenhuma” > Selecione como marcador “-”, aumente o tamanho do marcador e mude a cor para preto.
1,4
1,5
1,6
1,7
1,8
1,9
2
F M
Box Plot no Excel
3. Selecione qualquer uma das séries, vá a “Formatar seqüências de dados> Opções”, escolha “Linhas de máximo e mínimo” e “Barras superiores/inferiores”.
1,4
1,5
1,6
1,7
1,8
1,9
2
F M
Questionário respondido em sala de aula: Variável Peso para ambos os sexos
0
5
10
15
20
25
30
40 50 60 70 80 90 100
110
Peso kg
Freq
üênc
ia
MIN=40 Q1=58 M=64 Q2=72MAX=105
Quantis: Generalizando a idéia de QuartisAo invés de fixarmos os percentuais de interesse em 25%, 50% e 75% dos dados podemos trabalhar com um percentual qualquer, ou quantil. Observando novamente os dados brutos de peso colhidos em classe podemos montar uma tabela de freqüências: Bloco Freqüência Freq. Cum Freq Cum Norm
40 1 1 1%45 1 2 2%50 5 7 6%55 10 17 15%60 21 38 33%65 26 64 56%70 15 79 69%75 16 95 83%80 7 102 89%85 7 109 95%90 3 112 97%95 2 114 99%
100 0 114 99%105 1 115 100%110 0 115 100%
Mais 0 115 100%
Quantis: Generalizando a idéia de QuartisUtilizando a coluna de freqüências cumulativas normalizadas podemos montar a distribuição de probabilidade da variável peso, que registra todos os quantis.
0%10%20%30%40%50%60%70%80%90%
100%
40 45 50 55 60 65 70 75 80 85 90 95 100 105 110
Peso (kg)
Pro
babi
lidad
e Cu
mul
ativ
a
MedianaQ1
Q2
Alternativamente e possível construir esta curva ordenando os dados e contanto as observações, assim, por exemplo o quantil de 10% estaria relacionado com a média entre a as observações 11 e 12 na ordem.
Desvio Padrão da amostraA medida mais comum de dispersão não é o sumário de 5 números. Mas sim o desvio padrão da média definido como a raiz quadrada da variância:
2 2 22 1 2( ) ( ) ( )
1nx x x x x x
sn
− + − + + −=
−
2 2
1
1 ( )1
n
jj
s x xn =
= −− ∑
O desvio padrão da amostra é:2
1
1 ( )1
n
jj
s x xn =
= −− ∑
Calculando o Desvio Padrão A taxa metabólica de uma pessoa é a taxa na qual o corpo consome energia. A mensuração da taxa metabólica é importante em estudos de ganho de peso, dieta e exercícios. A seguir estão listadas as taxas metabólicas de 7 homens que participaram de um estudo sobre dietas. (As unidades são calorias por 24 horas. Estas são as mesmas caloria utilizadas para descrever o conteúdo energético de alimentos.)
1792 1666 1392 1614 1460 1867 1439
Primeiro calculamos a média:
1792 1666 1392 1614 1460 1867 14391600
7x
+ + + + + += =
Calculando o Desvio Padrão Para calcularmos o desvio padrão, primeiro montamos a tabela abaixo:
Tem que ser 0 !!!
Calculando o Desvio Padrão Agora calculamos a variância:
2 214870 35811,776
s = =
Finalmente, calculamos o desvio padrão:
35811,77 189,24s = =
O que significa o desvio padrão ? Na figura abaixo mostramos a taxa metabólica média, a taxa metabólica de cada um dos indivíduos (pontos azuis) e os desvios de dois deles.
O desvio padrão é uma medida dos desvios típicos independente do sinal destes desvios e colocando mais peso em grandes desvios do que em pequenos.
Exercício 5: Calculando o desvio padrão a partir de uma tabela de freqüências
O salário de professores de ensino fundamental da rede privada está sendo estudado. A tabela abaixo apresenta os valores, em salários mínimos, obtidos em um levantamento numa certa cidade. Desejamos calcular a média e o desvio padrão da amostra.
Salário 1 |- 3 3 |- 5 5 |- 7 7 |- 9 9 |- 11 total
Frequência 14 25 18 9 4 70
MÉDIA = (14 * 2 + 25 * 4 + ... + 4 * 10) / 70 = 4,97
VAR_AMOSTRAL = [14 * (2-4,97)^2 + 25 * (4-4,97)^2 + 18 * (6-4,97)^2 + 9 * (8-4,97)^2 + 4 * (10-4)^2]/ 69 = 5,04
DESVIO PADRÃO = 2,24
Exercício 6Estamos estudando o impacto do estágio na obtenção de bons empregos. Dentre os recém formados e com empregos considerados bons, foi sorteada uma amostra e observado o número de anos de estágio anteriores à formatura.
(a) Calcule a media e a variância;
(b) Para efeito de análise, decidiu-se desprezar os valores que se distanciassem da média amostral por mais de dois desvios padrão (outliers), isto é, só serão considerados os valores no intervalo MÉDIA – 2 DESVIOS PADRÃO atéMÉDIA + 2 DESVIOS PADRÃO. Recalcule (a) e comente os resultados.
Anos de estágio 0 1 2 3 4 5 6 Total
Freqüência 25 58 147 105 72 45 10 462
Exercício 7O Centro Acadêmico de uma faculdade pretende iniciar uma campanha junto àdireção da escola com vistas a melhoria das salas de informática. Para tal, fez uma enquete com todos os alunos e perguntou sobre o número de computadores que cada um tinha em sua residência.
(a) Calcule a média e a variância.
(b) O centro acadêmico argumenta que o ideal é ter uma média de 1 computador por aluno, juntando os 20 da sala de informática da faculdade com os que os alunos têm em casa. Quantos computadores precisariam ser acrescentados À sala para atender o Centro Acadêmico ?
Computadores 0 1 2 3 4 Total
Freqüência 156 135 47 25 8 371