Renato Vicente EACH-USP/2008 - Escola de Artes, Ciências ... · 7 médio 27 600,00 5 8 médio 22...

53
Estatística Descritiva 1 Renato Vicente EACH-USP/2008

Transcript of Renato Vicente EACH-USP/2008 - Escola de Artes, Ciências ... · 7 médio 27 600,00 5 8 médio 22...

Estatística Descritiva 1

Renato VicenteEACH-USP/2008

Resumo

1. O que é Estatística2. Tipos de Dados3. Processamento Descritivo4. Tabelas de Frequência5. Medidas Resumo

OrigensWilliam Petty

1623-1687 (Reino Unido)

Political Arithmetik

John Graunt

1620-1674 (Reino Unido)

Observation on the Bills of Mortality

Hermann Conring

1606-1681 (Alemanha)

“Statistik”= Staten+Arithmetik

Método Estatístico

População

Amostra

Estatística Descritiva

Teoria de Probabilidades

InferênciaEstatística

Questões sobre os dados

1. QUEM ? Que indivíduos os dados descrevem ? Quantos são ?

2. O QUE ? Quantas variáveis os dados contêm ? Quais são as definições exatas dessas variáveis ? Quais são as unidades de medida destas variáveis ?

3. PARA QUE ? Para que propósito servirão os dados ? Há questões específicas que desejamos responder ? Queremos concluir algo sobre indivíduos diferentes dos presentes nos dados ? As variáveis medidas são apropriadas para nossos objetivos?

Tipos de Variáveis

1. Quantitativas: toma valores numéricos para os quais faz sentido fazer operações aritméticas;

2. Qualitativas ou Categóricas: Coloca cada indivíduo em diferentes grupos ou categorias.

Estudo Médico Um estudo médico levantou as seguintes variáveis:Sexo (M ou F)Altura (m)Peso (kg)Idade (anos)Fumante (S ou N)Pressão arterial (mm de Hg)Nível de Cálcio no sangue (microgramas por mililitro)

Tipos de Variáveis II

1. Quantitativas:(a) Discretas: valores inteiros resultado de contagens;(b) Contínuas: valores reais resultado de mensuração.

2. Qualitativas ou Categóricas: (a) Nominais: sem ordem natural;(b) Ordinais: têm ordenação indicando intensidades crescentes.

Processamento Estatístico Descritivo

Rol = dados adequadamente organizados

Resumo de informação através de tabelas e gráficos

Medidas resumo

Tabela de freqüência

SEXO ni

F

M

T N= 1

frequências absolutas

frequênciasrelativas

Exercício1: Questionário em clínica ortopédica

Pacientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Fisioterapia(meses)

7 8 5 6 4 5 7 7 6 8 6 5 5 4 5

Seqüelas S S N N N S S N N S S N S N N

Cirurgia(complexidade)

A M A M M B A M B M B B M M A

1. Quais são os tipos de variáveis ?

2. Construa uma tabela de freqüência para cada variável.

Exercício2: Questionário no Departamento de Contabilidade

Funcionário Escolaridade Idade Salário (R$) Anos de Empresa

1 superior 34 1100,00 52 superior 43 1450,00 83 médio 31 960,00 64 médio 37 960,00 85 médio 24 600,00 36 médio 25 600,00 27 médio 27 600,00 58 médio 22 450,00 29 fundamental 21 450,00 310 fundamental 26 450,00 3

Distribuições Estatísticas: Histograma

Histograma

02468

101214161820

0 3 6 9 12 15 18 21 24 27 30 33

Mai

s

Livros por ano

Freq

üênc

ia

Medidas Resumo

POSIÇÃO: Média, Moda e

Mediana

DISPERSÃO: Desvio Padrão, Largura à Meia Altura e Distância Interquartis

Quanto ganha quem tem curso superior ?

Entrevistamos 15 pessoas que responderam (em milhares de R$/mês):

11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6

Salário de Indivíduos com Curso Superior

0

2

4

6

8

2 4 6 8 10 12 Mais

Salário

Freq

üênc

ia

Como resumir esta informação ?

Média

Para achar a média aritmética, ou simplesmente média, você deve somar cada um dos valores e dividir pelo número de observações. A média é comumente denotada por uma barra sobre a variável, assim para nosso exemplo:

11+2,5+5+5+5,5+3+3,5+3+0,4+3,2+5+3+3,2+7,4 +6 66,7 4,4515 15

x = = =

A forma geral para a média é:1 2

1

1

n

n

kk

x x xx

n

xn =

+ + +=

= ∑

00,5

11,5

22,5

33,5

44,5

1 2 3 4 5 6 7 8 9 10 11 12 Mais

Salários

Freqüên

ciaO que a média representa ?

Uma analogia física para a média.

00,5

11,5

22,5

33,5

44,5

1 2 3 4 5 6 7 8 9 10 11 12

Mai

s

Salários

Freq

üênc

ia

O que a média representa ?

Representa quanto cada um receberia se o total de salários fosse dividido identicamente.

outlier

E se removermos o outlier da amostra ? O que acontece com a média ?

Eliminando o outlier

Calculando a média novamente:

2,5+5+5+5,5+3+3,5+3+0,4+3,2+5+3+3,2+7,4+6 3,9814

x = =

00,5

11,5

22,5

33,5

44,5

1 2 3 4 5 6 7 8 9 10 11 12

Mai

s

Salários

Freq

üênc

ia

E se entrevistássemos um felizardo que ganhe R$200 mil/mês ? O que ocorre com a média ?

Efeito do outlier

Calculando a média novamente:

CUIDADO: A média é uma medida sensível a valores grandes.

200+2,5+5+5+5,5+3+3,5+3+0,4+3,2+5+3+3,2+7,4+6 17,015

x = =

02468

2 16 30 44 58 72 86 100

114

128

142

156

170

184

198

Salários

Freq

üênc

ia

Mediana

Para achar a mediana ordenamos os dados e encontramos o valor que divide as observações ao meio:

Dados fora de ordem:

11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6

Dados ordenados:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11

A mediana M será: M=3,5

E se eliminarmos o outlier ?

Eliminando o outlier

Dados ordenados sem o outlier:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4

A mediana M será: M=(3,2+3,5)/2 = 3,35

A mediana é bem menos sensível a valores grandes do que a média. Mas, e se agora introduzirmos nosso felizardo assalariado que recebe R$200 mil/mês ?

Efeito do outlier

Dados ordenados sem o outlier:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 200

A mediana M será: M=3,5

Um único valor muito grande não altera a mediana. A mediana édita uma medida de posição resistente devido a essa característica.

Moda

Qual seria o salário (ou salários) mais freqüentes ?Para achar a moda montamos uma tabela de freqüências e procuramos pelo salário ou faixa com maior freqüência:

É mais fácil começar com dados ordenados:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11Montamos a tabela de freqüências:

x [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11)

n 1 0 1 6 0 4 1 1 0 0 1

A moda está no intervalo [3,4), escolhemos o meio do intervalo como indicador: MODA=3,5.

Pense a respeito 1

1. Como deve ser a distribuição para que a média e a mediana sejam idênticas? Desenhe o histograma.

2. Como deve ser o histograma para que a mediana seja igual a moda mas a média seja maior que a mediana ?

3. Como deve ser o histograma para que a moda seja maior que a mediana e a mediana seja maior que a média ?

Pense a respeito 1

-5 -4 -3 -2 -1 0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

MODA=MEDIANA=MEDIA

Pense a respeito 1

0 2 4 6 8 10 12 14

x 104

0

0.5

1

1.5

2

2.5

3

3.5x 10

-5

MEDIA

MEDIANA

MODA

Pense a respeito 1

0 5 10 150

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

MEDIANA

MEDIA

MODA

-5 -4 -3 -2 -1 0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

MODA

MEDIANA

MEDIA

Pense a respeito 2

Você está procurando emprego para o próximo ano. As empresas A e B são totalmente equivalentes a menos de suas políticas de remuneração. As características de remuneração de cada uma das empresas são resumidas na tabela a seguir:

Empresa A B

Média 2500 2000

Mediana 1700 1900

Moda 1500 1900

Qual das duas empresas você escolheria ? Justifique

Pense a respeito 3

Quais medidas de posição são mais adequadas nos seguintes casos ? Justifique.

• Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto.

• O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação.

• Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias.

Exercício 3

Vinte e cinco residência de um bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes:

2,2,2,3,1,2,1,1,1,1,0,1,2,2,2,2,3,1,1,3,1,2,1,0,2

Organize os dados em uma tabela de freqüência e determine as diversas medidas de posição.

Exercício 4Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em kg) foram os seguintes:1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5; 2,2a. Utilizando os dados brutos acima, determine média, moda e mediana.b. Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5.c. Calcule a partir da tabela de freqüência e com o ponto médio representando cada faixa , a média, a moda e a mediana. Comente as diferenças em relação ao item a.d. Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente (a) ou (c)?

QuartisOs quartis são outra forma de caracterizar quantitativamente a distribuição de uma variável. A idéia geral consiste em ordenar os dados brutos e registrar o valor abaixo do qual está 25% dos dados (Primeiro Quartil), 50% dos dados (Mediana) e 75% dos dados (Terceiro Quartil). Por exemplo, retornando aos dados salariais temos:

Dados fora de ordem:

200 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6

Dados ordenados:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200

• 25% dos dados está abaixo de 3, assim, o Primeiro Quartil é Q1=3;

• 50% dos dados está abaixo de 4,25, assim, o Segundo Quartil, que também é a Mediana é Q2=M=4,25;

• 75% dos dados está abaixo de 5,75, assim, o Teceiro Quartil é Q3=5,75

Sumário de 5 números

Podemos descrever uma distribuição de forma resumida fornecendo 5 números apenas: mínimo, Q1, M, Q3, máximo. No exemplo:

Dados ordenados:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200

MIN = 0,4

Q1 = 3,0

M = 4,25

Q3 = 5,75

MAX = 200

Questionário respondido em sala de aula: Variável Peso para ambos os sexos

0

5

10

15

20

25

30

40 50 60 70 80 90 100

110

Peso kg

Freq

üênc

ia

MIN=40 Q1=58 M=64 Q2=72MAX=105

Box Plot

MIN = 0,4Q1 = 3,0

Q1 = 4,25

Q3 = 5,75

MAX = 200

O Boxplot tambem é conhecido como diagrama de traço-caixa. Nele obtemos um sumário completo dos dados de forma simples. Modemos ver a mediana, a dispersão, a assimetria e potenciais outliers.

Questionário respondido em sala de aula: Variável Altura versus Sexo

SEXO F MQ1 1,6 1,715

Q3-Q1 0,1 0,1075Q3 1,7 1,8225MIN 1,52 1,62MAX 1,79 1,9

MEDIANA 1,655 1,75MED-MIN 0,135 0,13MAX-MED 0,135 0,15

1,4

1,5

1,6

1,7

1,8

1,9

2

F M

Box Plot no Excel

Curiosamente, não há uma forma de fazer um boxplot que seja automatizada no Excel. Para construí-lo é necessário seguir os seguintes passos:

1. Monte uma tabela com o sumário de 5 números na seqüência indicada abaixo:

SEXO F MQ1 1,6 1,72MIN 1,52 1,62

MEDIANA 1,66 1,75MAX 1,79 1,9Q3 1,7 1,82

Box Plot no Excel

2. Marque a tabela inteira, inclusive os títulos e selecione “Inserir Gráfico”. Escolha um gráfico de linhas e selecione “Seqüências em Linhas” ( o padrão é “Seqüências em Colunas”). Conclua a operação, ajuste a escala e apague as legendas automáticas. Ao final deste passo você teráobtido:

1,4

1,5

1,6

1,7

1,8

1,9

2

F M

Box Plot no Excel

3. Selecione as linhas uma a uma. Selecione “Linha > Nenhuma” > Selecione como marcador “-”, aumente o tamanho do marcador e mude a cor para preto.

1,4

1,5

1,6

1,7

1,8

1,9

2

F M

Box Plot no Excel

3. Selecione qualquer uma das séries, vá a “Formatar seqüências de dados> Opções”, escolha “Linhas de máximo e mínimo” e “Barras superiores/inferiores”.

1,4

1,5

1,6

1,7

1,8

1,9

2

F M

Questionário respondido em sala de aula: Variável Peso para ambos os sexos

0

5

10

15

20

25

30

40 50 60 70 80 90 100

110

Peso kg

Freq

üênc

ia

MIN=40 Q1=58 M=64 Q2=72MAX=105

Quantis: Generalizando a idéia de QuartisAo invés de fixarmos os percentuais de interesse em 25%, 50% e 75% dos dados podemos trabalhar com um percentual qualquer, ou quantil. Observando novamente os dados brutos de peso colhidos em classe podemos montar uma tabela de freqüências: Bloco Freqüência Freq. Cum Freq Cum Norm

40 1 1 1%45 1 2 2%50 5 7 6%55 10 17 15%60 21 38 33%65 26 64 56%70 15 79 69%75 16 95 83%80 7 102 89%85 7 109 95%90 3 112 97%95 2 114 99%

100 0 114 99%105 1 115 100%110 0 115 100%

Mais 0 115 100%

Quantis: Generalizando a idéia de QuartisUtilizando a coluna de freqüências cumulativas normalizadas podemos montar a distribuição de probabilidade da variável peso, que registra todos os quantis.

0%10%20%30%40%50%60%70%80%90%

100%

40 45 50 55 60 65 70 75 80 85 90 95 100 105 110

Peso (kg)

Pro

babi

lidad

e Cu

mul

ativ

a

MedianaQ1

Q2

Alternativamente e possível construir esta curva ordenando os dados e contanto as observações, assim, por exemplo o quantil de 10% estaria relacionado com a média entre a as observações 11 e 12 na ordem.

Desvio Padrão da amostraA medida mais comum de dispersão não é o sumário de 5 números. Mas sim o desvio padrão da média definido como a raiz quadrada da variância:

2 2 22 1 2( ) ( ) ( )

1nx x x x x x

sn

− + − + + −=

2 2

1

1 ( )1

n

jj

s x xn =

= −− ∑

O desvio padrão da amostra é:2

1

1 ( )1

n

jj

s x xn =

= −− ∑

Calculando o Desvio Padrão A taxa metabólica de uma pessoa é a taxa na qual o corpo consome energia. A mensuração da taxa metabólica é importante em estudos de ganho de peso, dieta e exercícios. A seguir estão listadas as taxas metabólicas de 7 homens que participaram de um estudo sobre dietas. (As unidades são calorias por 24 horas. Estas são as mesmas caloria utilizadas para descrever o conteúdo energético de alimentos.)

1792 1666 1392 1614 1460 1867 1439

Primeiro calculamos a média:

1792 1666 1392 1614 1460 1867 14391600

7x

+ + + + + += =

Calculando o Desvio Padrão Para calcularmos o desvio padrão, primeiro montamos a tabela abaixo:

Tem que ser 0 !!!

Calculando o Desvio Padrão Agora calculamos a variância:

2 214870 35811,776

s = =

Finalmente, calculamos o desvio padrão:

35811,77 189,24s = =

O que significa o desvio padrão ? Na figura abaixo mostramos a taxa metabólica média, a taxa metabólica de cada um dos indivíduos (pontos azuis) e os desvios de dois deles.

O desvio padrão é uma medida dos desvios típicos independente do sinal destes desvios e colocando mais peso em grandes desvios do que em pequenos.

Exercício 5: Calculando o desvio padrão a partir de uma tabela de freqüências

O salário de professores de ensino fundamental da rede privada está sendo estudado. A tabela abaixo apresenta os valores, em salários mínimos, obtidos em um levantamento numa certa cidade. Desejamos calcular a média e o desvio padrão da amostra.

Salário 1 |- 3 3 |- 5 5 |- 7 7 |- 9 9 |- 11 total

Frequência 14 25 18 9 4 70

MÉDIA = (14 * 2 + 25 * 4 + ... + 4 * 10) / 70 = 4,97

VAR_AMOSTRAL = [14 * (2-4,97)^2 + 25 * (4-4,97)^2 + 18 * (6-4,97)^2 + 9 * (8-4,97)^2 + 4 * (10-4)^2]/ 69 = 5,04

DESVIO PADRÃO = 2,24

Exercício 6Estamos estudando o impacto do estágio na obtenção de bons empregos. Dentre os recém formados e com empregos considerados bons, foi sorteada uma amostra e observado o número de anos de estágio anteriores à formatura.

(a) Calcule a media e a variância;

(b) Para efeito de análise, decidiu-se desprezar os valores que se distanciassem da média amostral por mais de dois desvios padrão (outliers), isto é, só serão considerados os valores no intervalo MÉDIA – 2 DESVIOS PADRÃO atéMÉDIA + 2 DESVIOS PADRÃO. Recalcule (a) e comente os resultados.

Anos de estágio 0 1 2 3 4 5 6 Total

Freqüência 25 58 147 105 72 45 10 462

Exercício 7O Centro Acadêmico de uma faculdade pretende iniciar uma campanha junto àdireção da escola com vistas a melhoria das salas de informática. Para tal, fez uma enquete com todos os alunos e perguntou sobre o número de computadores que cada um tinha em sua residência.

(a) Calcule a média e a variância.

(b) O centro acadêmico argumenta que o ideal é ter uma média de 1 computador por aluno, juntando os 20 da sala de informática da faculdade com os que os alunos têm em casa. Quantos computadores precisariam ser acrescentados À sala para atender o Centro Acadêmico ?

Computadores 0 1 2 3 4 Total

Freqüência 156 135 47 25 8 371

Exercício 8

As notas finais de uma prova do curso de TADI foram: 7,5,4,5,6,3,8,4,5,4,6,4,5,6,4,6,6,3,8,4,5,4,5,5, e 6 .

(a) Organize os dados, calcule a média a mediana e a moda.

(b) Separa os dados em dois grupos, os aprovados (>=5) e os reprovados. Compare o desvio padrão dos dois grupos.