CAPÍTULO 2 – DESCRIÇÃO DE DADOS – …TULO 2 – DESCRIÇÃO DE DADOS – ESTATÍSTICA...

28
CAPÍTULO 2 – DESCRIÇÃO DE DADOS – ESTATÍSTICA DESCRITIVA 2.1 – A MÉDIA ARITMÉTICA OU PROMÉDIO Definição : é igual a soma dos valores do grupo de dados dividida pelo número de valores. n x X = = s observaçõe de número x de valores dos Soma 2.2 MÉDIA ARITMÉTICA PARA DADOS AGRUPADOS Quando os valores de x i estão agrupados com suas respectivas freqüências absolutas F i , a média aritmética ou média amostral é expressa por: n i F i x X = 2.3 – MEDIANA X ~ Quando colocados em ordem crescente, é o valor que divide a amostra ou população, em duas partes iguais.

Transcript of CAPÍTULO 2 – DESCRIÇÃO DE DADOS – …TULO 2 – DESCRIÇÃO DE DADOS – ESTATÍSTICA...

CAPÍTULO 2 – DESCRIÇÃO DE DADOS – ESTATÍSTICA DESCRITIVA

2.1 – A MÉDIA ARITMÉTICA OU PROMÉDIO

♦ Definição: é igual a soma dos valores do grupo de

dados dividida pelo número de valores.

nxX ∑==

sobservaçõe de número xde valoresdos Soma

2.2 – MÉDIA ARITMÉTICA PARA DADOS

AGRUPADOS

♦ Quando os valores de xi estão agrupados com suas

respectivas freqüências absolutas Fi, a média

aritmética ou média amostral é expressa por:

niFixX

∑=

2.3 – MEDIANA

X~

♦ Quando colocados em ordem crescente, é o valor que

divide a amostra ou população, em duas partes iguais.

2.3.1 – CÁLCULO DA MEDIANA – VARIÁVEL

DISCRETA

♦ Determinação da ordem do elemento central que

caracteriza a mediana:

♦ Se n for ímpar o elemento central será de ordem 2

1+n

♦ Se n for par, a mediana será a média entre os

elementos centrais de ordem 2n e 1

2+n

2.3.2 – CÁLCULO DA MEDIANA – VARIÁVEL

CONTÍNUA

♦ 1 – Calcula-se a ordem da mediana como sendo 2n ,

independente de n ser par ou ímpar.

♦ 2 – Pela Fac, identifica-se a classe que contém a

mediana (classe Md)

♦ 3 – Utiliza-se a fórmula: Md

F

hfn

MdlX

∑−

+= 2~

0 50% 100%

X~

♦ Onde:

===∑

==

Md classe da frequência Md classe da amplitude

Md classe à anteriores sfrequência das soma elementos de númeroou amostra da tamanho

Md classe dainferior limite

MdFh

fnMd

l

2.4 – QUARTIS

♦ Dividem um conjunto de dados em quatro partes

iguais.

♦ Q1 = 1o Quartil ⇒ deixa 25% dos elementos.

♦ Q2 = 2o Quartil ≡ Mediana ⇒ deixa 50% dos

elementos.

♦ Q3 = 3o Quartil ⇒ deixa 75% dos elementos.

2.4.1 – Como determinar o 1o e o 3o Quartis.

0 Q1 Q2 = Md Q3

0% 25% 50% 75% 100%

♦ Para o 1o Quartil, calcula-se a ordem 4n e para o 3o

Quartil a ordem será 43n

♦ Identifica-se as classes dos quartis pelas Fac.

♦ Fórmulas para determinação dos 1o e 3o Quartis,

respectivamente:

∑−

+=

∑−

+=

3

43

33

1

4

11

QF

hfn

QlQ

QF

hfn

QlQ

2.4.2 – EXEMPLO – Dada a distribuição, determinar os

quartis Q1 e Q3 e a mediana ( )2~

QX =

Classes Fi Fac

7 a 17 6 6

17 a 27 15 21 ← Classe Q1 (contém o 14o elemento)

27 a 37 20 41 ← Classe Md (contém o 28o elemento)

37 a 47 10 51 ← Classe Q3 (contém o 42o elemento)

47 a 57 5 56

Σ 56

� Passo 1 ⇒ 56=n

( ) ooo nnn

QXQ

424563

43

28256

2 14

456

4

? ?~

? 31

======

===

� Passo 2 ⇒ Determinado os elementos, as classes são

identificadas pelas Fac, como mostrado na tabela

anterior.

♦ Passo 3 ⇒ Uso das fórmulas para a determinação de

Q1 e Q3 e ( )2~

QX = :

♦ Para Q1 temos:

15;10;6;56;1711

===∑== QQ Fhfnl

♦ Para ( )2~

QX = temos:

20;10;21;56;271

===∑== QMd Fhfnl

♦ Para Q3 temos:

10;10;41;56;3713

===∑== QQ Fhfnl

♦ Portanto:

3810

10414563

37

5,3020

1021256

27~

33,2215

106456

17

3

1

=

−×

+=

=

−+=

=

−+=

Q

X

Q

2.5 – DECIS E PERCENTIS

♦ Dividem, respectivamente, a série em 10 (Decil) e

100 (Percentil) partes iguais.

2.5.1 – Cálculo para um decil (Di)

♦ Passo 1 – Calcula-se a ordem 10in

, onde i =

1,2,3,4,5,6,7,8 e 9

♦ Passo 2 – Identifica-se a classe Di pela Fac

♦ Passo 3 – Aplica-se a fórmula:

Conclusão: 25% das observações

estão entre 7 e 22,33.

25% das observações

estão entre 22,33 e 30,5.

25% das observações

estão entre 30,5 e 38.

25% das observações

estão entre 38 e 57.

D1 D2 D3 D4 D5 D6 D7 D8 D9

0% 10% 20% 30%40%50%60%70%80%90%100%

i

iD

Di F

hfin

lD

∑−

+= 10

2.5.2 – Cálculo de um percentil (Pi)

♦ Passo 1 – Calcula-se a ordem 100in

, onde i =

1,2,3,....98,99

♦ Passo 2 – Identifica-se a classe Pi pela Fac

♦ Passo 3 – Aplica-se a fórmula:

i

iP

Pi F

hfin

lP

∑−

+= 100

2.6 – MODA

♦ É o valor mais freqüente da distribuição.

2.6.1 – Moda de uma distribuição simples, ou seja, sem

agrupamento em classes.

P1 P2 P3 P50 P97 P98 P99

0% 1% 2% 3%...........50%.......97%98% 99%100%

♦ Identifica-se facilmente observando-se qual o

elemento que apresenta maior freqüência. Por

exemplo:

Xi 243 245 248 251 307

Fi 7 17 23 20 8

⇑ A moda será o elemento 248. Indica-se como: Mo = 248 2.6.2 – Moda para dados agrupados em classes, ou seja,

variáveis contínuas.

♦ Passo 1 – Identificar a classe moda (aquela de maior

freqüência)

♦ Aplica-se a fórmula (de Czuber)

hlM Moo21

1

∆+∆∆+=

♦ Onde:

=

=∆

=∆

=

modal. classe da amplitude

posterior. nteimediatame classe da frequência

a e modal classe da frequência a entre diferença

anterior. nteimediatame classe da frequência

a e modal classe da frequência a entre diferença

modal classe dainferior limite

2

1

h

loM

2.7 – Um exemplo completo – A tabela a seguir mostra as

notas de 50 alunos.

60 85 33 52 65 77 84 65 74 57

71 35 81 50 35 64 74 47 54 68

80 61 41 91 55 73 59 53 77 45

41 55 78 48 69 85 67 39 60 76

94 98 66 66 73 42 65 94 88 89

(a) Determine a amplitude total da amostra.

♦ O trabalho ficará mais fácil se construirmos uma

tabela, colocando os dados em ordem decrescente.

♦ Utilizando-se o excel, isto não será necessário.

♦ A amplitude total, R, é definida como:

valormenorvalormaiorR −=

♦ O maior valor será igual a 98, enquanto o menor

valor será 33. Assim,

653398 =∴−= RR

(b) Número de classes pela fórmula de Sturges.

♦ Para determinarmos o número de classes, K,

usaremos a fórmula de Sturges, ou seja:

( )nK log22,31 ×+= .

♦ No nosso caso n = 50. Substituindo na fórmula

acima, temos que K = 6,47.

♦ Devemos “arredondar” este valor para o inteiro

imediatamente superior. Portanto o número de

classes será K = 7

(c) Amplitude das classes.

♦ A amplitude das classes, h, é dado por: K

Rh ≅

♦ O resultado acima não é um número inteiro e,

portanto, devemos “arredondá-lo”. No caso,

encontramos h = 10.

♦ Apresentaremos os itens (d); (e); (f); (g) e (h) através de uma tabela.

(d) Quais as classes? (Inicie pelo 30). (e) Freqüências absolutas das classes. (f) Freqüências relativas. (g) Pontos médios das classes.

(h) Freqüências acumuladas crescentes.

classes Intervalos de

Classes Fi f xi Fac xiFi 1 30 a 40 4 0,08 35 4 140 2 40 a 50 6 0,12 45 10 270 3 50 a 60 8 0,16 55 18 440 4 60 a 70 12 0,24 65 30 780 5 70 a 80 9 0,18 75 39 675 6 80 a 90 7 0,14 85 46 595 7 90 a 100 4 0,08 95 50 380

Σ 50 3280 (i) Histograma das freqüências absolutas.

♦ O histograma apresentado abaixo foi construído com

o excel.

Histograma

02468

101214

1 2 3 4 5 6 7

Classes

Fre

quên

cias

Abs

olut

as

(j) Calcular a média amostral.

♦ Para determinarmos a média amostral, foi necessário

acrescentar mais uma coluna à tabela acima,

contendo o produto ii Fx e no final desta coluna,

obter a soma, ou seja:

∑ ii Fx

♦ A média amostral será dada por:

⇒=∴∑=50

3280X

n

FxX ii

6,65=X

(k) Calcular e interpretar a moda.

♦ A fim de determinarmos a Moda, usaremos a

equação:

hlM Moo21

1

∆+∆∆+=

♦ Da tabela, vemos que a classe moda, ou seja, a classe

de maior freqüência absoluta é a 4a e 60=Mol .

48121 =−=∆ ; 39121 =−=∆ e h = 10. Portanto,

a moda será:

66740

601034

460 =∴+=×

++= oo MM

♦ Concluímos pois, que 66 foi a nota mais freqüente do

grupo.

(l) Calcular e interpretar a mediana.

♦ Como visto na seção 2.3.2, a ordem da mediana é

igual 25, ou seja, 50/2. Da tabela, concluímos que a

classe da mediana é a 4a.

♦ Usando a fórmula: Md

F

hfn

MdlX

∑−

+= 2~

♦ Onde da tabela vemos que:

( )65,83~

12101825

60~ =∴−+= XX

♦ Este resultado nos diz que 50% da amostra têm nota

inferior a 65,83

(m) Determinar e interpretar o 1o quartil.

♦ A classe a qual pertence o 1o quartil será 5,12450 = e

procurando na coluna da Fac da tabela, vemos que

este elemento pertence à 3a classe.

♦ Calcula-se Q1 usando a fórmula:

1

4

11QF

hfn

QlQ

∑−

+=

♦ ( )

125,538

10105,1250 11 =∴−+= QQ

♦ Este resultado nos diz que 25% dos alunos têm nota

inferior a 53,125.

(n) Calcular e interpretar o 55o percentil.

♦ A classe a qual pertence o 55o percentil será

5,27100

5055 =× e da coluna Fac da tabela vemos este

elemento pertence à 4 classe.

♦ Usando a fórmula i

iP

Pi F

hfin

lP

∑−

+= 100, temos

que:

♦ ( )

92,6712

10185,2760 5555 =∴−+= PP

♦ Isto significa que 45% do grupo tirou nota superior a este valor.

2.8 – MEDIDAS DE DISPERSÃO

♦ São medidas que avaliam a dispersão em torno da

média, verificando a representatividade da média.

2.8.1 – AMPLITUDE TOTAL

♦ É uma medida de dispersão dada pela diferença entre

o maior e o menor valor da série.

minmax XXR −=

♦ É de utilização limitada, pois, sendo uma medida que depende apenas dos valores extremos, não capta as possíveis variações entre esses limites.

2.8.2 – VARIÂNCIA AMOSTRAL

♦ Desvio: mede quanto cada valor Xi se afasta em

relação à X e é dado por:

XXd ii −=

♦ É fácil verificar que 0=∑ id .

♦ A fim de determinar a variância, devemos considerar

os quadrados dos desvios, ou seja, 2id

2.8.2.1 – CÁLCULOS DA VARIÂNCIA

X

Dispersão

♦ A variância, 2S , de uma amostra de n medidas é

igual à soma dos quadrados dos desvios, dividida por

(n – 1), portanto:

( )11

222

−∑ −=

−∑=

n

XX

n

dS ii

♦ Para dados agrupados, a variância será dada por:

( )11

222

−∑ −=

−∑=

n

FXX

n

FdS iiii

2.8.2.2 – Fórmulas práticas para o cálculo da variância

amostral.

( )

∑−−

=n

XX

nS i

i

222

11

♦ Para dados agrupados temos que:

( )

∑−−

=n

FXFX

nS ii

ii

222

11

♦ Quanto maior o valor de S2, maior a dispersão dos

dados amostrais.

2.8.3 – DESVIO PADRÃO AMOSTRAL

2SS = 2.8.4 – INTERPRETAÇÃO DO DESVIO PADRÃO

� Regra Empírica

Para qualquer distribuição amostral com média X e

desvio padrão S, tem-se que:

♦ O intervalo SX ± contém entre 60% e 80% de todas

as observações amostrais. A porcentagem aproxima-

se de 70% para as distribuições aproximadamente

simétrica, chegando a 90% para distribuições

fortemente assimétricas.

♦ O intervalo SX 2± contém aproximadamente 95%

das observações amostrais para distribuições

simétricas e aproximadamente 100% para as de

assimetria elevada.

♦ O intervalo SX 3± contém aproximadamente 100%

das observações amostrais.

� Teorema de Tchebycheff

Para qualquer distribuição amostral com média X e

desvio padrão S, tem-se que:

♦ O intervalo SX 2± contém, no mínimo 75% de

todas as observações amostrais.

♦ O intervalo SX 3± contém, no mínimo 89% de

todas as observações amostrais.

2.8.5 –Exemplo – 1 Calcular a variância e o desvio padrão da seguinte distribuição amostral:

X i 5 7 8 9 11 Fi 2 3 5 4 2

♦ Construímos um nova tabela a fim de determinarmos

os valores de ii FX e ii FX 2

Xi Fi XiFi ii FX 2

5 2 10 50 7 3 21 147 8 5 40 320 9 4 36 324 11 2 22 242 Σ 16 129 1086

♦ Usando a fórmula prática para calcular a variância, temos que:

( )

∑−−

=n

FXFX

nS ii

ii

222

11

( )86,2

16129

1086116

1 22 =

∑ −

−=S

♦ Cálculo do desvio padrão:

69,186,22 =∴== SSS

2.8.6 – Exemplo 2 – Consideremos a distribuição amostral das idades de 50 funcionários de uma empresa e determinemos a variância, o desvio padrão e constatemos as regras para interpretação do desvio padrão.

Intervalo das classes iF iX ii FX ii FX 2

18 a 25 6 21,5 129 2773,5

25 a 32 10 28,5 285 8122,50

32 a 39 13 35,5 461,5 16383,5

39 a 46 8 42,5 340 14450

46 a 53 6 49,5 297 14701,5

53 a 60 5 56,5 282,5 15961,25

60 a 67 2 63,5 127 8064,5

Σ 50 1922 80456,50

♦ Cálculo da média amostral:

44,3850

1922 =∴=∑= Xn

FXX ii anos

♦ Cálculo da variância amostral:

( )

∑−−

=n

FXFX

nS ii

ii

222

11

18,13450

192250,80456

1501 2

2 =

−=S

♦ Cálculo do desvio padrão:

anos 58,1118,1342 === SS

♦ Verificação das regras para interpretação do desvio

padrão

( )02,50;86,2858,1144,38 =±=± SX

♦ Da tabela, concluímos que 60% das idades

observadas estão entre 27 e 50 anos, o que concorda

com a regra empírica que estabelece que o referido

intervalo deverá conter de 60% a 80% das

observações.

( )60,61;28,1558,11284,32 =×±=± SX

♦ Mais uma vez, consultando a tabela, vemos que 98%

das idades observadas estão entre 16 e 62 anos, o que

mais uma vez concorda com a regra empírica desde

que a distribuição estudada é altamente assimétrica.

Esse resultado também confirma o critério de

Tchebycheff que define no mínimo 75% da

observações para o intervalo SX 2± .

2.9 – COEFCIENTE DE VARIAÇÃO DE PEARSON

♦ A Amplitude total (R), Variância (S2) e o desvio

padrão (S), são medidas absolutas de dispersão.

Mostraremos agora uma medida relativa de

dispersão, denominada de Coeficiente de Variação

(C.V.), definida como:

100. ×=X

SVC

♦ Onde S = desvio padrão amostral x = média

amostral.

2.10 – REGRAS EMPÍRICAS PARA

INTERPRETAÇÕES DO C.V

♦ Se

≥<≤

<

dispersão elevada %30.

dispersão média se- têm%30%15

disperão baixa %15.

VC

CV

VC

2.11 – ESCORE PADRONIZADO (Z)

♦ Outra medida relativa de dispersão para uma medida

Xi.

S

XXZ i

i−=

♦ Um escore Zi negativo indica que a observação Xi

está à esquerda da média, enquanto um escore

positivo indica que a observação está á direita da

média.

♦ Exemplos: São dados, os médios e os desvios

padrões das avaliações de duas disciplinas:

Português Matemática

5,6=PX 0,5=MX

2,1=PS 9,0=MS

Relativamente às disciplinas Português e Matemática,

em qual delas obteve melhor performance um aluno

com 7,5 em Português e 6,0 em Matemática?

Determinando es escores padronizados para as notas obtidas temos que:

Português: 83,02,1

5,65,7 =−=PZ

Matemática 11,19,0

0,50,6 =−=MZ

Uma vez que o escore padronizado de Matemática é maior que o de Português, o aluno teve melhor performance na primeira. ♦ Os dados de uma pesquisa revelaram média 0,243 e

desvio padrão 0,052 para determinada variável.

Verificar se os dados 0,380 e 0,455 podem ser

considerados observações da referida variável.

Para Xi = 0,380

63,2052,0

243,0380,0 =−=iZ

Para Xi = 0,455

08,4052,0

243,0455,0 =−=iZ

Como podemos observar, o dado 0,455 tem escore

padronizado maior que 3, isto significa dizer que esta

observação foge da dimensão esperada (denominada de

outliers) e portanto pode ser descartada. Por outro lado,

o dado 0,38, cujo escore padronizado foi igual a 2,63

pode ser considerado um dado normal.

2.12 – MEDIDAS DE ASSIMETRIA

♦ Mede o grau de afastamento de uma distribuição da

unidade de simetria, a mediana.

♦ Em uma distribuição simétrica, a média, a mediana e

a moda têm os mesmos valores.

A figura acima representa o gráfico de uma distribuição

simétrica.

♦ Em uma distribuição assimétrica positiva ou

assimétrica à direita, tem-se:

XXM o << ~

♦ Como ilustra o gráfico abaixo.

♦ Já para uma distribuição assimétrica negativa, ou

assimétrica à esquerda, tem-se:

oMXX << ~

♦ Segundo a ilustração abaixo

♦ Entre as diversas fórmulas para a determinação do

coeficiente de assimetria, podemos citar como úteis

as duas seguintes:

10 Coeficiente de Pearson:

S

MXAS 0−=

20 Coeficiente de Pearson:

13

31~2

QQ

XQQAS

−−+=

♦ Se:

<>=

negativa aassimétric é ãodistribuiç a que se-diz ,0

positiva aassimétric é ãodistribuiç a que se-diz ,0

simétrica é ãodistribuiç a que se-diz ,0

AS

AS

AS

2.13 – Exemplo: Dada a distribuição amostral, calcular os

dois coeficientes de assimetria de Pearson.

Salário ($1000) 30 a 50 50 a 100 100 a 150

Empregados 80 50 30

Para determinar os dois coeficientes de Pearson, necessitamos calcular a média, a moda, o desvio padrão, os 10 e 30 quartis e a mediana. Assim, temos que: Classes

iF iX ii FX ii FX 2 hFi ÷ acF

30 a 50 80 40 3200 128000 42080 =÷ 82

50 a 100 50 75 3750 281250 15050 =÷ 130

100 a 150 30 125 3750 468750 6,05030 =÷ 160

Σ 160 10700 878000 ♦ Média:

875,66160

10700 =∴=∑= Xn

FXX ii

♦ Moda:

429,412034

430

21

1 =×+

+=∆+∆

∆+= hlM Moo

♦ Observe que não sendo as classes de mesma amplitude, foi necessário determinar-se a amplitude relativa, ou seja, hFi ÷ . Assim a amplitude relativa

da classe modal é igual a 4 de modo que 41 =∆ e 3142 =−=∆ .

♦ Cálculo da variância:

( )

( )62,1021

16010700

8780001591

11

22

222

=

−=

=

∑−−

=

S

n

FXFX

nS ii

ii

♦ Cálculo do Desvio Padrão:

96,3162,10212 === SS

♦ Cálculo de XQQ~ e , 31 :

402080

04030

1

4

11 =−+=

∑−

+=QF

hfn

QlQ

905050

8012050

3

43

33 =−+=

∑−

+=QF

hfn

QlQ

502080

08030

2~ =−+=∑−

+=

MdF

hfn

MdlX

♦ Cálculo dos Coeficientes de Assimetria

796,096,31

429,41875,660 =−=−=S

MXAS

6,04090

5029040~

2

13

31 =−

×−+=−

−+=QQ

XQQAS

♦ Conclusão:

Como nos dois casos AS > 0, a distribuição é positivamente sim