Estatística Descritiva -...

53
Probabilidade e Estatística Prof. Dr.Narciso Gonçalves da Silva http://paginapessoal.utfpr.edu.br/ngsilva Estatística Descritiva

Transcript of Estatística Descritiva -...

Probabilidade e Estatística

Prof. Dr.Narciso Gonçalves da Silva http://paginapessoal.utfpr.edu.br/ngsilva

Estatística Descritiva

Distribuição de frequência

Para obter informações de interesse sobre

a característica em estudo, deve-se agrupar

os dados obtidos em uma distribuição de

frequência, onde os valores observados

não mais aparecerão individualmente.

Distribuição de frequência

Os dados abaixo representam as idades (em

anos) dos alunos de Estatística de um

determinado curso da UTFPR de Curitiba do

ano de 2010.

20 21 21 21 22 22 22

22 23 23 23 23 23 23

23 24 24 24 24 24 24

24 24 24 25 25 25 25

25 25 26 26 26 26 28 ‘

Ro

l C

resce

nte

Distribuição de frequência

Idade (xi) Número de alunos (fi)

20 1

21 3

22 4

23 7

24 9

25 6

26 4

27 0

28 1

Total 35

fac

1

4

8

15

24

30

34

34

35

fr

1/35

3/35

4/35

7/35

9/35

6/35

4/35

0/35

1/35

1

Histograma

HISTOGRAMA

0

2

4

6

8

10

20 21 22 23 24 25 26 27 28

idades

fre

ên

cia

Distribuição de frequência em classes

Considere o exemplo:

As alturas (em metros) de 30 alunos de uma

sala de aula são os seguintes:

1,50 1,53 1,68 1,51 1,63 1,65

1,54 1,55 1,65 1,56 1,57 1,50

1,60 1,48 1,61 1,52 1,63 1,47

1,52 1,50 1,52 1,46 1,45 1,66

1,65 1,59 1,51 1,58 1,62 1,60

Chama-se classe o intervalo considerado para

as alturas.

Para se construir uma distribuição de freqüência

utilizando classes, deve-se determinar:

a) Número de classes (k):

Utiliza-se a Fórmula de Sturges:

k = 1 + 3,32.log n

onde: n = é o número de dados

e k deve ser um número inteiro positivo

b) Amplitude total dos dados (A):

A = Xmax – Xmin, onde Xmax é o valor máximo

da amostra e Xmin é o valor mínimo da amostra

Distribuição de frequência em classes

c) Intervalo de classe (h):

h = A/k

h deve ser um valor de modo que as classes

acomodem todos os dados da amostra

d) Limite inferior (Li) e Limite superior (Ls) da

classe:

Li é o menor valor dos dados da amostra

Ls = Li + h

Distribuição de frequência em classes

Distribuição de frequência em classes

Alturas (m) fi fac xi

1,45 |― 1,49 4 4 1,47

1,49 |― 1,53 8 12 1,51

1,53 |― 1,57 4 16 1,55

1,57 |― 1,61 5 21 1,59

1,61 |― 1,65 4 25 1,63

1,65 |― 1,69 5 30 1,67

Total 30

Medidas de Tendência Central

Medidas de tendência central são medidas

estatísticas, cujos valores estão próximos do

centro de um conjunto de dados dispostos

ordenadamente em rol crescente ou decrescente. As mais conhecidas são:

• Média aritmética

• Média geométrica

• Média harmônica

• Mediana

• Moda

Co

nce

ito

s

Média Aritmética

a) Dados brutos

A média aritmética de um conjunto de “n” valores

x1, x2, x3, ... ,xn é definida por:

n

x

n

xxxxx

n

i

i

n

1321 ...

Exemplo:

As idades (em anos) de 5 jogadores de futebol são: 18, 16,

15, 17, 17

A média aritmética das idades destes jogadores é:

6,165

171715161854321

n

xxxxxx anos

Me

did

as d

e T

en

ncia

Ce

ntr

al

Média Aritmética

b) Dados agrupados

Se x1, x2, x3,...,xk ocorrem com as freqüências f1,

f2, f3, ... ,fk ,respectivamente, a média aritmética é

dada por:

n

fx

n

fxfxfxfxx

k

i

ii

kk

1332211

........

Caso os dados sejam distribuídos em classes,

os valores x1, x2, x3,...,xk correspondem aos

pontos médios das “k” classes, ou seja:

2

sii

LLx

M

ed

ida

s d

e T

en

ncia

Ce

ntr

al

Média Aritmética (Exemplo)

Idade

(xi)

Número de

alunos (fi) xi.fi

20 1 20

21 3 63

22 4 88

23 7 161

24 9 216

25 6 150

26 4 104

27 0 0

28 1 28

Total 35 830

...714,2335

830==x

71,23~x

Me

did

as d

e T

en

ncia

Ce

ntr

al

anos

Média Aritmética (Exemplo)

Alturas (m) fi xi xi.fi

1,45 |― 1,49 4 1,47 5,88

1,49 |― 1,53 8 1,51 12,08

1,53 |― 1,57 4 1,55 6,20

1,57 |― 1,61 5 1,59 7,95

1,61 |― 1,65 4 1,63 6,52

1,65 |― 1,69 5 1,67 8,35

Total 30 46,98

metros==x 57,1~...5666,130

98,46

Me

did

as d

e T

en

ncia

Ce

ntr

al

Média Geométrica

a) Dados brutos

A média geométrica de um conjunto de “n” valores

x1, x2, x3, ... ,xn é definida por:

nnxxxx .... 321 n

xn

i

i1

log

10Mg = =

Exemplo:

A média geométrica das idades dos 5 jogadores de futebol

do exemplo citado anteriormente é:

6,1617.17.15.16.185 Mg = anos

Me

did

as d

e T

en

ncia

Ce

ntr

al

Média Geométrica

b) Dados agrupados

Se x1, x2, x3,...,xk ocorrem com as freqüências f1,

f2, f3, ... ,fk ,respectivamente, a média geométrica é

dada por:

n f

k

fff kxxxx .... 321

321 Mg = n

xfk

i

ii1

log.

10=

Me

did

as d

e T

en

ncia

Ce

ntr

al

Média Geométrica (Exemplo)

Idade

(xi)

Número de

alunos (fi)

20 1

21 3

22 4

23 7

24 9

25 6

26 4

27 0

28 1

Total 35

35

09,48

10Mg =

Mg = 23,66 anos

fi.log xi

1,30

3,97

5,37

9,53

12,42

8,39

5,66

0

1,45

48,09 Me

did

as d

e T

en

ncia

Ce

ntr

al

Média Geométrica (Exemplo)

Alturas (m) fi xi fi.log xi

1,45 |― 1,49 4 1,47 0,67

1,49 |― 1,53 8 1,51 1,43

1,53 |― 1,57 4 1,55 0,76

1,57 |― 1,61 5 1,59 1,01

1,61 |― 1,65 4 1,63 0,85

1,65 |― 1,69 5 1,67 1,11

Total 30 5,83

Mg = 56,11010 30

83,5log.

1

==

n

xfk

=iii

metros Me

did

as d

e T

en

ncia

Ce

ntr

al

Média Harmônica

a) Dados brutos

A média harmônica de um conjunto de “n” valores

x1, x2, x3, ... ,xn é definida por:

n

h

x++

x+

x+

x

n=M

1...

111

321

Exemplo:

A média harmônica das idades dos 5 jogadores de futebol

do exemplo anterior é:

Me

did

as d

e T

en

ncia

Ce

ntr

al

54,16

17

1

17

1

15

1

16

1

18

1

5=

++++

=Mh anos

Média Harmônica

b) Dados agrupados

Se x1, x2, x3,...,xk ocorrem com as freqüências f1,

f2, f3, ... ,fk ,respectivamente, a média aritmética é

dada por:

Caso os dados sejam distribuídos em classes,

os valores x1, x2, x3,...,xk correspondem aos

pontos médios das “k” classes.

Me

did

as d

e T

en

ncia

Ce

ntr

al

n

k

k

=ii

h

x

f++

x

f+

x

f+

x

f

f

=M

...3

3

2

2

1

1

1

Média Harmônica (Exemplo)

Alturas (m) fi xi fi/xi

1,45 |― 1,49 4 1,47 2,72

1,49 |― 1,53 8 1,51 5,30

1,53 |― 1,57 4 1,55 2,58

1,57 |― 1,61 5 1,59 3,14

1,61 |― 1,65 4 1,63 2,45

1,65 |― 1,69 5 1,67 2,99

Total 30 19,18

Me

did

as d

e T

en

ncia

Ce

ntr

al

56,118,19

30

...3

3

2

2

1

1

1 ==

x

f++

x

f+

x

f+

x

f

f

=M

n

k

k

=ii

h

m

Mediana

a) Dados brutos

A mediana Me de um conjunto de “n” valores

ordenado x1, x2, x3,...,xn é representada pelo

valor central do conjunto para “n” ímpar e pela

média aritmética dos dois valores centrais para

“n” par.

Exemplos:

a) 3, 3, 4, 5, 7, 8, 9, 10, 12

Como n = 9, então, Me = 7

b) 3, 3, 4, 5, 7, 7, 9, 10

Como n = 8, então, Me = 62

75

Me

did

as d

e T

en

ncia

Ce

ntr

al

Mediana

a) Dados agrupados em intervalos de classes

Utiliza-se a expressão:

hf

fPLM

eM

ac

ie .'

2

nP Onde: é a posição da classe mediana

iL

acf '

eMf

h

é o limite inferior da classe mediana

é a frequência acumulada da classe

anterior à classe mediana

é frequência da classe mediana

é intervalo da classe mediana

Me

did

as d

e T

en

ncia

Ce

ntr

al

Mediana

Exemplo 1:

Determine a mediana da distribuição abaixo.

Idade

(xi)

Número de

alunos (fi) fac

20 1 1

21 3 4

22 4 8

23 7 15

24 9 24

25 6 30

26 4 34

27 0 34

28 1 35

Total 35

Posição da mediana:

altura==P a5,172

35

Me = 24 anos

Como n é ímpar, a

mediana é a 18ª idade

Me

did

as d

e T

en

ncia

Ce

ntr

al

Mediana

Exemplo 2:

Determine a mediana da distribuição abaixo.

Alturas (m) fi fac

1,45 |― 1,49 4 4

1,49 |― 1,53 8 12

1,53 |― 1,57 4 16

1,57 |― 1,61 5 21

1,61 |― 1,65 4 25

1,65 |― 1,69 5 30

Total 30

Posição da mediana:

hf

fP+L=M

eM

ac

ie ).-

(

'

altura==P a152

30

04,0).4

12-15(53,1 +=Me

Me = 1,56 metros

Cálculo da mediana:

Me

did

as d

e T

en

ncia

Ce

ntr

al

Moda

a) Dados brutos

A moda Mo de um conjunto de “n” valores x1,

x2, x3,...,xn é o número desse conjunto que

possuir a maior repetição. Se o conjunto não

tiver valores repetidos não existirá moda

(amodal) e se dois valores estiverem

igualmente repetidos, tem-se então duas

modas e o conjunto será dito bimodal.

A moda é o valor ao qual está associado a

freqüência mais alta.

Me

did

as d

e T

en

ncia

Ce

ntr

al

Moda

a) Dados agrupados em intervalos de classes

Fórmula de Czuber: hLM io .21

1

iL

1

2

h

Onde:

é o limite inferior da classe modal. Chama-se classe

modal à classe de maior freqüência absoluta

é a diferença entre a freqüência da classe modal e

a freqüência da classe imediatamente anterior

é a diferença entre a freqüência da classe modal e a

freqüência da classe imediatamente posterior

é o intervalo da classe modal. Me

did

as d

e T

en

ncia

Ce

ntr

al

Moda

Exemplo 1:

Determine a moda da distribuição abaixo.

Idade

(xi)

Número de

alunos (fi)

20 1

21 3

22 4

23 7

24 9

25 6

26 4

27 0

28 1

Total 35

Moda é a idade que mais

se repete, ou seja, a que

tem maior frequência.

Logo, Mo = 24 anos.

Me

did

as d

e T

en

ncia

Ce

ntr

al

Moda

Exemplo 2:

Determine a moda da distribuição abaixo.

k Alturas (m) fi fac

1 1,45 |― 1,49 4 4

2 1,49 |― 1,53 8 12

3 1,53 |― 1,57 4 16

4 1,57 |― 1,61 5 21

5 1,61 |― 1,65 4 25

6 1,65 |― 1,69 5 30

Total 30

Classe modal: 2ª

hΔ+Δ

Δ+L=M io ).(

21

1

04,0).44

4(49,1+

+=Mo

Mo = 1,51 metros

Cálculo da moda:

Me

did

as d

e T

en

ncia

Ce

ntr

al

Medidas de Dispersão

As medidas de tendência central, por si só, não

são suficientes para caracterizar duas

distribuições estatísticas. Exemplo:

Dois candidatos à emprego fizeram 5 provas e

vamos comparar seus rendimentos com base na

media aritmética.

Candidato A: 70, 71, 69, 70, 70 Média = 70

Candidato B: 40, 80, 98, 62, 70 Média = 70

Com base somente na média aritmética diríamos

que os dois candidatos apresentaram o mesmo

rendimento. Porém, como podemos observar o

candidato A apresentou notas mais uniformes.

Co

nce

ito

s

Medidas de Dispersão

Para avaliar quantitativamente o grau de

variabilidade ou dispersão dos valores de um

conjunto de números em torno do valor médio,

utiliza-se ferramentas estatísticas denominadas

medidas de dispersão. As principais medidas são:

• Amplitude total

• Desvio médio

• Variância

• Desvio-padrão

• Coeficiente de variação

Co

nce

ito

s

Amplitude Total

Dia Amplitude Empregado

1° 2° 3° 4° 5° Média

total

A 82 70 65 60 73 70 82 – 60 = 22

B 60 78 68 62 82 70 82 – 60 = 22

C 53 72 75 75 75 70 75 – 53 = 22

Exemplo:

A tabela abaixo apresenta o rendimento diário (em %) de

três empregados:

Amplitude total é a diferença entre o maior e o

menor valor dos dados.

Muitas vezes a amplitude total não é a medida de

dispersão mais adequada para avaliar a dispersão, como

mostrou o exemplo anterior.

Me

did

as d

e D

isp

ers

ão

Desvio Médio (d)

O desvio médio de um conjunto de “n” valores

x1, x2, x3, ... , xn é dada pela expressão:

n

xx∑n

=ii

1

-

d =

Para dados agrupados:

n

xxf∑k

=iii

1

-

d =

Esta medida de dispersão considera todos os

valores do conjunto de dados.

Me

did

as d

e D

isp

ers

ão

Variância Amostral (s2)

1-

)-(1

2

n

xx∑n

=ii

A variância de um conjunto de “n” valores x1, x2,

x3, ... , xn é a média aritmética dos quadrados

do desvio médio de cada valor se estes dados

são de uma população.

s2 =

1-

.)-(1

2

n

fxx∑k

=iii

Para dados agrupados: s2 =

Me

did

as d

e D

isp

ers

ão

Se os dados são de uma amostra, a variância é

dada pela expressão:

Desvio-padrão (s)

Desvio-padrão é a raiz quadrada da variância,

ou seja:

1-

)-(1

2

n

xx∑n

=ii

s =

1-

.)-(1

2

n

fxx∑k

=iii

s =

para dados brutos

para dados agrupados Me

did

as d

e D

isp

ers

ão

Desvio-padrão (s)

s = 3

1 2 3 4 5 6 7

s = 1,0

1 2 3 4 5 6 7

s = 0,8

1 2 3 4 5 6 7 1 2 3 4 5 6 7

s = 0 7

6

5

4

3

2

1

0

O desvio-padrão cresce quando a dispersão dos dados aumenta Me

did

as d

e D

isp

ers

ão

Coeficiente de Variação (CV)

Coeficiente de variação é a razão entre o

desvio-padrão e a média aritmética, em

porcentagem, ou seja:

100.x

scv =

Me

did

as d

e D

isp

ers

ão

Exemplo 1

Idade

(xi)

Número

de

alunos

(fi)

20 1 13,76

21 3 22,03

22 4 11,70

23 7 3,53

24 9 0,76

25 6 9,98

26 4 20,98

27 0 0

28 1 18,40

Total 35 101,14

ii fxx .)-( 2

1-

.)-(1

2

n

fxx∑k

=iii

s =

1-35

14,101s =

s = 1,72 anos

100.x

scv =

%25,7=100.71,23

72,1cv =

Me

did

as d

e D

isp

ers

ão

Exemplo 2

Alturas (m) fi xi

1,45 |― 1,49 4 1,47 0,0324

1,49 |― 1,53 8 1,51 0,0200

1,53 |― 1,57 4 1,55 0,0004

1,57 |― 1,61 5 1,59 0,0045

1,61 |― 1,65 4 1,63 0,0196

1,65 |― 1,69 5 1,67 0,0605

Total 30 0,1374

ii fxx .)-( 2

07,029

1374,0

1-

.)-(1

2

==n

fxx∑k

=iii

%46,4100.57,1

07,0100. ==x

scv =

s = metros Me

did

as d

e D

isp

ers

ão

Medidas de Posição ou Separatrizes

São medidas que dividem um conjunto de

valores em um certo número de partes iguais. A

mediana, por exemplo, divide um conjunto de

dados em duas partes iguais.

Co

nce

ito

s

As outras principais medidas de posição são:

• Quartis

• Decis

• Centis ou Percentis

Quartis

O quartil divide um conjunto de valores ordenado em

quatro partes iguais. O primeiro quartil (Q1) é o valor

que antecede 25% da freqüência abaixo dele e

sucede 75%, segundo quartil (Q2) é igual ao valor da

mediana e terceiro quartil (Q3) é o valor que antecede

75% da freqüência abaixo dele e sucede 25%.

A expressão para cálculo do quartil “i” é a mesma da

mediana:

hf

fP+L=Q

IQ

aciii ).

-(

'

4

.ni=PiOnde a posição do quartil “i” é dada por:

Me

did

as d

e P

osiç

ão

com i = 1, 2, 3

Quartis

Idade

(xi)

Número de

alunos (fi) fac

20 1 1

21 3 4

22 4 8

23 7 15

24 9 24

25 6 30

26 4 34

27 0 34

28 1 35

Total 35

4

.ni=Pi

Exemplo:

Determine o 3º quartil das idades dos 35 alunos:

Posição do Q3:

25,264

35.33 ==P

Entre a 26ª e a 27ª idade

Logo, Q3 = 25 anos

Me

did

as d

e P

osiç

ão

Decis

O decil divide um conjunto de valores

ordenados em dez partes iguais e são

representados por D1, D2, ... , D9. O 5º decil é a

mediana.

A expressão para calcular o decil “i” é:

hf

fP+L=D

ID

aciii ).

-(

'

10

.ni=PiOnde a posição do decil “i” é dada por:

Me

did

as d

e P

osiç

ão

com i = 1, 2, ... , 9

Centis ou Percentis

O centil divide um conjunto de valores

ordenados em 100 partes iguais e são

representados por C1, C2, ... ,C99. O 50º centil é

a mediana e o 25º e 75º centis correspondem

ao 1º e ao 3º quartis, respectivamente.

A expressão para calcular o centil “i” é:

hf

fP+L=C

IC

aciii ).

-(

'

100

.ni=PiOnde a posição do centil “i” é dada por:

Me

did

as d

e P

osiç

ão

com i = 1, 2, 3, ... , 99

Exemplo

Alturas (m) fi fac

1,45 |― 1,49 4 4

1,49 |― 1,53 8 12

1,53 |― 1,57 4 16

1,57 |― 1,61 5 21

1,61 |― 1,65 4 25

1,65 |― 1,69 5 30

Total 30

No exemplo das alturas dos 30 alunos determine o 3º

quartil, 6º decil e 20º centil. Posição do 3º quartil:

hf

fP+L=Q

IQ

aciii ).

-(

'

a==P 5,224

30.33

04,0).4

12-5,22(61,13 +=Q

Q3 = 1,63 metros

Cálculo do 3º quartil:

Me

did

as d

e P

osiç

ão

Interpretação: 75% dos alunos têm

altura menor ou igual a 1,63 m e 25%

das alturas são superiores a 1,63 m

Exemplo

Alturas (m) fi fac

1,45 |― 1,49 4 4

1,49 |― 1,53 8 12

1,53 |― 1,57 4 16

1,57 |― 1,61 5 21

1,61 |― 1,65 4 25

1,65 |― 1,69 5 30

Total 30

Posição do 6º decil:

hf

fP+L=D

ID

aciii ).

-(

'

a==P 1810

30.66

04,0).5

61-81(57,16 +=D

D6 = 1,59 metros

Cálculo do 6º decil:

altura

Me

did

as d

e P

osiç

ão

Exemplo

Alturas (m) fi fac

1,45 |― 1,49 4 4

1,49 |― 1,53 8 12

1,53 |― 1,57 4 16

1,57 |― 1,61 5 21

1,61 |― 1,65 4 25

1,65 |― 1,69 5 30

Total 30

Posição do 20º centil:

hf

fP+L=C

IC

aciii ).

-(

'

a==P 6100

30.2020

04,0).8

4-6(49,120 +=C

C20 = 1,50 metros

Cálculo do 20º centil:

altura

Me

did

as d

e P

osiç

ão

Medidas de Assimetria

As medidas de assimetria procuram

caracterizar o quanto o histograma de uma

distribuição de freqüência se afasta da

condição de simetria em relação à uma medida

de tendência central.

0

2

4

6

8

10

1 2 3 4 5 6 7 8 9

0

2

4

6

8

10

1 2 3 4 5 6 7 8 9

Distribuição assimétrica

positiva

Distribuição assimétrica

negativa

Co

nce

ito

s

Coeficiente de Assimetria de Pearson (A)

s

Mx=A

o-

A

A

O grau de assimetria de uma distribuição de

frequência pode ser avaliada utilizando o

coeficiente de Pearson:

• < 0,15 : distribuição praticamente simétrica A

• 0,15 < < 1 : distribuição assimétrica moderada

• > 1 : distribuição fortemente assimétrica Me

did

as d

e A

ssim

etr

ia

Medidas de Curtose

As medidas de curtose caracterizam uma

distribuição simétrica ou aproximadamente

simétrica quanto ao seu achatamento, tomando

como referência uma distribuição normal, que

será objeto de estudo mais adiante.

0

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9

0

2

4

6

8

10

12

14

16

18

1 2 3 4 5 6 7 8 9

0

2

4

6

8

10

12

14

16

18

1 2 3 4 5 6 7 8 9

Mesocúrtica

(normal)

Platicúrtica Leptocúrtica

Co

nce

ito

s

Coeficiente Percentílico de Curtose (C)

)-(2

-

1090

2575

CC

CC=C

O grau de achatamento com relação a

distribuição normal de uma distribuição de

frequência pode ser avaliado através do

coeficiente percentílico:

• Se C = 0,263: distribuição é mesocúrtica (normal)

• Se C < 0,263: distribuição leptocúrtica (alongada)

• Se C > 0,263: distribuição platicúrtica (achatada)

Onde C10, C25, C75 e C90 são os 10º, 25º, 75º e

90º centis (ou percentis)

Me

did

as d

e C

urt

ose

Exemplo

Alturas (m) fi fac

1,45 |― 1,49 4 4

1,49 |― 1,53 8 12

1,53 |― 1,57 4 16

1,57 |― 1,61 5 21

1,61 |― 1,65 4 25

1,65 |― 1,69 5 30

Total 30

Classifique a distribuição abaixo quanto a assimetria e

curtose

07,0

51,1-1,57=A

s

Mx=A

o-

86,0=A

Distribuição com

assimetria moderada

Me

did

as d

e A

ssim

etr

ia e

Cu

rto

se

Exemplo

Alturas (m) fi fac

1,45 |― 1,49 4 4

1,49 |― 1,53 8 12

1,53 |― 1,57 4 16

1,57 |― 1,61 5 21

1,61 |― 1,65 4 25

1,65 |― 1,69 5 30

Total 30

Logo, a distribuição é

platicúrtica

48,104,0).4

0-3(45,110 =+=C

51,104,0).8

4-7,5(49,125 =+=C

63,104,0).4

21-22,5(61,175 =+=C

263,0316,0)48,1-67,1.(2

1,51-1,63>==C

67,104,0).5

25-27(65,190 =+=C

Me

did

as d

e A

ssim

etr

ia e

Cu

rto

se