5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i...

23
5. Análise descritiva com dados agrupados Em algumas situações, os dados podem ser apresentados diretamente nas tabelas de frequências. Netas situações devemos utilizar estratégias específicas para obter as medidas descritivas de posição e de dispersão. A) Variáveis discretas: para variáveis discretas os resultados com dados agrupados são os mesmos quando se tem a amostra, pois esta pode ser recomposta com as frequências da tabela. Exemplo 3: Dados coletados em entrevistas com 500 pessoas sendo coletadas informações sobre o tempo de casamento até o primeiro divórcio e o número de divórcios de cada. Variável discreta: X = número de divórcios por indivíduo Tabela de frequências. Divórcios = xi ni fi Fac xi fi ni xi 2 1 240 0.480 0.480 0.480 240 2 125 0.250 0.730 0.500 500 3 81 0.162 0.892 0.486 729 4 48 0.096 0.988 0.384 768 5 6 0.012 1.000 0.060 150 Total 500 1.000 1.910 2387 i) Média amostral: k é o número de classes na tabela de frequências, então, a média amostral pode ser calculada fazendo

Transcript of 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i...

Page 1: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

5. Análise descritiva com dados agrupados

Em algumas situações, os dados podem ser apresentados

diretamente nas tabelas de frequências. Netas situações devemos

utilizar estratégias específicas para obter as medidas descritivas de

posição e de dispersão.

A) Variáveis discretas: para variáveis discretas os resultados

com dados agrupados são os mesmos quando se tem a

amostra, pois esta pode ser recomposta com as frequências da

tabela.

Exemplo 3: Dados coletados em entrevistas com 500 pessoas

sendo coletadas informações sobre o tempo de casamento até o

primeiro divórcio e o número de divórcios de cada.

Variável discreta: X = número de divórcios por indivíduo

Tabela de frequências.

Divórcios = xi ni fi Fac xi fi ni xi2

1 240 0.480 0.480 0.480 240

2 125 0.250 0.730 0.500 500

3 81 0.162 0.892 0.486 729

4 48 0.096 0.988 0.384 768

5 6 0.012 1.000 0.060 150

Total 500 1.000 − 1.910 2387

i) Média amostral: k é o número de classes na tabela de

frequências, então, a média amostral pode ser calculada

fazendo

Page 2: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

k

i

ii

k

i

ii

n

jj

n

nx

n

nx

n

x

x11

1,

ou seja,

k

iii fxx

1

.

Portanto, no exemplo temos:

k

iii fxx

1

= 1.91 divórcios (≈ 2 divórcios)

ii) Variância e desvio padrão amostrais: da mesma forma como

no caso anterior, podemos obter a variância amostral fazendo:

k

iii

n

jj xnx

1

2

1

2.

Desta forma,

13.1499

95.562

)1500(

)91.1(5002387

)1(

2222

n

xnxs i

06.1s divórcios (≈ 1 divórcio)

iii) Mediana: a mediana pode ser obtida por meio da frequência

acumulada.

Como a frequência acumulada da mediana é 0.50,

Fac[med(x)] = 0.50,

Page 3: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

basta identificar a classe xi para a qual Fac(xi) ≥ 0.50, portanto,

med(x) = 2 divórcios (Fac em xi = 2 é maior que 0.50)

iv) Quartis: para os quartis, procedemos da mesma forma como

para e mediana, pois as frequências acumuladas de Q1 e Q3 são

0.25 e 0.75, respectivamente, ou seja

Fac(Q1) = 0.25 e Fac(Q3) = 0.75.

Desta forma, os quartis 1 e 3 são obtidos identificando as classes

para as quais Fac(xi) ≥ 0.25 e Fac(xi) ≥ 0.75, respectivamente.

11Q divórcio (Fac em xi = 1 é maior que 0.25)

33Q divórcios (Fac em xi = 3 é maior que 0.75)

Outra representação para a tabela pode ser obtida representando-se

os desvios )( xxi diretamente:

Divórcios = xi ni fi Fac xi fi (xi – x ) ni (xi – x )2

1 240 0.480 0.480 0.480 -0.910 198.744

2 125 0.250 0.730 0.500 0.090 1.013

3 81 0.162 0.892 0.486 1.090 96.236

4 48 0.096 0.988 0.384 2.090 209.669

5 6 0.012 1.000 0.060 3.090 57.2886

Total 500 1.000 – 1.910 – 562.950

Média amostral: ii fxx = 1.91 divórcios

Variância amostral:

13.1499

95.562

)1(

22

n

xxs i

Page 4: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

No exemplo acima, a localização das medidas de posição mediana

e quartis ficou bastante facilitada pela configuração da tabela.

Atenção especial, no entanto, deve ser dedicada quanto alguns

valores da variável X, totalizam as frequências acumuladas

referentes às medidas desejadas. Nestes casos, devemos observar a

posição da medida desejada na amostra.

Por exemplo, considere a tabela abaixo representando a

distribuição de frequências de uma variável X.

xi ni n acum. fi Fac xi fi ni xi2

2 3 3 0.083 0.083 0.167 12

3 6 9 0.167 0.250 0.500 54

4 9 18 0.250 0.500 1.000 144

5 5 23 0.139 0.639 0.694 125

6 6 29 0.167 0.806 1.000 216

7 4 33 0.111 0.917 0.778 196

8 3 36 0.083 1.000 0.667 192

Total 36 – 1.000 – 4.806 939

Então:

média amostral:

k

iii fxx

1

= 4.806

variância amostral: )136(

)806.4(36939

)1(

2222

n

xnxs i

071.335

485.1072 s

desvio padrão amostral: 752.1s

Page 5: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

A mediana está entre a terceira e quarta classes, pois

Fac(4) = 0.50.

Desta forma, vemos diretamente da tabela que:

5.42

54)(

xmed

De fato, a mediana ocupa a posição: 5.182

136

2

1

n, logo,

5.42

54

2)(

)19()18(

xxxmed .

Para a obtenção dos quartis, o procedimento é semelhante.

Como n é par, podemos encontrar os quartis como as observações

centrais das metades inferior e superior à mediana.

Desta forma, Q1 está entre a segunda e terceira classes. Como

metade das observações é igual a 18, Q1 ocupa a posição:

5.92

118

,

sendo igual a: 5.32

43

2

)10()9(

1

xx

Q .

Contudo, Q1 pode ser obtido diretamente da tabela, visto que

Fac(3) = 0.25.

Page 6: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

Podemos ver que Q3 pertence à quinta classe, pois Fac(6) ≥ 0.75,

ou seja,

0.63 Q .

Nota: Caso seja escolhido o método da interpolação introduzido

por Murteira (2002), teremos:

a) A posição de Q1 é dada por 75.94

3

n, logo:

)34(75.03)(75.0 )9()10()9(1 xxxQ

75.31 Q .

b) Posição de Q3: 25.274

13

n, logo:

)66(75.06)(25.0 )27()28()27(3 xxxQ

00.63 Q .

Page 7: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

B) Variáveis Contínuas: no caso de variáveis contínuas os

resultados com dados agrupados não são os mesmos quando se

tem a amostra.

Neste caso, faz-se uma aproximação a partir da suposição de

que os dados estão distribuídos de maneira uniforme dentro da

classe.

A partir desta suposição, como as classes têm amplitude h,

tomamos os seus pontos médios como referência e, a partir daí,

procedemos da mesma maneira como no caso anterior para o

cálculo de x e s2.

Para as medidas de posição, com a suposição de uniformidade

dos pontos nas classes, devemos identificar o ponto exato para o

qual a frequência acumulada é igual àquela desejada.

Exemplo 4: Dados coletados em entrevistas com 500 pessoas

sendo coletadas informações sobre o tempo de casamento até o

primeiro divórcio e o número de divórcios de cada.

Variável contínua: X = tempo, em anos, até o primeiro divórcio.

Tabela de frequências.

Anos até 1º.

divórcio

Pto. médio

xi ni fi Fac xi fi ni xi

2

0 |---- 6 3 280 0.56 0.56 1.68 2520

6 |---- 12 9 140 0.28 0.84 2.52 11340

12 |---- 18 15 60 0.12 0.96 1.80 13500

18 |---- 24 21 15 0.03 0.99 0.63 6615

24 |---- 30 27 5 0.01 1.00 0.27 3645

Total

500 1.00 – 6.90 37620

i) Média amostral:

ii fxx = 6.90 anos

Page 8: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

ii) Variância e desvio padrão amostrais:

685.27499

13815

)1500(

)90.6(50037620

)1(

2222

n

xnxs i

26.5s anos

iii) Mediana:

Pertence à 1ª classe, pois sua Fac é maior do que 0.50.

Regra de três

50.0

56.0

0)(

)06(

xmed,

de onde se obtêm:

50.0656.0)( xmed

56.0

50.06)(

xmed

36.5)( xmed anos

Page 9: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

iv) Quartis:

Q1 pertence à 1ª classe, pois sua Fac é maior do que 0,25.

Regra de três

25.0

56.0

0

)06(

1

Q,

25.0656.01 Q

68.21 Q anos

Q3 pertence à 2ª classe, pois sua Fac é maior do que 0,75.

A frequência cumulada até a classe anterior é 0.56, portanto,

faltam 19.056.075.0 de frequência.

Page 10: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

Regra de três

19.0

28.0

6

)612(

3

Q,

19.0628.063 Q

07.103 Q anos

Outra representação:

Anos = xi

ptos. médios ni fi Fac xi fi (xi – x ) ni (xi – x )2

3 280 0.56 0.56 1.68 -3.9 4258.8

9 140 0.28 0.84 2.52 2.1 617.4

15 60 0.12 0.96 1.80 8.1 3936.6

21 15 0.03 0.99 0.63 14.1 2982.15

27 5 0.01 1.00 0.27 20.1 2020.05

Total 500 1.00 − 6.90 − 13815

Média amostral: ii fxx = 6.90 anos

Variância amostral:

685.27499

13815

)1(

22

n

xxs i anos2

Page 11: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

v) Moda:

Para dados agrupados, ao invés da moda, pode-se considerar a

classe modal , que neste caso é a 1ª classe, com frequência igual

a 280, ou seja, a classe modal seria: )6;0[ anos.

Porém, uma opção mais apropriada seria a moda de Czuber,

calculada a seguir:

Neste caso: LI = 0, h = 6, da = 280 e dp = 140, portanto:

)140280(

28060)(

xmocz

4420

2806

czmo

Page 12: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

Exemplo 3: Notas no teste GMAT na seleção de alunos de

graduação numa universidade americana.

Tabela de frequências.

Escores Pto. médio: xi ni fi xi fi ni xi2

300 |-- 350 325 3 0.035 11.5 316875

350 |-- 400 375 7 0.082 30.9 984375

400 |-- 450 425 18 0.212 90.0 3251250

450 |-- 500 475 24 0.282 134.1 5415000

500 |-- 550 525 15 0.176 92.6 4134375

550 |-- 600 575 10 0.118 67.6 3306250

600 |-- 650 625 4 0.047 29.4 1562500

650 |-- 700 675 4 0.047 31.8 1822500

Totais 85 1.000 488.0 20793125

i) Média amostral: ii fxx = 488.0 pts

ii) Variância e desvio padrão amostrais:

2.655884

2024224020793125

)1(

22

2

n

xnxns

ipts2

98.802.6558 s pts

Histograma:

Page 13: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

iii) Moda: Pelo método de Czuber, temos:

LI = 450, h = 50, da = 6 e dp = 9, portanto:

15

300450

)96(

650450)(

xmocz

470)( xmocz

5.1. Percentis amostrais pelo gráfico da distribuição

acumulada

Escores Pto. médio: xi ni fi Fac

300 |-- 350 325 3 0.035 0.035

350 |-- 400 375 7 0.082 0.117

400 |-- 450 425 18 0.212 0.329

450 |-- 500 475 24 0.282 0.611

500 |-- 550 525 15 0.176 0.787

550 |-- 600 575 10 0.118 0.905

600 |-- 650 625 4 0.047 0.952

650 |-- 700 675 4 0.048 1.000

Totais 85 1.000

Page 14: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

Obtenção da mediana por semelhança de triângulos:

Regra de três:

329.050.0

329.0611.0

450)(

450500

xmed,

171.050282.0450)( xmed

3.480)( xmed pts

Page 15: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

O mesmo procedimento pode ser realizado para a obtenção

dos quartis.

117.025.0

117.0329.0

400

400450

1

Q,

079.050212.04001 Q

6.4181 Q pts

611.075.0

611.0787.0

500

500550

3

Q,

139.050176.05003 Q

5.4391 Q pts

Page 16: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

A seguir são apresentados mais 2 exemplos com dados

agrupados: o primeiro caso com dados discretos e o segundo,

dados contínuos.

Exemplo 5: dados coletados em entrevistas com 48 mulheres de

uma comunidade rural sobre o número de vezes que ficaram

grávidas (dados fictícios).

X = variável número de gravidezes por mulher

Tabela de frequências

ix in if acF ii fx 2)( xxn ii

1 7 0.146 0.146 0.146 30.343

2 13 0.271 0.417 0.542 15.219

3 11 0.229 0.646 0.687 0.074

4 7 0.146 0.792 0.584 5.899

5 6 0.125 0.917 0.625 22.072

6 4 0.083 1.000 0.498 34.059

Total 48 1.000 - 3.082 107.666

Calcular a média, variância, mediana, moda, quartis:

i) Cálculo da média:

)229.03()271.02()146.01(1

k

ii fxx

)083.06()125.05()146.04(

498.0625.0584.0687.0542.0146.01

k

ii fxx

3082.31

k

ii fxx gravidezes

Page 17: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

ii) Cálculo da variância e desvio padrão:

29.247

666.107

11

22

k

i

ii

n

xxns

514.129,2 s gravidezes

iii) Cálculo da mediana:

3)( xmed gravidezes pois Fac(3) > 0.50.

iv) Cálculo dos quartis:

21 Q gravidezes pois Fac(2) > 0.25.

43 Q gravidezes pois Fac(4) > 0.75.

v) 2)( xmo gravidezes observação com maior

frequência.

Figura 1: Histograma do número de gravidezes/mulher (dados fictícios).

Page 18: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

Exemplo 6: Salário de 36 funcionários da Companhia MB em

número de salários mínimos (dados fictícios)

X = salário (sm)

Tabela de frequências

classes Pto.

Médio ix in if acF ii fx 2)( xxn ii

04 |-- 08 6 10 0.28 0.28 1.68 274.576

08 |-- 12 10 12 0.33 0.61 3.30 18.451

12 |-- 16 14 8 0.22 0.83 3.08 60.941

16 |-- 20 18 5 0.14 0.97 2.52 228.488

20 |-- 24 22 1 0.03 1.00 0.66 115.778

Total 36 1.000 - 11.24 698.234

Calcular a média, variância, mediana, moda, quartis: (no caso, xi, i = 1, 2, …, k são os pontos médios das classes)

i) Cálculo da média:

24.111

k

ii fxx sm

Page 19: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

ii) Cálculo da variância e desvio padrão:

950.19

35

234.698

11

22

kii

n

xxns

467.4950.19 s sm

iii) Mediana: )(xmed pertence à 2ª classe, pois a 2ª classe

acumula mais de 50% dos dados ( 50.0acF ).

Como até a classe anterior temos 0.28 de distribuição

acumulada, os 0.22 restantes para totalizar 0.50 devem ser obtidos

da 2ª classe. Assim, por meio da proporcionalidade entre os

retângulos na figura (regra de três), obtém-se a mediana.

Logo, 22.0

33.0

8)(

)812(

xmed,

de onde se obtêm:

22.0)812(33.08)( xmed

33.0

22.048)(

xmed

67.10)( xmed sm

Page 20: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

iv) Quartis: Para os quartis o procedimento é semelhante ao da

mediana.

Para o quartil 1Q devemos encontrar a classe que acumula

uma frequência igual ou maior do que 0.25.

Desta forma, 1Q pertence à 1ª classe, que acumula uma

frequência igual a 0.28. Num procedimento semelhante ao

anterior, temos:

Portanto,

25.0

28.0

4

)48(

1

Q

de onde se obtêm:

28.0

25.0441

Q

57.71 Q sm

3

Q pertence à 3ª classe, que acumula uma frequência igual a

0.83 (> 0.75).

Desta forma, temos:

Page 21: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

Portanto,

14.0

22.0

12

)1216(

3

Q

de onde se obtêm:

22.0

14.04123

Q

55.143 Q sm

Page 22: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F

Os cálculos acima podem resumidos na fórmula dos percentis

amostrais. No caso a mediana é o percentil 0.50 (50%) e sua

fórmula é dada por:

i

ca

inff

FhLxmed

)1(50.0)(

,

Em que:

h = amplitude da classe;

Linf = limite inferior da classe da mediana;

fi = frequência relativa da classe que contém a mediana;

)1(caF = frequência acumulada até a classe imediatamente

anterior à classe da mediana.

Obs: Para os quartis 1

Q e 3

Q a fórmula é a mesma, substituindo

apenas a frequência 0.5 por 0.25 e 0.75, respectivamente.

Page 23: 5. Análise descritiva com dados agrupados - ufscar.br · Tabela de frequências. Divórcios = x i n i f i F ac x i f i n i x i 2 ... basta identificar a classe x i para a qual F