Análise Descritiva com Dados Agrupados...... Salário de 36 funcionários da Companhia MB em...
Transcript of Análise Descritiva com Dados Agrupados...... Salário de 36 funcionários da Companhia MB em...
Análise Descritiva com Dados Agrupados
Em algumas situações, os dados podem ser apresentados
diretamente nas tabelas de frequências. Netas situações devemos
utilizar estratégias específicas para obter as medidas descritivas de
posição e de dispersão.
A) Variáveis discretas: para variáveis discretas os resultados
com dados agrupados são os mesmos quando se tem a
amostra, pois esta pode ser recomposta com as frequências da
tabela.
Exemplo 1: dados coletados em entrevistas com 48 mulheres de
uma comunidade rural sobre o número de vezes que ficaram
grávidas (dados fictícios).
X = variável número de gravidezes por mulher
Tabela de frequências
ix in if acF ii fx 2)( xxn ii
1 7 0,146 0,146 0,146 30,343
2 13 0,271 0,417 0,542 15,219
3 11 0,229 0,646 0,687 0,074
4 7 0,146 0,792 0,584 5,899
5 6 0,125 0,917 0,625 22,072
6 4 0,083 1,000 0,498 34,059
Total 48 1,000 - 3,082 107,666
Calcular a média, variância, mediana, moda, quartis:
i) Cálculo da média:
k
iii
k
i
i
i
k
i
ii
n
jj
fxn
nx
n
nx
n
x
x111
1
Portanto:
)229,03()271,02()146,01(1
k
iifxx
)083,06()125,05()146,04(
498,0625,0584,0687,0542,0146,01
k
iifxx
3082,31
k
iifxx gravidezes
ii) Cálculo da variância e desvio padrão:
29,247
666,107
11
2
2
k
i
ii
n
xxns
514,129,2 s gravidezes
iii) Cálculo da mediana:
3)( xmed pois a 3ª classe acumula mais de 50% dos
dados;
iv) Cálculo dos quartis:
21 Q pois a 2ª classe acumula mais de 25% dos dados;
43 Q pois a 4ª classe acumula mais de 75% dos dados;
v) 2)( xmo 2 é a observação com maior frequência.
Figura 1: Histograma do númerdezes/mulher (dados fictícios).
B) Variáveis contínuas: no caso de variáveis contínuas
devemos considerar uma aproximação que assume que os
dados estão distribuídos de maneira homogênea dentro da
classe.
Assim sendo, para o cálculo das estatísticas descritivas,
devemos utilizar o ponto médio do intervalo como referência e
proceder como no caso anterior.
Exemplo 2: Salário de 36 funcionários da Companhia MB em
número de salários mínimos (dados fictícios)
X = salário (sm)
Tabela de frequências
classes Pto.
Médio ix in if acF ii fx 2)( xxn ii
04 |-- 08 6 10 0,28 0,28 1,68 274,576
08 |-- 12 10 12 0,33 0,61 3,30 18,451
12 |-- 16 14 8 0,22 0,83 3,08 60,941
16 |-- 20 18 5 0,14 0,97 2,52 228,488
20 |-- 24 22 1 0,03 1,00 0,66 115,778
Total 36 1,000 - 11,24 698,234
Calcular a média, variância, mediana, moda, quartis: (no caso, xi, i = 1, 2, …, k são os pontos médios das classes)
i) Cálculo da média:
24,111
k
iifxx sm
ii) Cáclculo da variância e desvio padrão:
950,19
35
234,698
11
22
kii
n
xxns
467,4950,19 s sm
iii) )(xmed pertence à 2ª classe, pois a 2ª classe acumula mais de
50% dos dados ( 50,0acF ).
Como até a classe anterior temos 0,28 de distribuição
acumulada, os 0,22 restantes para totalizar 0,50 devem ser obtidos
da 2ª classe. Assim, por meio da proporcionalidade entre os
retângulos na figura (regra de três), obtém-se a mediana.
Logo, 22,0
33,0
8)(
)812(
xmed,
de onde se obtêm:
22,0)812(33,08)( xmed
33,0
22,048)(
xmed
67,10)( xmed sm
iv) Para os quartis o procedimento é semelhante ao da mediana.
Para o quartil 1Q devemos encontrar a classe que acumula
uma frequência igual ou maior do que 0,25.
Desta forma, 1Q pertence à 1ª classe, que acumula uma
frequência igual a 0,28. Num procedimento semelhante ao
anterior, temos:
Portanto,
25,0
28,0
4
)48(
1
Q
de onde se obtêm:
28,0
25,0441
Q
57,71 Q sm
v) 3
Q pertence à 3ª classe, que acumula uma frequência igual a
0,83 (> 0,75).
Desta forma, temos:
Portanto,
14,0
22,0
12
)1216(
3
Q
de onde se obtêm:
22,0
14,0412
3
Q
55,143Q sm
Os cálculos acima podem resumidos na fórmula dos percentis
amostrais. No caso a mediana é o percentil 0.50 (50%) e sua
fórmula é dada por:
i
ca
inff
FhLxmed
)1(50.0)(
,
Em que:
h = amplitude da classe;
Linf = limite inferior da classe da mediana;
fi = frequência relativa da classe que contém a mediana;
)1(caF = frequência acumulada até a classe imediatamente
anterior à classe da mediana.
Obs: Para os quartis 1
Q e 3
Q a fórmula é a mesma, substituindo
apenas a frequência 0,5 por 0,25 e 0,75, respectivamente.
vi) Cálculo da moda:
Para dados agrupados, ao invés da moda, pode-se considerar a
classe modal , que neste caso é a 2ª classe, com frequência igual
a 12, ou seja, a classe modal seria: )12;8[ .
Porém, uma opção maia apropriada seria a moda de Czuber,
calculada a seguir:
6
88
)42(
248)(
xmo
cz
33.9)( xmocz
sm
A seguir são apresentados mais 2 exemplos com dados
agrupados variando a forma de cálculo: o primeiro caso com
dados discretos e o segundo, dados contínuos.
Dados coletados em entrevistas com 500 pessoas sendo coletadas
informações sobre o tempo de casamento até o primeiro divórcio e
o número de divórcios de cada.
Exemplo 3
Variável discreta: X = número de divórcios por indivíduo
Tabela de frequências.
Divórcios = xi ni fi Fac xi fi ni xi2
1 240 0,480 0,480 0,480 240
2 125 0,250 0,730 0,500 500
3 81 0,162 0,892 0,486 729
4 48 0,096 0,988 0,384 768
5 6 0,012 1,000 0,060 150
Total 500 1,000 - 1,910 2387
i) Média amostral:
k
iii fxx
1
= 1,91 divórcios
ii) Variância e desvio padrão amostrais:
13,1499
95,562
)1500(
)910.1(5002387
)1(
222
2
n
xnxs i
06,1s divórcios
iii) Mediana: med(x) = 2 divórcios (Fac em xi = 2 é maior que 0,50)
iv) Quartis:
11Q divórcio (Fac em xi = 1 é maior que 0,25)
33Q divórcios (Fac em xi = 3 é maior que 0,75)
Outra representação: Divórcios = xi ni fi Fac xi fi (xi – x ) ni (xi – x )
2
1 240 0,480 0,480 0,480 -0,910 198,744
2 125 0,250 0,730 0,500 0,090 1,013
3 81 0,162 0,892 0,486 1,090 96,236
4 48 0,096 0,988 0,384 2,090 209,669
5 6 0,012 1,000 0,060 3,090 57,2886
Total 500 1,000 – 1,910 – 562,950
Média amostral: ii fxx = 1.91 divórcios
Variância amostral:
13,1499
95,562
)1(
2
2
n
xxs i
Exemplo 4
Variável contínua: X = tempo, em anos, até o primeiro divórcio.
Tabela de frequências.
Anos até 1º.
divórcio
Pto. médio
xi ni fi Fac xi fi ni xi
2
0 |---- 6 3 280 0,56 0,56 1,68 2520
6 |---- 12 9 140 0,28 0,84 2,52 11340
12 |---- 18 15 60 0,12 0,96 1,80 13500
18 |---- 24 21 15 0,03 0,99 0,63 6615
24 |---- 30 27 5 0,01 1,00 0,27 3645
Total
500 1,00 – 6,90 37620
i) Média amostral: ii fxx = 6.90 anos
ii) Variância e desvio padrão amostrais:
685,27499
13815
)1500(
)90,6(50037620
)1(
222
2
n
xnxs i
26,5s anos
iii) Mediana:
Pertence à 1ª classe, pois sua Fac é maior do que 0,50.
Regra de três
50,0
56,0
0)(
)06(
xmed,
de onde se obtêm:
50,0656,0)( xmed
56,0
50,06)(
xmed
36,5)( xmed anos
iv) Quartis:
Q1 pertence à 1ª classe, pois sua Fac é maior do que 0,25.
Regra de três
25,0
56,0
0
)06(
1
Q,
25,0656,01
Q
68,21Q anos
Q3 pertence à 2ª classe, pois sua Fac é maior do que 0,75.
Acumulado até a classe anterior 0,56, portanto, faltam
19,056,075,0 de frequência.
Regra de três
19,0
28,0
6
)612(
1
Q,
19,0628,061
Q
07,101Q anos
Outra representação: Anos = xi
ptos. médios ni fi Fac xi fi (xi – x ) ni (xi – x )
2
3 280 0,56 0,56 1,68 -3,9 4258,8
9 140 0,28 0,84 2,52 2,1 617,4
15 60 0,12 0,96 1,80 8,1 3936,6
21 15 0,03 0,99 0,63 14,1 2982,15
27 5 0,01 1,00 0,27 20,1 2020,05
Total 500 1,00 - 6,90 - 13815
Média amostral: ii fxx = 6.90 anos
Variância amostral:
685.27499
13815
)1(
22
n
xxs i anos2
Exemplo 5: Notas no teste GMAT (Graduate Management Apititude Test)
na seleção de alunos de graduação numa universidade americana.
Tabela de frequências.
Escores Pto. médio: xi ni fi xi fi ni xi2
300 |-- 350 325 3 0,035 11,5 316875
350 |-- 400 375 7 0,082 30,9 984375
400 |-- 450 425 18 0,212 90,0 3251250
450 |-- 500 475 24 0,282 134,1 5415000
500 |-- 550 525 15 0,176 92,6 4134375
550 |-- 600 575 10 0,118 67,6 3306250
600 |-- 650 625 4 0,047 29,4 1562500
650 |-- 700 675 4 0,047 31,8 1822500
Totais 85 1,000 488 20793125
i) Média amostral: ii fxx = 488 pts
ii) Variância e desvio padrão amostrais:
2,655884
2024224020793125
)1(
22
2
n
xnxns
ipts2
98,802,6558 s pts
Histograma:
Percentis amostrais pelo gráfico da distribuição acumulada
Escores Pto. médio: xi ni fi Fac
300 |-- 350 325 3 0,035 0,035
350 |-- 400 375 7 0,082 0,117
400 |-- 450 425 18 0,212 0,329
450 |-- 500 475 24 0,282 0,611
500 |-- 550 525 15 0,176 0,787
550 |-- 600 575 10 0,118 0,905
600 |-- 650 625 4 0,047 0,952
650 |-- 700 675 4 0,048 1,000
Totais 85 1,000
Obtenção da mediana por semelhança de triângulos: