Post on 29-Nov-2018
3. ANÁLISE DESCRITIVA DE DADOS QUANTITATIVOS
3.1. Representação de Variáveis Quantitativas em tabelas e
gráficos:
3.1.1. Tabelas de frequências para variáveis discretas:
Para a representação de dados quantitativos numa tabela de
frequências vamos considerar as quantidades:
n = tamanho da amostra ou frequência absoluta total;
k = número de classes ;
ni = frequência absoluta da i-ésima classe, i = 1, 2, ..., k;
nnk
ii
1
fi = frequência relativa da i-ésima classe, i = 1, 2, ..., k;
n
nf ii , tal que 1
11
k
i
ik
ii
n
nf
Representação de uma variável quantitativa numa tabela de
frequências.
Classes Freq. absolutas
ni
Freq. Relativas
fi
Classe 1 n1 f1 = n1 / n
Classe 2 n2 f2 = n2 / n
⁞ ⁞ ⁞
Classe k nk fk = nk / n
Totais n 1.00
Exemplo 1: Dos alunos de Estatística 1, dos anos 2015, 2016 e
2017, que praticam alguma atividade física regularmente, seja o
número de vezes que praticam essa atividade física na semana.
Dados:
3 3 3 3 2 3 2 3 3 3
2 2 4 5 4 4 5 7 3 1
2 2 4 4 3 3 3 2 1 3
2 4 3 7 5 5 2
Dados ordenados:
1 1 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 3 3 3
3 3 3 3 3 4 4 4 4 4
4 5 5 5 5 7 7
Tabela de frequências:
X = vezes/sem. ni fi %
1 2 0,054 5,4
2 9 0,243 24,3
3 14 0,378 37,8
4 6 0,162 16,2
5 4 0,108 10,8
6 0 0 0
7 2 0,054 5,4
Total 37 0,999 99,9
3.1.2. Gráficos de frequências para variáveis discretas:
Por ser uma variável que só assume valores numa escala de
números inteiros, a representação gráfica para dados quantitativos
discretos é feita por linhas verticais a partir da escala no eixo das
abscissas, cujo tamanho é determinado pela frequência absoluta ou
frequência relativa do ponto, representada no eixo das ordenadas.
Nota: além das frequências relativas ou absolutas, o gráfico de
frequências pode, ainda, representar os valores percentuais.
Gráfico de frequências
Uma possibilidade de representação gráfica para a tabela de
frequência de uma variável discreta é o histograma.
O histograma é um tipo de gráfico mais apropriado para a
representação de variáveis contínuas, porém, para a representação
de variáveis discretas, os valores individuais da variável deve
coincidir com o centro das bases das respectivas barras, conforme
mostra a figura.
Gráfico de frequências
Exemplo 2: Em um hospital, foram contabilizados o número de
pessoas com diabetes em 20 grupos de 1000 pessoas cada. Neste
caso, foram obtidos os seguintes dados:
10, 12, 9, 11, 10, 8, 9, 10, 7, 10, 8, 9, 9, 10, 10, 11, 9, 11, 10, 10
Tabela de frequências:
X (casos) ni fi Fac
7 1 0,05 0,05
8 2 0,10 0,15
9 5 0,25 0,40
10 8 0,40 0,80
11 3 0,15 0,95
12 1 0,05 1,00
Total 20 1,00 -
Fac : é a frequência acumulada.
Gráfico de frequências
Histograma construído no R:
diabetes <- c(10, 12, 9, 11, 10, 8, 9, 10, 7, 10,
8, 9, 9, 10, 10, 11, 9, 11, 10, 10)
pontos <- c(6.5, 7.5, 8.5, 9.5, 10.5, 11.5, 12.5)
hist(diabetes, braks=pontos, col="bisque", right=F)
Exemplo: Conjunto de dados fictícios representando uma
amostra com 250 valores da variável X.
Tabela de frequência da variável X. Classes ni fi
0,0 |--- 2,5 34 0,136
2.5 |--- 5,0 74 0,296
5,0 |--- 7,5 86 0,344
7,5 |--- 10,0 30 0,120
10,0 |--- 12,5 16 0,064
12,5 |--- 15,0 5 0,020
15,0 |--- 17,5 5 0,020
Total 250 1,000
3.1.3. Representação gráfica de variáveis contínuas:
O gráfico de pontos é uma forma simples e rápida de
representação da amostra que fornece um aspecto visual da
concentração e distribuição dos pontos na escala das medidas.
No exemplo abaixo temos o gráfico de pontos de uma
variável contínua X. Podemos perceber que o conjunto os dados
estão concentrados na primeira metade da escala, entre os valores
2,5 e 7,5, com uma dispersão mais acentuada no lado superior
(direito) da distribuição, com valores chegando a 17,5. Esta
dispersão indica forte assimetria na cauda superior da distribuição
(assimetria à direita).
Figura 1: Gráfico de pontos de X.
Uma forma adequada de representação gráfica para dados
contínuos, que considera a divisão da escala em intervalos de
classes, é dada pelo histograma, no qual, as frequências das
classes da tabela são representadas por barras adjacentes.
Tabela de frequências da variável X.
Classes de X ni fi
0,0 |--- 2,5 34 0,136
2,5 |--- 5,0 74 0,296
5,0 |--- 7,5 86 0,344
7,5 |--- 10,0 30 0,120
10,0 |--- 12,5 16 0,064
12,5 |--- 15,0 5 0,020
15,0 |--- 17,5 5 0,020
Total 250 1,000
Figura 2: Histograma de X (sobre o gráfico de pontos).
O Polígono de Frequências
Marcando o ponto médio de cada retângulo do histograma
na sua na parte superior e ligando esses pontos, teremos uma
figura que chamaremos de Polígono de Frequências (Figura 3).
Figura 3: Polígono de frequências.
As linhas retas que compõem o polígono de frequências são
uma aproximação rudimentar para uma curva que representa uma
Distribuição de Frequências. Essa distribuição é descrita por uma
função f(x), contínua e diferenciável, definida num intervalo dos
reais, a qual será denotada por função distribuição de
probabilidades ou fdp (Figura 4).
Figura 4: Função de distribuição de probabilidades sobre o histograma.
Exemplo 1: Altura (em metros) de n = 30 alunos de Estatística 1,
de 2015 a 2017.
X = altura dos alunos (em metros)
1,70 1,73 1,83 1,60 1,75 1,84 1,77 1,78 1,74 1,62
1,70 1,67 1,63 1,90 1,54 1,68 1,95 1,90 1,59 1,74
1,80 1,57 1,75 1,72 1,59 1,70 1,65 1,78 1,79 1,72
Dados ordenados:
1,54 1,57 1,59 1,59 1,60 1,62 1,63 1,65 1,67 1,68
1,70 1,70 1,70 1,72 1,72 1,73 1,74 1,74 1,75 1,75
1,77 1,78 1,78 1,79 1,80 1,83 1,84 1,90 1,90 1,95
Número de classes - k, pela regra de Sturges:
k = 1 + 3,322log10(n)
k = 1 + 3,322log1030 = 5,91 = 6 classes
Amplitude das classes - h:
A = max – min = 1,95 – 1,54 = 0,41
k
Ah
070,0068333,06
41,0h
Nesse caso, vamos usar 07,0h .
Tabela de frequências com k = 6 classes:
Xi (altura) ni fi Fac
1,54 |--- 1,61 5 0,167 0,167
1,61 |--- 1,68 4 0,133 0,300
1,68 |--- 1,75 9 0,300 0,600
1,75 |--- 1,82 7 0,233 0,833
1,82 |--- 1,89 2 0,067 0,900
1,89 |--- 1,96 3 0,100 1,000
Total 30 1,000 -
Comandos do R para o histograma: altura <- c(1.70, 1.73, 1.83, 1.60, 1.75, 1.84, 1.77,
1.78, 1.74, 1.62, 1.70, 1.67, 1.63, 1.90,
1.54, 1.68, 1.95, 1.90, 1.59, 1.74, 1.80,
1.57, 1.75, 1.72, 1.59, 1.70, 1.65, 1.78,
1.79, 1.72)
# default do programa
hist(altura, col="bisque")
# definindo a cor (commando col)
hist(altura, col="bisque", right=FALSE)
# opção Sturges p/intervalos
hist(altura, breaks="Sturges", col="bisque", right=FALSE)
# definindo os intervalos
# k = 6 e k = 5 classes
######################### h6 <- seq(1.54,1.96,by=0.070)
hist(altura, breaks=h6, col="bisque", right=FALSE, axes=FALSE)
axis(1, h6)
axis(2)
h5 <- seq(1.540,1.955,by=0.083)
hist(altura, breaks=h5, col="bisque", right=FALSE)
# explorando opções do commando hist()
hist(altura, plot=F, right=FALSE)
hist(altura, plot=F, right=FALSE)$counts
hist(altura, plot=F, right=FALSE)$breaks
Regras para o número de classes k:
Regra Propriedades
Raiz quadrada de n
nk
Apropriado como valor inicial, fornece
valores baixos para n pequeno (n < 50).
Pode ser indicado para valores de n entre
80 e 120.
Raiz quadrada de 2n
nk 2
Apropriado para valores baixos de n,
cresce muito rápido para valores
moderados (n > 50).
Não é indicado para n > 80.
Sturges
nk 10log32.31
O método mais consagrado fornece valores
baixos para n pequeno, e cresce muito
devagar.
Indicado para valores elevados de n.
Logaritmo natural
nk ln3
Muito parecido com o método de Sturges,
fornece valores ligeiramente maiores para
n pequeno, porém a situação se inverte
para n >120.
Indicado para valores elevados de n.
Figura 1: Regras para o número de classes de um histograma
De maneira geral, é indicado “bom senso” na determinação do
número de classes de um histograma.
➢ O número de classes deve ser moderado.
➢ Como há um agrupamento de valores, a perda de informação é
inevitável.
➢ Se o número de classes for muito grande ocorre uma perda
menor de informação, mas a eficiência do resumo fica
prejudicada;
➢ Um número muito pequeno de classes resume demais e ocorre
perda excessiva de informação.
Tabela 1: número de classes num histograma.
n classes
até 50 5 a 10
50 a 100 8 a 16
100 a 200 10 a 20
200 a 300 12 a 24
300 a 500 15 a 30
500 ou mais 20 a 40 Fonte: Sistema Galileu, ESALQ/USP
Exemplo 2: X = notas de avaliação de teste verbal aplicado em 87 alunos.
2,5 2,8 2,8 3,2 3,5 3,6 3,7 3,8 3,9 4,0
4,1 4,1 4,1 4,1 4,2 4,5 4,6 4,7 4,7 4,7
4,7 4,8 4,8 4,9 4,9 5,0 5,0 5,1 5,1 5,1
5,2 5,2 5,2 5,2 5,2 5,3 5,3 5,3 5,3 5,4
5,4 5,4 5,4 5,5 5,5 5,5 5,6 5,7 5,7 5,8
5,9 5,9 5,9 5,9 6,0 6,1 6,1 6,1 6,1 6,2
6,2 6,2 6,3 6,4 6,4 6,4 6,4 6,5 6,5 6,5
6,5 6,5 6,6 6,6 6,7 6,7 6,7 6,7 6,8 6,9
6,9 7,0 7,0 7,1 7,2 7,3 7,5
k = 1 + 3,322log1087 = 7,44 = 8 classes (7 ou 8)
Vamos considerr k = 7 classes:
A = 7,5 – 2,5 = 5 72.0714.07
5h
Tabela de frequências com k = 7 classes:
Xi (nota) ni fi Fac
2,50 |--- 3,22 4 0,046 0,046
3,22 |--- 3,94 5 0,057 0,103
3,94 |--- 4,66 8 0,092 0,195
4,66 |--- 5,38 22 0,253 0,448
5,38 |--- 6,10 16 0,184 0,632
6,10 |--- 6,82 24 0,276 0,908
6,82 |--- 7,54 8 0,092 1,000
Total 87 1,000 -
Comandos do R para o histograma: verbal <- c(2.5,2.8,2.8,3.2,3.5,3.6,3.7,3.8,3.9,
4.0,4.1,4.1,4.1,4.1,4.2,4.5,4.6,4.7,4.7,4.7,
4.7,4.8,4.8,4.9,4.9,5.0,5.0,5.1,5.1,5.1,5.2,
5.2,5.2,5.2,5.2,5.3,5.3,5.3,5.3,5.4,5.4,5.4,
5.4,5.5,5.5,5.5,5.6,5.7,5.7,5.8,5.9,5.9,5.9,
5.9,6.0,6.1,6.1,6.1,6.1,6.2,6.2,6.2,6.3,6.4,
6.4,6.4,6.4,6.5,6.5,6.5,6.5,6.5,6.6,6.6,6.7,
6.7,6.7,6.7,6.8,6.9,6.9,7.0,7.0,7.1,7.2,7.3,
7.5)
nclass.Sturges(verbal)
hist(verbal, breaks="Sturges", col="bisque", right=FALSE)
nclass.scott(verbal)
hist(verbal, breaks="Scott", col="bisque", right=FALSE)
nclass.FD(verbal)
hist(verbal, breaks="FD", col="bisque", right=FALSE)
# definindo os intervalos
#########################
h <- c(2.50,3.22,3.94,4.66,5.38,6.10,6.82,7.54)
hist(verbal, breaks=h, col="bisque", right = FALSE)
Exemplo 3: Conjunto de dados Estudantil, variável:
horasTV = tempo semanal assistindo TV. (Magalhães, M.N. e Lima, A.C.P. – Noções de probabilidade e estatística, 5ª Ed., Edusp, 2005)
Dados ordenados:
0 2 2 2 2 3 4 5 5 5
5 5 5 5 6 7 7 8 8 8
10 10 10 10 10 10 10 10 10 10
10 12 12 12 12 14 14 14 14 14
15 16 18 20 20 20 25 25 28 30
Gráfico de pontos pelo MINITAB
3020100
horas
Gráfico de pontos para horas de TV
Histograma pelo MINITAB
0.0 5.5 11.0 16.5 22.0 27.5 33.0
0
5
10
15
horas
Fre
qü
ên
cia
Histograma de horas de TV
Dados discretizados:
Uma grande companhia está preocupada com o tempo que seus
equipamentos ficam em manutenção na assistência técnica. Sendo
assim, fez um levantamento do tempo de manutenção (dias) de 50
equipamentos para um estudo mais detalhado.
X = dias em manutenção de equipamentos.
15 13 21 9 5 5 10 6 2 2
9 10 3 4 2 13 12 16 7 6
4 11 8 6 6 10 17 13 9 5
2 5 9 14 15 3 6 18 3 4
5 7 8 3 10 5 5 4 5 2
Dados Ordenados:
2 2 2 2 2 3 3 3 3 4
4 4 4 5 5 5 5 5 5 5
5 6 6 6 6 6 7 7 8 8
9 9 9 9 10 10 10 10 11 12
13 13 13 14 15 15 16 17 18 21
Tabela de frequências (regra de Sturges):
k = 1 + 3,322log1050 = 6,64 = 7 classes
A = 21 – 2 = 19 3714.27
19h dias
Com k = 7 classes:
Xi (dias) ni fi Fac
2 a 4 13 0,26 0,26
5 a 7 15 0,30 0,56
8 a 10 10 0,20 0,76
11 a 13 5 0,10 0,86
14 a 16 4 0,08 0,94
17 a 19 2 0,04 0,98
20 a 22 1 0,02 1,00
Total 50 1,00 -
Gráfico da frequência acumulada Fac
Com k = 6 classes:
Xi (dias) ni fi Fac
0 a 3 9 0,18 0,18
4 a 7 19 0,38 0,56
8 a 11 11 0,22 0,78
12 a 15 7 0,14 0,92
16 a 19 3 0,06 0,98
20 a 23 1 0,02 1,00
Total 50 1,00 -
Comandos do R para o histograma: manuten <-c(15,13,21, 9, 5, 5,10, 6, 2, 2, 9,10,
3, 4, 2,13,12,16, 7, 6, 4,11, 8, 6, 6,10,17,13,
9, 5, 2, 5, 9,14,15, 3, 6,18, 3, 4, 5, 7, 8, 3,
10, 5, 5, 4, 5, 2)
nclass.Sturges(manuten)
hist(manuten, col="bisque")
hist(manuten, breaks="Sturges", col="bisque")
nclass.scott(manuten)
hist(manuten, breaks="Scott", col="bisque")
nclass.FD(manuten)
hist(manuten, breaks="FD", col="bisque")
hist(manuten, breaks=7, col="bisque")
# definindo os intervalos
#########################
h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5)
hist(manuten, breaks=h1, col="bisque")
h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5)
hist(manuten, breaks=h2, col="bisque")