3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis...

24
3. ANÁLISE DESCRITIVA DE DADOS QUANTITATIVOS 3.1. Representação de Variáveis Quantitativas em tabelas e gráficos: 3.1.1. Tabelas de frequências para variáveis discretas: Para a representação de dados quantitativos numa tabela de frequências vamos considerar as quantidades: n = tamanho da amostra ou frequência absoluta total; k = número de classes ; n i = frequência absoluta da i-ésima classe, i = 1, 2, ..., k; n n k i i 1 f i = frequência relativa da i-ésima classe, i = 1, 2, ..., k; n n f i i , tal que 1 1 1 k i i k i i n n f Representação de uma variável quantitativa numa tabela de frequências. Classes Freq. absolutas ni Freq. Relativas fi Classe 1 n 1 f 1 = n 1 / n Classe 2 n 2 f 2 = n 2 / n Classe k n k f k = n k / n Totais n 1.00

Transcript of 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis...

Page 1: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

3. ANÁLISE DESCRITIVA DE DADOS QUANTITATIVOS

3.1. Representação de Variáveis Quantitativas em tabelas e

gráficos:

3.1.1. Tabelas de frequências para variáveis discretas:

Para a representação de dados quantitativos numa tabela de

frequências vamos considerar as quantidades:

n = tamanho da amostra ou frequência absoluta total;

k = número de classes ;

ni = frequência absoluta da i-ésima classe, i = 1, 2, ..., k;

nnk

ii

1

fi = frequência relativa da i-ésima classe, i = 1, 2, ..., k;

n

nf ii , tal que 1

11

k

i

ik

ii

n

nf

Representação de uma variável quantitativa numa tabela de

frequências.

Classes Freq. absolutas

ni

Freq. Relativas

fi

Classe 1 n1 f1 = n1 / n

Classe 2 n2 f2 = n2 / n

⁞ ⁞ ⁞

Classe k nk fk = nk / n

Totais n 1.00

Page 2: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Exemplo 1: Dos alunos de Estatística 1, dos anos 2015, 2016 e

2017, que praticam alguma atividade física regularmente, seja o

número de vezes que praticam essa atividade física na semana.

Dados:

3 3 3 3 2 3 2 3 3 3

2 2 4 5 4 4 5 7 3 1

2 2 4 4 3 3 3 2 1 3

2 4 3 7 5 5 2

Dados ordenados:

1 1 2 2 2 2 2 2 2 2

2 3 3 3 3 3 3 3 3 3

3 3 3 3 3 4 4 4 4 4

4 5 5 5 5 7 7

Tabela de frequências:

X = vezes/sem. ni fi %

1 2 0,054 5,4

2 9 0,243 24,3

3 14 0,378 37,8

4 6 0,162 16,2

5 4 0,108 10,8

6 0 0 0

7 2 0,054 5,4

Total 37 0,999 99,9

Page 3: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

3.1.2. Gráficos de frequências para variáveis discretas:

Por ser uma variável que só assume valores numa escala de

números inteiros, a representação gráfica para dados quantitativos

discretos é feita por linhas verticais a partir da escala no eixo das

abscissas, cujo tamanho é determinado pela frequência absoluta ou

frequência relativa do ponto, representada no eixo das ordenadas.

Nota: além das frequências relativas ou absolutas, o gráfico de

frequências pode, ainda, representar os valores percentuais.

Gráfico de frequências

Page 4: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Uma possibilidade de representação gráfica para a tabela de

frequência de uma variável discreta é o histograma.

O histograma é um tipo de gráfico mais apropriado para a

representação de variáveis contínuas, porém, para a representação

de variáveis discretas, os valores individuais da variável deve

coincidir com o centro das bases das respectivas barras, conforme

mostra a figura.

Gráfico de frequências

Page 5: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Exemplo 2: Em um hospital, foram contabilizados o número de

pessoas com diabetes em 20 grupos de 1000 pessoas cada. Neste

caso, foram obtidos os seguintes dados:

10, 12, 9, 11, 10, 8, 9, 10, 7, 10, 8, 9, 9, 10, 10, 11, 9, 11, 10, 10

Tabela de frequências:

X (casos) ni fi Fac

7 1 0,05 0,05

8 2 0,10 0,15

9 5 0,25 0,40

10 8 0,40 0,80

11 3 0,15 0,95

12 1 0,05 1,00

Total 20 1,00 -

Fac : é a frequência acumulada.

Gráfico de frequências

Page 6: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Histograma construído no R:

diabetes <- c(10, 12, 9, 11, 10, 8, 9, 10, 7, 10,

8, 9, 9, 10, 10, 11, 9, 11, 10, 10)

pontos <- c(6.5, 7.5, 8.5, 9.5, 10.5, 11.5, 12.5)

hist(diabetes, braks=pontos, col="bisque", right=F)

Page 7: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Exemplo: Conjunto de dados fictícios representando uma

amostra com 250 valores da variável X.

Tabela de frequência da variável X. Classes ni fi

0,0 |--- 2,5 34 0,136

2.5 |--- 5,0 74 0,296

5,0 |--- 7,5 86 0,344

7,5 |--- 10,0 30 0,120

10,0 |--- 12,5 16 0,064

12,5 |--- 15,0 5 0,020

15,0 |--- 17,5 5 0,020

Total 250 1,000

Page 8: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

3.1.3. Representação gráfica de variáveis contínuas:

O gráfico de pontos é uma forma simples e rápida de

representação da amostra que fornece um aspecto visual da

concentração e distribuição dos pontos na escala das medidas.

No exemplo abaixo temos o gráfico de pontos de uma

variável contínua X. Podemos perceber que o conjunto os dados

estão concentrados na primeira metade da escala, entre os valores

2,5 e 7,5, com uma dispersão mais acentuada no lado superior

(direito) da distribuição, com valores chegando a 17,5. Esta

dispersão indica forte assimetria na cauda superior da distribuição

(assimetria à direita).

Figura 1: Gráfico de pontos de X.

Page 9: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Uma forma adequada de representação gráfica para dados

contínuos, que considera a divisão da escala em intervalos de

classes, é dada pelo histograma, no qual, as frequências das

classes da tabela são representadas por barras adjacentes.

Tabela de frequências da variável X.

Classes de X ni fi

0,0 |--- 2,5 34 0,136

2,5 |--- 5,0 74 0,296

5,0 |--- 7,5 86 0,344

7,5 |--- 10,0 30 0,120

10,0 |--- 12,5 16 0,064

12,5 |--- 15,0 5 0,020

15,0 |--- 17,5 5 0,020

Total 250 1,000

Figura 2: Histograma de X (sobre o gráfico de pontos).

Page 10: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

O Polígono de Frequências

Marcando o ponto médio de cada retângulo do histograma

na sua na parte superior e ligando esses pontos, teremos uma

figura que chamaremos de Polígono de Frequências (Figura 3).

Figura 3: Polígono de frequências.

As linhas retas que compõem o polígono de frequências são

uma aproximação rudimentar para uma curva que representa uma

Distribuição de Frequências. Essa distribuição é descrita por uma

função f(x), contínua e diferenciável, definida num intervalo dos

reais, a qual será denotada por função distribuição de

probabilidades ou fdp (Figura 4).

Page 11: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Figura 4: Função de distribuição de probabilidades sobre o histograma.

Page 12: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Exemplo 1: Altura (em metros) de n = 30 alunos de Estatística 1,

de 2015 a 2017.

X = altura dos alunos (em metros)

1,70 1,73 1,83 1,60 1,75 1,84 1,77 1,78 1,74 1,62

1,70 1,67 1,63 1,90 1,54 1,68 1,95 1,90 1,59 1,74

1,80 1,57 1,75 1,72 1,59 1,70 1,65 1,78 1,79 1,72

Dados ordenados:

1,54 1,57 1,59 1,59 1,60 1,62 1,63 1,65 1,67 1,68

1,70 1,70 1,70 1,72 1,72 1,73 1,74 1,74 1,75 1,75

1,77 1,78 1,78 1,79 1,80 1,83 1,84 1,90 1,90 1,95

Número de classes - k, pela regra de Sturges:

k = 1 + 3,322log10(n)

k = 1 + 3,322log1030 = 5,91 = 6 classes

Amplitude das classes - h:

A = max – min = 1,95 – 1,54 = 0,41

Page 13: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

k

Ah

070,0068333,06

41,0h

Nesse caso, vamos usar 07,0h .

Tabela de frequências com k = 6 classes:

Xi (altura) ni fi Fac

1,54 |--- 1,61 5 0,167 0,167

1,61 |--- 1,68 4 0,133 0,300

1,68 |--- 1,75 9 0,300 0,600

1,75 |--- 1,82 7 0,233 0,833

1,82 |--- 1,89 2 0,067 0,900

1,89 |--- 1,96 3 0,100 1,000

Total 30 1,000 -

Page 14: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Comandos do R para o histograma: altura <- c(1.70, 1.73, 1.83, 1.60, 1.75, 1.84, 1.77,

1.78, 1.74, 1.62, 1.70, 1.67, 1.63, 1.90,

1.54, 1.68, 1.95, 1.90, 1.59, 1.74, 1.80,

1.57, 1.75, 1.72, 1.59, 1.70, 1.65, 1.78,

1.79, 1.72)

# default do programa

hist(altura, col="bisque")

# definindo a cor (commando col)

hist(altura, col="bisque", right=FALSE)

# opção Sturges p/intervalos

hist(altura, breaks="Sturges", col="bisque", right=FALSE)

# definindo os intervalos

# k = 6 e k = 5 classes

######################### h6 <- seq(1.54,1.96,by=0.070)

hist(altura, breaks=h6, col="bisque", right=FALSE, axes=FALSE)

axis(1, h6)

axis(2)

h5 <- seq(1.540,1.955,by=0.083)

hist(altura, breaks=h5, col="bisque", right=FALSE)

# explorando opções do commando hist()

hist(altura, plot=F, right=FALSE)

hist(altura, plot=F, right=FALSE)$counts

hist(altura, plot=F, right=FALSE)$breaks

Page 15: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Regras para o número de classes k:

Regra Propriedades

Raiz quadrada de n

nk

Apropriado como valor inicial, fornece

valores baixos para n pequeno (n < 50).

Pode ser indicado para valores de n entre

80 e 120.

Raiz quadrada de 2n

nk 2

Apropriado para valores baixos de n,

cresce muito rápido para valores

moderados (n > 50).

Não é indicado para n > 80.

Sturges

nk 10log32.31

O método mais consagrado fornece valores

baixos para n pequeno, e cresce muito

devagar.

Indicado para valores elevados de n.

Logaritmo natural

nk ln3

Muito parecido com o método de Sturges,

fornece valores ligeiramente maiores para

n pequeno, porém a situação se inverte

para n >120.

Indicado para valores elevados de n.

Figura 1: Regras para o número de classes de um histograma

Page 16: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

De maneira geral, é indicado “bom senso” na determinação do

número de classes de um histograma.

➢ O número de classes deve ser moderado.

➢ Como há um agrupamento de valores, a perda de informação é

inevitável.

➢ Se o número de classes for muito grande ocorre uma perda

menor de informação, mas a eficiência do resumo fica

prejudicada;

➢ Um número muito pequeno de classes resume demais e ocorre

perda excessiva de informação.

Tabela 1: número de classes num histograma.

n classes

até 50 5 a 10

50 a 100 8 a 16

100 a 200 10 a 20

200 a 300 12 a 24

300 a 500 15 a 30

500 ou mais 20 a 40 Fonte: Sistema Galileu, ESALQ/USP

Page 17: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Exemplo 2: X = notas de avaliação de teste verbal aplicado em 87 alunos.

2,5 2,8 2,8 3,2 3,5 3,6 3,7 3,8 3,9 4,0

4,1 4,1 4,1 4,1 4,2 4,5 4,6 4,7 4,7 4,7

4,7 4,8 4,8 4,9 4,9 5,0 5,0 5,1 5,1 5,1

5,2 5,2 5,2 5,2 5,2 5,3 5,3 5,3 5,3 5,4

5,4 5,4 5,4 5,5 5,5 5,5 5,6 5,7 5,7 5,8

5,9 5,9 5,9 5,9 6,0 6,1 6,1 6,1 6,1 6,2

6,2 6,2 6,3 6,4 6,4 6,4 6,4 6,5 6,5 6,5

6,5 6,5 6,6 6,6 6,7 6,7 6,7 6,7 6,8 6,9

6,9 7,0 7,0 7,1 7,2 7,3 7,5

k = 1 + 3,322log1087 = 7,44 = 8 classes (7 ou 8)

Vamos considerr k = 7 classes:

A = 7,5 – 2,5 = 5 72.0714.07

5h

Tabela de frequências com k = 7 classes:

Xi (nota) ni fi Fac

2,50 |--- 3,22 4 0,046 0,046

3,22 |--- 3,94 5 0,057 0,103

3,94 |--- 4,66 8 0,092 0,195

4,66 |--- 5,38 22 0,253 0,448

5,38 |--- 6,10 16 0,184 0,632

6,10 |--- 6,82 24 0,276 0,908

6,82 |--- 7,54 8 0,092 1,000

Total 87 1,000 -

Page 18: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Comandos do R para o histograma: verbal <- c(2.5,2.8,2.8,3.2,3.5,3.6,3.7,3.8,3.9,

4.0,4.1,4.1,4.1,4.1,4.2,4.5,4.6,4.7,4.7,4.7,

4.7,4.8,4.8,4.9,4.9,5.0,5.0,5.1,5.1,5.1,5.2,

5.2,5.2,5.2,5.2,5.3,5.3,5.3,5.3,5.4,5.4,5.4,

5.4,5.5,5.5,5.5,5.6,5.7,5.7,5.8,5.9,5.9,5.9,

5.9,6.0,6.1,6.1,6.1,6.1,6.2,6.2,6.2,6.3,6.4,

6.4,6.4,6.4,6.5,6.5,6.5,6.5,6.5,6.6,6.6,6.7,

6.7,6.7,6.7,6.8,6.9,6.9,7.0,7.0,7.1,7.2,7.3,

7.5)

nclass.Sturges(verbal)

hist(verbal, breaks="Sturges", col="bisque", right=FALSE)

nclass.scott(verbal)

hist(verbal, breaks="Scott", col="bisque", right=FALSE)

nclass.FD(verbal)

hist(verbal, breaks="FD", col="bisque", right=FALSE)

# definindo os intervalos

#########################

h <- c(2.50,3.22,3.94,4.66,5.38,6.10,6.82,7.54)

hist(verbal, breaks=h, col="bisque", right = FALSE)

Page 19: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Exemplo 3: Conjunto de dados Estudantil, variável:

horasTV = tempo semanal assistindo TV. (Magalhães, M.N. e Lima, A.C.P. – Noções de probabilidade e estatística, 5ª Ed., Edusp, 2005)

Dados ordenados:

0 2 2 2 2 3 4 5 5 5

5 5 5 5 6 7 7 8 8 8

10 10 10 10 10 10 10 10 10 10

10 12 12 12 12 14 14 14 14 14

15 16 18 20 20 20 25 25 28 30

Gráfico de pontos pelo MINITAB

3020100

horas

Gráfico de pontos para horas de TV

Histograma pelo MINITAB

0.0 5.5 11.0 16.5 22.0 27.5 33.0

0

5

10

15

horas

Fre

ên

cia

Histograma de horas de TV

Page 20: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Dados discretizados:

Uma grande companhia está preocupada com o tempo que seus

equipamentos ficam em manutenção na assistência técnica. Sendo

assim, fez um levantamento do tempo de manutenção (dias) de 50

equipamentos para um estudo mais detalhado.

X = dias em manutenção de equipamentos.

15 13 21 9 5 5 10 6 2 2

9 10 3 4 2 13 12 16 7 6

4 11 8 6 6 10 17 13 9 5

2 5 9 14 15 3 6 18 3 4

5 7 8 3 10 5 5 4 5 2

Dados Ordenados:

2 2 2 2 2 3 3 3 3 4

4 4 4 5 5 5 5 5 5 5

5 6 6 6 6 6 7 7 8 8

9 9 9 9 10 10 10 10 11 12

13 13 13 14 15 15 16 17 18 21

Tabela de frequências (regra de Sturges):

k = 1 + 3,322log1050 = 6,64 = 7 classes

A = 21 – 2 = 19 3714.27

19h dias

Page 21: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Com k = 7 classes:

Xi (dias) ni fi Fac

2 a 4 13 0,26 0,26

5 a 7 15 0,30 0,56

8 a 10 10 0,20 0,76

11 a 13 5 0,10 0,86

14 a 16 4 0,08 0,94

17 a 19 2 0,04 0,98

20 a 22 1 0,02 1,00

Total 50 1,00 -

Page 22: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Gráfico da frequência acumulada Fac

Page 23: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Com k = 6 classes:

Xi (dias) ni fi Fac

0 a 3 9 0,18 0,18

4 a 7 19 0,38 0,56

8 a 11 11 0,22 0,78

12 a 15 7 0,14 0,92

16 a 19 3 0,06 0,98

20 a 23 1 0,02 1,00

Total 50 1,00 -

Page 24: 3.1. Representação de Variáveis Quantitativas em tabelas e ... · Representação de Variáveis Quantitativas em tabelas e ... Altura (em metros) ... 4,7 4,8 4,8 4,9 4,9 5,0 5,0

Comandos do R para o histograma: manuten <-c(15,13,21, 9, 5, 5,10, 6, 2, 2, 9,10,

3, 4, 2,13,12,16, 7, 6, 4,11, 8, 6, 6,10,17,13,

9, 5, 2, 5, 9,14,15, 3, 6,18, 3, 4, 5, 7, 8, 3,

10, 5, 5, 4, 5, 2)

nclass.Sturges(manuten)

hist(manuten, col="bisque")

hist(manuten, breaks="Sturges", col="bisque")

nclass.scott(manuten)

hist(manuten, breaks="Scott", col="bisque")

nclass.FD(manuten)

hist(manuten, breaks="FD", col="bisque")

hist(manuten, breaks=7, col="bisque")

# definindo os intervalos

#########################

h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5)

hist(manuten, breaks=h1, col="bisque")

h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5)

hist(manuten, breaks=h2, col="bisque")