Estatística Descritiva (II). corrida estacionáriapor 1 minuto Refere-se a um experimento feito por...
Transcript of Estatística Descritiva (II). corrida estacionáriapor 1 minuto Refere-se a um experimento feito por...
Estatística DescritivaEstatística Descritiva (II) (II)
Refere-se a um experimento feito por alunos. Cada um deles registrou sua altura, peso, sexo, hábito de fumar e nível de atividade física. Depois, todos eles jogaram moedas e aqueles que tiraram “CARA” fizeram corrida corrida estacionáriaestacionária por 1 minutopor 1 minuto, registrando a pulsação antes de correr e a pulsação depois de correr. Os demais registraram a pulsação após 1 minuto, mesmo sem ter corrido.
Arquivo PULSEPULSE do Minitab
Informações do arquivo PULSEPULSE
MTB > INFOMTB > INFOInformation of the worksheet
Column Count NameC1 92 Pulse1C2 92 Pulse2 C3 92 Ran 1- fez corrida 2- não fez corrida
C4 92 Smokes 1- fuma 2- não fuma
C5 92 Sex 1- masculino 2- feminino
C6 92 HeightC7 92 WeightC8 92 Activity 0- não tem 1- leve 2- moderada 3- intensa
Row Pulse1 Pulse2 Ran Smokes Sex Height Weight Activity
1 64 88 1 2 1 66,00 140 2 2 58 70 1 2 1 72,00 145 2 3 62 76 1 1 1 73,50 160 3 4 66 78 1 1 1 73,00 190 1 5 64 80 1 2 1 69,00 155 2 6 74 84 1 2 1 73,00 165 1 7 84 84 1 2 1 72,00 150 3 8 68 72 1 2 1 74,00 190 2 • • •
PlanilhaPlanilha (parcial)
Variáveis qualitativasVariáveis qualitativas
Variáveis quantitativasVariáveis quantitativasPulse 1
Pulse 2
Height
Weight
DiscretaDiscreta
ContínuaContínua
Ran
Smokes
Sex
Activity
NominalNominal
OrdinalOrdinal
Variáveis QuantitativasVariáveis Quantitativas
Variância (s2)Desvio padrão (s)
Intervalo-interquartil (Q3 – Q1)Coeficiente de variação (CV)
-Média (x)Mediana (md)
Quartis (Q1, Q3)Máximo (máx)Mínimo (min)
Medidas de posiçãoMedidas de posição
Medidas de dispersãoMedidas de dispersão
Descriptive StatisticsDescriptive Statistics
Variable Variable NN Mean Median Tr Mean StDev SE Mean Mean Median Tr Mean StDev SE Mean Pulse1Pulse1 92 72,87 71 72,61 11,01 1,15 HeightHeight 92 68,72 69 68,784 3,659 0,382 WeightWeight 92 145,15 145 144,52 23,74 2,48
Variable Min Max Variable Min Max QQ1 1 QQ33 Pulse1Pulse1 48 100 64 80 Height Height 61 75 66 72 Weight Weight 95 215 125 156,5
MTB > describe c1 c6 c7MTB > describe c1 c6 c7
CVCV
11,01/72,87=0,15
3,659/68,717=0,05
23,74/145,15=0,16
•50% dos indivíduos tem pulsação menor ou igual a 71 batimentos por minuto;
•25% dos indivíduos tem altura igual ou menor a 66 pés;
•75% dos indivíduos tem peso igual ou menor a 156,5 libras;
•a variável com menor dispersão em relação à média é a altura;
•Pulsação e peso apresentam dispersão em relação à média praticamente iguais e o triplo da dispersão da altura.
Alguns comentários:Alguns comentários:
MTB > describe c1;MTB > describe c1;SUBC > by c3.SUBC > by c3.
Variable Ran Variable Ran N N Mean Median Tr Mean StDev SE Mean Mean Median Tr Mean StDev SE Mean Pulse1Pulse1 1 1 35 73,60 70 72,97 11,44 1,93 22 57 72,42 72 72,47 10,82 1,43
Variable Ran Min Max Variable Ran Min Max QQ1 1 QQ33 Pulse1Pulse1 1 1 58 100 64 80 22 48 94 64 81
MTB > describe c2;MTB > describe c2;SUBC > by c3.SUBC > by c3.
Variable Ran Variable Ran NN Mean Median Tr Mean StDev SE Mean Mean Median Tr Mean StDev SE MeanPulse2Pulse2 1 1 35 92,51 88 91,68 18,94 3,20 22 57 72,32 70 72,24 9,95 1,32
Variable Ran Min Max Variable Ran Min Max QQ1 1 QQ33Pulse2 1Pulse2 1 58 140 76 106 2 2 50 94 66 79
• Com relação às medidas de posição, os dois grupos “antes de correr” têm praticamente os mesmos valores;
• O grupo que correu (Ran=2) tem média de Pulse2 maior que o grupo que não correu (Ran=1).
• Com relação às medidas de dispersão, os dois grupos antes da corrida apresentam valores semelhantes;
• O grupo que correu apresenta um desvio padrão aproximadamente igual ao dobro do que o grupo que não correu.
Alguns comentários:Alguns comentários:
Descrevendo a pulsação em repouso segundo o sexo
MTB > DESCRIBE C1;MTB > DESCRIBE C1;SUBC> BY C5.SUBC> BY C5.
Variable Variable SexSex N Mean Median TrMean StDev SE Mean N Mean Median TrMean StDev SE MeanPulse1 1 57 70,42 70 70,27 9,95 1,32 2 35 76,86 78 76,65 11,62 1,96
Variable Variable SexSex Min Max Q1 Q3 Min Max Q1 Q3Pulse1 1 48 92 63 75 2 58 100 66 86
Os dados também podem ser resumidos construindo-se uma tabela de distribuição de freqüências .
Distribuição de freqüênciasDistribuição de freqüências de uma variável é uma lista dos valores individuais ou dos intervalos de valores que a variável pode assumir, com as respectivas freqüências de ocorrência.
Não há perdade informação
MTB > tally c1
No arquivo PULSEPULSE Summary Statistics for Discrete Variables Pulse1 Count Percent 48 1 1,09 54 2 2,17 58 3 3,26 60 4 4,35 61 1 1,09 62 9 9,78 64 4 4,35 66 5 5,43 68 11 11,96 70 6 6,52 72 6 6,52 74 5 5,43 76 5 5,43 78 5 5,43 80 3 3,26 82 3 3,26 84 4 4,35 86 1 1,09 87 1 1,09 88 3 3,26 90 4 4,35 92 2 2,17 94 1 1,09 96 2 2,17 100 1 1,09 N= 92
Alternativa: construir intervalos de classe
Classe de pulsação frequência
48 |- 54
54 |- 60
60 |- 66
66 |- 72
72 |- 78
78 |- 84
84 |- 90
90 |- 96
96 |- 102
1
5
18
22
16
11
9
7
3
Informações mais resumidas
Perda de informação
Exemplo 2:Exemplo 2:
Variável: altura ( height) contínuaConstruir intervalos de classe
Classes de altura f fr
60,25 |- 61,7561,75 |- 63,2563,25 |- 64,7564,75 |- 66,2566,25 |- 67,7567,75 |- 69,2569,25 |- 70,7570,75 |- 72,2572,25 |- 73,7573,75 |- 75,25 Total
110
213
720
715
98
92
0,0110,1090,0220,1410,0760,2170,0760,1630,0980,0871
Distribuição de freqüência para altura ( arquivo PULSE)
Variáveis QuantitativasVariáveis Quantitativas
GráficosGráficos
•“Dotplot ”
•“Boxplot ”
• Histograma
DOTPLOTDOTPLOTArquivo PULSEPULSE – Dotplot da pulsação em repouso (PULSE1)
MTB > DOTPLOT C1MTB > DOTPLOT C1
. . : : : : . : : : . . . . : : : : : : : : : : . . : . : . : : :.: : : : : : : : : : : : ..: : : . : .---+---------+---------+---------+---------+---------+- 50 60 70 80 90 100 Pulse1
Arquivo PULSEPULSE – Dotplot da pulsação em repouso (PULSE1) segundo Sexo (SEX)
MTB > DotPlot 'Pulse1' ;SUBC> Same;SUBC> By 'Sex'. :Sex 1 : : : . . : . . : : : : . . . : : : : : : : : : : : . . . : . : :--+---------+---------+---------+---------+---------+-
Sex 2 . . : . ..: . : : : : : : : : ..: . . : .--+---------+---------+---------+---------+---------+- 50 60 70 80 90 100 Pulse1
BoxplotBoxplot
Representa os dados através de um retângulo construído com os quartisquartis e fornece informações sobre os valores valores extremos.extremos.
“Máximo”
Q3
Mediana
Q1
“Mínimo”
25%
50%
75%
ConstruçãoLS=Q3+1,5(Q3-Q1)
LI=Q1-1,5(Q3-Q1)
“Máximo” é o maior valor menor que LS;
“Mínimo” é o menor valor maior que LI.
ExemplExemplo:o:
md = 41,5 Q1 = 30,25 Q3 = 49,5
*
*
120
100
80
60
40
20
Dados ordenados (n=36)
18 21 21 23 23 25
27 29 30 31 32 32
32 34 35 36 38 41
42 42 43 44 45 46
46 47 48 50 54 56
57 58 60 61 98 116
LI = Q1 - 1,5(Q3 - Q1) =1,38
LS = Q3 + 1,5(Q3 - Q1) =78,38
Observações discrepantes?
Tempo de sobrevivência (dias)
Arquivo PULSEPULSE –Boxplot da pulsação em repouso (PULSE1)
MTB > BOXPLOT C1MTB > BOXPLOT C1
Alguns Comentários:Alguns Comentários:
• não há observações discrepantes;
• a distribuição dos valores é aproximadamente simétrica.
Arquivo PULSEPULSE – Boxplots da pulsação em repouso (PULSE1PULSE1) por sexo (SEXSEX)
MTB > BOXPLOT C1*C5
Alguns Comentários:Alguns Comentários:
• não há observações discrepantes;
• as medidas de posição são maiores para o sexo feminino;
• não há fortes evidências de assimetria nos dois grupos.
Histograma
Bases iguaisConstruir um retângulo para cada classe, com base igual ao tamanho da classe e altura proporcional à freqüência da classe (f).
Agrupar os dados em intervalos de classes
(distribuição de freqüências)
Bases diferentesConstruir um retângulo para cada classe, com base igual ao tamanho da classe e área do retângulo igual a freqüência relativa da classe(fr). A altura será dada por h = fr/base (densidade de freqüência).
Arquivo PULSEPULSE – Histograma da alturaHistograma da altura (Height)
74,573,071,570,068,567,065,564,062,561,0
20
10
0
Height
Fre
qu
en
cy
Distribuição de freqüênciapara altura (arquivo PULSE)
Classe de altura f fr60,25 ⊢ 61,7561,75 ⊢ 63,2563,25 ⊢ 64,7564,75 ⊢ 66,2566,25 ⊢ 67,7567,75 ⊢ 69,2569,25 ⊢ 70,7570,75 ⊢ 72,2572,25 ⊢ 73,7573,75 ⊢ 75,25 Total
110
213
720
715
98
92
0,0110,1090,0220,1410,0760,2170,0760,1630,0980,0871
MTB > HIST C6MTB > HIST C6
ExemploExemplo: Classes desiguais
0 3 12 24 60
f
Classes (meses) f fr h
0 |- 3 140 0,28 0,093
3 |- 12 100 0,20 0,022
12 |-24 80 0,16 0,013
24 |-60 180 0,36 0,010
Total 500 1,00
Vacinação Infantil
0 3 12 24 60
h0,10
0,02
0,04
0,06
0,08
Forma da Distribuição
Variáveis Variáveis QualitativasQualitativasOs dados podem ser resumidos construindo-
se uma tabela de distribuição de freqüências, que quantifica a freqüência das distintas categorias.
Variáveis qualitativas no arquivo PULSEPULSE
RanSmokes
SexActivity
Variáveis qualitativas no arquivo PULSEPULSE
MTB > Tally 'Sex' 'Smokes' 'Activity';SUBC> Counts;SUBC> Percents.
Summary Statistics for Discrete Variables
Sex Count Percent Smokes Count Percent 1 57 61,96 1 28 30,43 2 35 38,04 2 64 69,57 N= 92 N= 92
Activity Count Percent 0 1 1,09 1 9 9,78 2 61 66,30 3 21 22,83 N= 92
Podemos também construir tabelas de freqüências conjuntas (tabelas de contingência), relacionando duas variáveis qualitativas.
Exemplo 1Exemplo 1: Há indícios de associação entre Sexo e Hábito de fumar?
Como concluir?
Sexo Fuma Não Fuma TotalMasculino 20 37 57Feminino 8 27 35
Total 28 64 92
Hábito de Fumar
Qual o significado dos valores desta tabela?
MTB > Table 'Sex' 'Smokes';SUBC> Counts.
Rows: Sex Columns: Smokes 1 2 All 1 20 37 57 2 8 27 35 All 28 64 92
Verificar associação através da: - porcentagem segundo as colunas, ou - porcentagem segundo as linhas.
Como concluir?
Sexo Fuma Não Fuma TotalMasculino 71,43% 57,81% 61,96%Feminino 28,57% 42,19% 38,04%
Total 100% 100% 100%
Hábito de Fumar
Qual o significado dos valores desta tabela?
MTB > Table 'Sex' 'Smokes';
SUBC> ColPercents. (RowPercents/TotPercents)
Rows: SexSex Columns: SmokesSmokes 1 2 All 1 71,43 57,81 61,96 2 28,57 42,19 38,04 All 100,00 100,00 100,00
MTB > Table 'Sex' 'Smokes';SUBC> Counts;SUBC> RowPercents.
Rows: Sex Columns: Smokes 1 2 All1 20 37 57 35,0935,09 64,9164,91 100,002 8 27 35 22,8622,86 77,1477,14 100,00All 28 64 92 30,4330,43 69,5769,57 100,00Cell Contents – Count - % of Row
Exemplo 2Exemplo 2: Dentre os que correram, qual a porcentagem de mulheres?
MTB > Table 'Ran' 'Sex';SUBC> Counts;SUBC> RowPercents.
Rows: Ran Columns: Sex 1 2 All1 24 11 35 68,57 31,43 100,002 33 24 57 57,89 42,11 100,00All 57 35 92 61,96 38,04 100,00
Resposta: 31,43%
Variáveis Variáveis QualitativasQualitativas
•Gráfico de setores
•Gráfico de barras
GráficoGráficoss
Gráfico de Gráfico de setoressetores
Um círculo é dividido em tantos setores quantas forem as categorias da variável. A área de cada setor é proporcional à freqüência da categoria
Arquivo PULSEPULSE — Gráfico de setores para a variável Ran
1 (35; 38,0%)
2 (57; 62,0%)
Pie Chart of Ran
MTB > %Pie c3.
Arquivo PULSEPULSE — Gráfico de setores para a variável Activity
Gráfico de barrasGráfico de barras
Sobre um eixo, são representados retângulos, um para cada categoria da variável. A altura do retângulo é proporcional à freqüência da categoria
21
60
50
40
30
20
10
0
Ran
Co
un
t o
f R
an
Arquivo PULSEPULSE — Gráfico de barras para a variável RAN
MTB > Chart C3MTB > Chart C3
Arquivo PULSEPULSE — Gráfico de barras para a variável Activity
MTB > Chart C8MTB > Chart C8
3210
60
50
40
30
20
10
0
Activity
Cou
nt o
f A
ctiv
ity