Representação gráfica e tabular da distribuição dos dados e Medidas resumo MAIO/2010 Paula...
Transcript of Representação gráfica e tabular da distribuição dos dados e Medidas resumo MAIO/2010 Paula...
Representação gráfica e tabular
da distribuição dos dados
e
Medidas resumo
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Tópicos abordados na última aula
Definição e classificação de variáveis;
Codificação de dados;
Armazenamento dos dados (Exemplo de banco de dados);
Construção de tabelas de frequências (Variáveis qualitativas).
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Tópicos abordados nessa aula
Construção e interpretação de gráficos para cada tipo de variável;
Definição e Cálculo das medidas de posição: Média, Mediana,
Quartis e Moda;
Medidas de dispersão.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Conjunto de técnicas que resumem e descrevem
os dados simplificando as informações para
torná-las mais rapidamente compreensíveis.
Etapa inicial da análise dos dados
Tabelas
Gráficos
Medidas resumo
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Estatística descritiva - Definição
Representação gráfica para Variáveis qualitativas
(categóricas) ou quantitativas discretas
GRÁFICO DE BARRAS / COLUNAS: É utilizado para apresentar variáveis
categóricas ou numéricas discretas. Em geral, no eixo das abscissas
encontram-se as categorias e a altura das colunas correspondem às
freqüências (simples ou relativas) das categorias.
MAIO/2010 Paula Strassmann
PGS Medical Statistics
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Exemplo de gráfico de colunas para variáveis quantitativas discretas:
Nº de filhos
Nº de funcionários casados
1 92 133 74 3
Exemplo de gráfico de colunas para variáveis qualitativas:
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Satisfação Indivíduos
Insatisfeito 50
Pouco satisfeito 75
Muito satisfeito 120
MAIO/2010 Paula Strassmann
PGS Medical Statistics
CidadeNº de
casos
São Paulo 52
Osasco 20
Guarulhos 17
Carapicuiba 16
Caieiras 10
Barueri 8
Cotia 8
Taboão da Serra 5
Santana de Parnaíba 4
Outros 3
Exemplo de gráfico de barras para variáveis qualitativas:
34
5
8
8
10
16
17
20
52
0 10 20 30 40 50 60
OUTROS*
SANTANA DE PARNAIBA
TABOÃO DA SERRA
COTIA
BARUERI
CAIEIRAS
CARAPICUIBA
GUARULHOS
OSASCO
SÃO PAULO
número de casos
Cruzamentos: Variáveis categóricas x Variáveis categóricas
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Sexo \ Tabagismo Sim Não TotalMasculino 175 (81%) 40 (19%) 215 (100%)Feminino 50 (83%) 10 (17%) 60 (100%)Total 225 (82%) 50 (18%) 275 (100%)
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Cruzamentos: Variáveis categóricas x Variáveis categóricas
(Continuação)
Sexo \ Tabagismo Sim Não TotalMasculino 175 (81%) 40 (19%) 215 (100%)Feminino 50 (83%) 10 (17%) 60 (100%)Total 225 (82%) 50 (18%) 275 (100%)
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Cruzamentos: Variáveis categóricas x Variáveis categóricas
(Outro exemplo)
Faixa etária \ Estado civil
Solteiro Casado Separado / viúvo Total
Até 30 anos 62 (73%) 18 (21%) 5 (6%) 85 (100%)30 a 50 anos 23 (24%) 57 (59%) 17 (18%) 97 (100%)Mais de 50 anos 12 (14%) 42 (50%) 30 (36%) 84 (100%)Total 97 (36%) 117 (44%) 52 (20%) 266 (100%)
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Cruzamentos: Variáveis categóricas x Variáveis categóricas
(Outro exemplo – Continuação)
Representação gráfica para variáveis qualitativas
(categóricas)
GRÁFICO DE SETORES (PIZZA): Cada “fatia” corresponde à porcentagem de
ocorrências em cada categoria de resposta da variável. É indicado para
variáveis qualitativas (preferencialmente nominais). Neste tipo de gráfico, todas
as observações da amostra estão classificadas em uma das categorias, ou seja,
a soma das porcentagens deve ser igual a 100%.
MAIO/2010 Paula Strassmann
PGS Medical Statistics
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Exemplo de gráfico de setores (pizza) para variáveis qualitativas:
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Homens75%
Mulheres25%
Homens75%
Mulheres25%
Exemplo de gráfico de setores (pizza) para variáveis qualitativas:
Sexo f (%)Homens 150 (75,0%)Mulheres 50 (25,0%)Total 200 (100,0%)
Histograma: Gráfico de barras justapostas em que no eixo horizontal está
a variável de interesse, dividida em classes geralmente de mesmo
tamanho. No eixo vertical, constrói-se uma barra para cada classe com
altura igual à freqüência absoluta ou relativa correspondente. A barra é
centrada no ponto médio da classe.
Polígono de Freqüências: Construído a partir do histograma, onde se une
através de segmentos de reta as ordenadas correspondentes aos pontos
médios de cada classe.MAIO/2010 Paula Strassmann
PGS Medical Statistics
Representação gráfica para Variáveis
quantitativas contínuas
Exemplo de histograma: Dados de registro pediátrico da concentração de chumbo na urina de 140 crianças de uma determinada região.
Concentração de chumbo umol/24 hrs Nº de crianças
0|0.4 2
0.4 | 0.8 7
0.8 |1.2 10
1.2 |1.6 16
1.6 |2.0 23
2.0 |2.4 28
2.4 |2.8 19
2.8 |3.2 16
3.2 |3.6 11
3.6 |4.0 7
4.0 |4.4 1
Total 140
0
5
10
15
20
25
30
0- 0.4- 0.8- 1.2- 1.6- 2.0- 2.4- 2.8- 3.2- 3.6- 4.0- 4.4-
Lead concentration
Nu
mb
er o
f ch
ildre
n
n=140
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Construção do Histograma para os dados da Tabela 1
Tabela 1. Ácido úrico sérico em homens sadios (Finn et al. (1966)).Ácido úrico
(mg/dl) Freqüência
absoluta Freqüência
relativa Porcentagem
(%)
3,0 | 3,5 2 0,008 0,8
3,5 | 4,0 15 0,056 5,6
4,0 | 4,5 33 0,124 12,4
4,5 | 5,0 40 0,150 15,0
5,0 | 5,5 54 0,202 20,2
5,5 | 6,0 47 0,176 17,6
6,0 | 6,5 38 0,142 14,2
6,5 | 7,0 16 0,060 6,0
7,0 | 7,5 15 0,056 5,6
7,5 | 8,0 3 0,011 1,1
8,0 | 8,5 1 0,004 0,4
8,5 | 9,0 3 0,011 1,1
Total 267 1,000 100,0 MAIO/2010 Paula Strassmann
PGS Medical Statistics
Histograma para os dados da Tabela 1
Ácido úrico (mg/dl)
8,758,257,757,256,756,255,755,254,754,253,753,25
Po
rce
nta
ge
m60
50
40
30
20
10
0
MAIO/2010 Paula Strassmann
PGS Medical Statistics
0
10
20
30
40
50
60
3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75
Ácido úrico (mg/dl )
Po
rce
nta
ge
m
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Polígono de frequência para os dados da Tabela 1
Estatística descritiva – Análise exploratória dos dados
Como resumir VARIÁVEIS NUMÉRICAS?
Medidas de posição ou
Medidas de tendência central
Moda
Média
Mediana
Quartis, percentis
Medidas de dispersão
Amplitude
Variância
Desvio padrão
MAIO/2010Paula Strassmann
PGS Medical Statistics
Valor que ocorre com maior freqüência. Exemplo: As idades dos alunos de
uma classe são: 19, 19, 20, 20, 20, 21, 22. Nesse caso, Moda = 20 anos;
Pode existir mais de uma moda. Distribuição é bimodal, trimodal, ...
Exemplo: As idades dos alunos de uma classe são: 19, 19, 19, 20, 20, 20, 21,
22. Nesse caso, Moda = 19 e 20 anos (bimodal);
Pode não existir moda (não ter um valor mais freqüente). Exemplo: As idades
dos alunos de uma classe são: 18, 19, 20, 21, 22. Nesse caso, Não existe Moda.
Medidas de posição – Moda
Paula Strassmann
PGS Medical StatisticsMAIO/2010
É a medida de tendência central mais utilizada;
Leva em conta todos os valores da variável;
É afetada por valores extremos;
É o “ponto de equilíbrio” da distribuição dos dados.
Média Média 22
(Dados ordenados)
Média 1Média 1
(Dados ordenados)
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de posição – Média
n
XXXX
n
XX n
n
ii
...3211
Exemplo: Um estudante fez 5 provas e obteve notas 75, 90, 83, 77 e
92. Então sua nota média é:
4,835
9277839075
X
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de posição – Cálculo da Média
Divide os dados ordenados ao meio;
Medida resistente: pouco afetada por mudanças de valores
discrepantes (extremos).
mediana
50%50%
(Dados ordenados)
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de posição – Mediana
Ordenam-se os dados;
Seleciona-se a observação central.
n ímpar: valor da observação central
n par: média das duas observações centrais
Posição da mediana = 3 Mediana = 83
Posição da mediana = 3,4 Mediana = (83 + 90)/2 = 86,5
Dados ordenados 75 77 83 90 92 97
posição 1 2 3 4 5 6
Dados ordenados 75 77 83 90 92
posição 1 2 3 4 5
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de posição – Cálculo da Mediana
Medidas de posição central
São valores únicos representativos dos dados. Os mais usados são
média aritmética, moda e mediana.
Exemplo:
Paciente Idade
1 392 503 604 705 396 727 338 379 8010 4911 46
Mediana = 49 anos (posição central)
Moda = 39 anos (idade mais freqüente)
Média = (575/11) = 52,3 anos
Paciente Idade
7 338 371 395 3911 4610 492 503 604 706 729 80
n = 11 Soma = 575 Paula Strassmann
PGS Medical StatisticsMAIO/2010
Concluindo:
Média: É o “ponto de equilíbrio” da distribuição dos dados.
Moda: É o valor que ocorre com mais frequência.
Mediana: Divide os dados ordenados ao meio.
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Exercício 1:
Com base nos dados da tabela abaixo, calcule:
Nº
AlunoTurma Sexo Idade Altura Peso Fuma
1 A M 17 1,6 69 Sim
2 A F 18 1,78 68 Não
3 B M 24 1,65 76 Sim
4 A M 33 1,82 106 Não
5 A F 35 1,7 78 Não
6 B F 48 1,59 71 Não
7 B F 24 1,72 70 Sim
8 B M 21 1,66 80 Não
9 A M 39 1,71 89 Não
10 A M 24 1,55 68,5 Não
a) Peso médio
b) Moda para Idade.
c) Altura Mediana.
MAIO/2010 Paula Strassmann
PGS Medical Statistics
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Resolução do Exercício 1:
a)Peso médio:
Portanto, peso médio = 77,55 kg.
b) Moda para a Idade: Observando todas as idades da tabela, vemos que a
idade que mais aparece é 24 anos (3 alunos têm 24 anos). As demais idades
aparecem uma única vez. Portanto, Moda = 24 anos.
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Resolução do Exercício 1 (Continuação):
c)Altura mediana:
Ordenação dos dados: 1,55; 1,59; 1,6; 1,65; 1,66; 1,7; 1,71; 1,72; 1,78;
1,82.
Nesse caso, n = 10 (número par de elementos) e então a mediana é a
média entre os 2 valores centrais. Posição da mediana: 5, 6.
Mediana =
Portanto, a altura mediana é 1,68 metros.
25% 25% 25% 25%
Q1 Q2 Q3
Dados em ordem crescente
Dividem os dados ordenados em 4 partes iguais:
25% dos dados estão abaixo do 1º quartil (Q1)
50% dos dados estão abaixo do 2º quartil (Q2 ou mediana)
75% dos dados estão abaixo do 3º quartil (Q3)
Dados ResistentesPaula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de posição – Quartis
60N =
Pacientes atendidos
1200
1000
800
600
400
200
0
*3o quartil (Q3)3o quartil (Q3)
MedianaMediana
1o quartil (Q1)1o quartil (Q1)
1,5 (Q3 - Q1)1,5 (Q3 - Q1)
Ponto discrepante
Ponto discrepante
Box-plot
1,5 (Q3 - Q1)1,5 (Q3 - Q1)
Valor máximo entre os não discrepantes
Valor mínimo entre os não discrepantes
Paula Strassmann
PGS Medical StatisticsMAIO/2010
1212N =
Tratamento BTratamento A
Tem
pe
ratu
ra (
ºC)
40,0
39,5
39,0
38,5
38,0
37,5
37,0
36,5
36,0
Temp. (ºC)
39,7
39,5
39,1
39,0
38,5
38,4
38,3
38,2
38,0
37,9
37,8
36,5
Tratamento 1
Temp. (ºC)
38,2
38,0
38,0
37,5
37,5
37,4
37,3
37,0
37,0
37,0
36,9
36,8
Tratamento 2
Exemplo: Gráfico de Box-Plot comparando dois tratamentos
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Distância entre os valores máximo e mínimo;
Amplitude = valor máximo – valor mínimo;
Ignora a distribuição dos dados;
Exemplo:
7 8 9 107 8 9 10
amplitude = 10 – 7 = 3 amplitude = 10 – 7 = 3
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de dispersão – Amplitude
Exemplo 1: Duas amostras de 20 indivíduos.
Amostra 1: Estatura mínima: 140 cm e Estatura máxima:
180 cm
Amostra 2: Estatura mínima: 150 cm e Estatura máxima:
175 cm
Em qual das duas amostras os indivíduos variam mais em
relação à estatura ? Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de dispersão – Cálculo da Amplitude
Resolução do Exemplo 1:
Amostra 1: Estatura mínima: 140 cm
Estatura máxima: 180 cm
Amostra 2: Estatura mínima: 150 cm
Estatura máxima: 175 cm
Máx – mín =180 cm – 140 cm=
40 cm
Máx – mín =175 cm – 150 cm=
25 cm
Os cálculos sugerem que a Amostra 1 contém mais
estaturas diferentes, poisabrange uma faixa maior
de valoresPaula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de dispersão – Cálculo da Amplitude (Continuação)
Exemplo 2: Duas amostras de estatura (cm) de 6 indivíduos.
Amostra 1: 150, 151, 153, 155, 158, 160
Amostra 2: 150, 155, 155, 155, 155, 160
A amplitude é a mesma nas duas amostras.
Em qual das duas amostras os indivíduos variam mais em
relação à estatura ?
Observando os valores um a um, percebemos que a Amostra 1
varia mais.
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de dispersão – Cálculo da Amplitude (Continuação)
No exemplo, vimos que amostras com a mesma média podem ter
variabilidades muito diferentes.
Como medir a variabilidade de um conjunto de dados?
A forma mais comum de medir a variabilidade é quantificá-la pelas
distâncias das observações com relação á média.
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de dispersão (Continuação)
Medidas de Dispersão – Variância amostral
1
)()(
2
12
n
XxXVar
n
ii
Paula Strassmann
PGS Medical StatisticsMAIO/2010
A variância quantifica a variabilidade ou espalhamento ao redor da média das medidas.
Tende a ser um número grande e o seu valor sai dos limites dos valores observados em um
conjunto de dados. Além disso, sua unidade de medida corresponde a unidade de medida da
média elevada ao quadrado.
A variância quantifica a variabilidade ou espalhamento ao redor da média das medidas.
Tende a ser um número grande e o seu valor sai dos limites dos valores observados em um
conjunto de dados. Além disso, sua unidade de medida corresponde a unidade de medida da
média elevada ao quadrado.
1
)()(
2
1
n
XxXDP
n
ii
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas de Dispersão – Desvio padrão amostral
O desvio padrão, que é a raiz quadrada da variância, tem a mesma
unidade de medida da média e pode ser usado para descrever a
quantidade de dispersão na distribuição da freqüência.
O desvio padrão por si só não nos diz muita coisa. Um desvio padrão de 2
unidades pode ser considerado pequeno para um conjunto de dados cujo
valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode
ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade
dos dados limita o seu emprego quando desejamos comparar dois ou mais
conjuntos de dados, relativamente à sua dispersão ou variabilidade, quando
expressas em unidades diferentes. Para contornar essas dificuldades e
limitações, podemos caracterizar a dispersão ou variabilidade dos dados em
termos relativos ao seu valor médio, medida essa denominada coeficiente de
variação (CV).
O desvio padrão por si só não nos diz muita coisa. Um desvio padrão de 2
unidades pode ser considerado pequeno para um conjunto de dados cujo
valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode
ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade
dos dados limita o seu emprego quando desejamos comparar dois ou mais
conjuntos de dados, relativamente à sua dispersão ou variabilidade, quando
expressas em unidades diferentes. Para contornar essas dificuldades e
limitações, podemos caracterizar a dispersão ou variabilidade dos dados em
termos relativos ao seu valor médio, medida essa denominada coeficiente de
variação (CV).
Medidas de Dispersão
(Continuação)
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Indica a dispersão em relação à média;
É uma medida de variabilidade relativa, definida como a razão entre
o desvio padrão e a média, sendo uma medida adimensional
expressa em percentual.
Pode ser usado para comparar a dispersão de dois conjuntos de
dados, sem que eles estejam necessariamente na mesma unidade de
medida.
X
SXCVXCV )()(
Medidas de Dispersão – Coeficiente de correlação
Coeficiente de variação – Exemplo 1
Como 13 representa Como 13 representa 18% de 72, então18% de 72, entãoo CV é de 18%o CV é de 18%
Por exemplo, em uma amostra de pacientes para determinação do
clearance de creatinina, constatou-se que a média era
de 72 ml/min e o desvio-padrão, de 13.
Paula Strassmann
PGS Medical StatisticsMAIO/2010
Medidas as estaturas de 1017 indivíduos, obtivemos = 162,2 cm
e s = 8,01 cm. O peso médio desses mesmos indivíduos é 58 kg,
com um desvio padrão de 2,3 kg. Esses indivíduos apresentam
maior variabilidade em estatura ou em peso?
Coeficiente de variação para as estaturas:
Coeficiente de variação para o peso:
CV = 8,01 = 0,0494 = 4,94%; 162,2CV = 8,01 = 0,0494 = 4,94%; 162,2
Coeficiente de variação – Exemplo 2
CV = 2,3 = 0,0397 = 3,97%. 58,0CV = 2,3 = 0,0397 = 3,97%. 58,0
MAIO/2010 Paula Strassmann
PGS Medical Statistics
Bibliografias recomendadas
PAGANO, Marcello (1945) – Princípios de bioestatística / Marcello Pagano, Kimberlee Gauvreau; tradução Luiz Sérgio de Castro Paiva; revisão técnica Lúcia Pereira Barroso. – São Paulo: Pioneira Thomson Learning, 2004. (paginas 304-317). Titulo original: Principles of bioestatistics
Bussab, W.O. e Morettin, P.A. (2005) - Estatística Básica. 5ª Edição. São Paulo: Saraiva. 526p.
Dawson-Saunders, Beth e Trapp, Robert G. (1994) - Basic & Clinical Biostatistics – A Lange medical book. Second Edition – Prentice-Hall Internationl Inc. 344p.
Riffenburgh, Robert H. (2006) – Statistics in Medicine – Second Edition – San Diego, Caifornia – Elsevier Academic Press – 622p.
Del Giglio, Auro (2008) – Conselhos para um jovem médico – 1ª Ed. – Editora Manole Ltda. – 118 p.
MAIO/2010 Paula Strassmann
PGS Medical Statistics
PGS Medical Statistics
Paula G. Strassmann
MAIO/2010
Paula Strassmann
PGS Medical Statistics