Medidas de posição e de dispersão
description
Transcript of Medidas de posição e de dispersão
MEDIDAS DE POSIÇÃO E DE DISPERSÃO
Bioestatística e Delineamento Experimental - 2011
Profª Andréa H Dâmaso
Tópicos da aula
Medidas de tendência central e dispersão Variáveis contínuas: distribuição normal Amostra Variabilidade amostral
Relembrando... tipos de variáveis
Categóricas(ou qualitativas)
Numéricas(ou quantitativas)
Dicotômicas
Politômicas
Nominais(ordem não importa)
Ordinais(tem uma ordem
lógica)
Discretas(números inteiros)
Contínuas(aceitam decimais)Sexo, raça,
estado civil, religião...
NSE, IMC categ, avaliação
qualitativa...
“CONTAGENS” Nº filhos, anos
de estudo...
“MEDIDAS”Peso, altura,
pressão. Renda
familiar (R$)
Estatística descritiva
Categórica(ou qualitativa)
Numérica(ou quantitativa)
Medidas de ocorrênciaFREQUÊNCIA ou PORCENTAGEM Incidência Prevalência OddsMedida de precisãoINTERVALO DE CONFIANÇA
Medidas tendência centralMODAMÉDIAMEDIANA
Medidas de dispersãoAMPLITUDEVARIÂNCIADESVIO PADRÃOERRO PADRÃO
Distribuição de frequência
Descrição de uma variável qualitativas ou categóricas
Dicotômicas ou binárias Politômicas
Cálculo de proporções Divisão de um número por outro, onde o
numerador está contido (é subconjunto) no denominador
Exemplo: Desnutrição: sim /não Em 100 crianças, 20 estão desnutridas (20%)
Como apresentar as informações?
Dados da coorte de nascimentos de 2004. Pelotas, RS (n=6000)
NúmeroPeso ao nascer
(g)Número de gravidez
1 750 12 1500 33 1520 24 2450 45 1790 16 3000 27 1930 2
..... ..... ...5999 3510 16000 2900 1
Distribuição de frequência
Descrição de uma variável numérica
Tabela que mostra um número de observações ou valores dentro de certos intervalos
Distribuição de frequência: variável “discreta”
Número de gravidezes das mães da coorte de 2004. Pelotas, RS (n=6000)
Número de gravidez Frequência (n) %1 2092 34,92 1644 27,43 970 16,14 544 9,15 282 4,76 168 2,87 105 1,88 69 1,29 48 0,810 39 0,711 20 0,312 11 0,113 8 0,1
Distribuição de frequência: variável “discreta”
Número de gravidez das mães da coorte de 2004. Pelotas, RS (n=6000)
Número de gravidezes Frequência (n) %1 2092 34,92 1644 27,43 970 16,1
≥4 1294 21,6
Distribuição de frequência: variável “contínua”
Peso ao nascer das crianças da coorte de 2004. Pelotas, RS (n=4555)
Peso ao nascer (gramas) Frequência % <1000 52 1,1 1000-1499 43 0,9 1500-1999 98 2,2 2000-2499 305 6,7 2500-2999 1112 24,4 3000-3499 1747 38,3 3500-3999 976 21,5 4000 222 4,9
... ... mas para variáveis contínuas queremos
descrever os dados de forma ainda mais sucinta!
Medidas de tendência central Medidas de posição Medidas de dispersão
Descrição de variáveis contínuasMEDIDAS DE
TENDÊNCIA CENTRAL
MEDIDAS DE DISPERSÃO
MEDIDAS DE POSIÇÃO
MEDIDAS DE POSIÇÃO
MÉDIAMEDIANAMODA
AMPLITUDEINTERVALO INTERQUARTILVARIÂNCIADESVIO PADRÃO
TERCILQUARTILQUINTILDECILPERCENTIL
Medidas de tendência central, de posição e de variabilidade ou dispersão
Utilizadas para variáveis: Quantitativas ou numéricas
Discreta Contínua
São valores calculados com o objetivo de descrever os dados de forma ainda mais resumida do que usando uma tabela
Medidas de tendência central
Média
Moda
Mediana
Medidas de tendência central
Média
xi: valor de cada indivíduo ∑: somatória n: total de indivíduos
xx
n
ii
n
1
Vantagem:Utiliza TODOS os
valores da distribuição
Desvantagem:É influenciada por valores extremos
Medidas de tendência central
Moda Valor que mais se repete na amostra (na
distribuição) 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 8, 9, 9
Moda: 2
Quando mais de um valor se repete o mesmo número de vezes BIMODAL
Medidas de tendência central
Mediana Valor que divide a distribuição ao meio 1º passo: ordenar os dados de menor a maior 2º passo: ver qual valor ocupa o “meio” da
distribuição
Se... Número ímpar de dados: valor do meio
1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 8, 9, 9 Número par de dados: média dos dois do meio
1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 8, 9, 9Fórmula:(n + 1)/2
Média x Mediana
Semelhantes para distribuições simétricas: Peso ao nascer Média: 3131 g Mediana: 3180 g
Distantes para distribuições assimétricas: Renda familiar Média: R$ 791 Mediana: R$ 500
Então...
Qual medida de tendência central usar? MÉDIA ou MEDIANA?
Mediana x Média: peso ao nascer
Distribuição simétrica0
500
1000
1500
2000
n
1000 2000 3000 4000 5000 6000Peso ao nascer
Média: 3131 gramas; Mediana: 3180 gramas
Média
Mediana x Média: renda familiar
Distribuição assimétrica0
1000
2000
3000
n
0 5000 10000 15000 20000Renda familiar (reais)
Média: R$ 791; Mediana: R$ 500
Mediana
Medidas de posição
Percentis (dividem os dados em 100 partes iguais) Percentil 10, percentil 50, percentil 99...
Quartis Primeiro, segundo, terceiro, quarto quartil
Quintil Primeiro, segundo, terceiro, quarto, quinto
quintil
Percentis de peso ao nascer
. su peson,d
peso ao nascer em gramas------------------------------------------------------------- Percentiles Smallest 1% 1950 1100 5% 2340 149010% 2570 1550 Obs 96225% 2870 1570 Sum of Wgt. 962
50% 3180 Mean 3200.639 Largest Std. Dev. 511.047575% 3510 469090% 3830 4700 Variance 261169.595% 4050 4700 Skewness -.106183399% 4450 4880 Kurtosis 3.579037
Medidas de dispersão (variabilidade) Várias maneiras de medir a dispersão
Amplitude (maior - menor) Amplitude interquartil (p75 - p25) Variância Desvio padrão
Medidas de dispersão (variabilidade)
Amplitude Valor maior – valor menor Apenas considera os valores extremos Ex: 5 medidas de glicemia em mmol/l
80; 85; 88; 90; 500 Amplitude: 500-80=480
Medidas que se distanciam muito das demais influenciam muito a amplitude
Medidas de dispersão (variabilidade)
Amplitude interquartil Percentil 75 – percentil 25 Considera apenas a parte central dos valores
de um conjunto de dados Joga fora os valores mais altos e os mais baixos
Não influenciada pelos valores discrepantes
Medidas de dispersão (variabilidade)
Variância (S2) Boas propriedades estatísticas Usa todas as observações É uma medida dos “desvios” (ao quadrado) de
cada observação em relação à média Pq ao quadrado? Unidade de medida ao quadrado difícil
interpretação
Medidas de dispersão (variabilidade) Desvio padrão (S)
É a raiz quadrada da variância Quanto mais próximos os valores individuais
estiverem de sua média, < a dispersão e < o desvio-padrão
Muito útil para distribuições dos dados aproximadamente normais
Distribuição normal
Ou Gaussiana Simétrica Forma de “sino” É uma distribuição contínua Descreve bem fenômenos biológicos
5 4 0 0
5 0 0 0
4 6 0 0
4 2 0 0
3 8 0 0
3 4 0 0
3 0 0 0
2 6 0 0
2 2 0 0
1 8 0 0
1 4 0 0
1 0 0 0
6 0 0
1 8
1 6
1 4
1 2
1 0
8
6
4
2
0
S t d . D e v = 5 5 7 . 3 8
M e a n = 3 1 5 2
N = 5 2 5 8 . 0 0
Percentagem
Peso ao nascer
Distribuição normal padrão (propriedades) 1. Qualquer variável com distribuição
simétrica (normal) pode ser relacionada com uma distribuição normal padrão Média: zero; DP: 1 Posso estimar entre quais valores está x% dos
meus dados
Distribuição normal padrão (propriedades) 2. Área abaixo da curva
A área abaixo de toda a curva normal = 1, ou seja, a probabilidade de que uma observação fique em algum lugar abaixo da curva é 100%
3. A probabilidade de se estimar a localização exata de um indivíduo em específico é “zero” Não posso estimar a posição de um valor
específico, mas posso calcular: Proporção de indivíduos abaixo ou acima de certo
valor Proporção de indivíduos entre certos valores
Distribuição normal padrão (propriedades) Exemplo
Qual a probabilidade de uma criança ter peso ao nascer igual a 4000 gramas? Não tenho como calcular esta probabilidade
exata, mas posso calcular...
Qual é a proporção de crianças com peso ao nascer maior de 4000 gramas?
Área abaixo da curva
Média = 3230DP = 610
Crianças com peso ao nascer > 4000
gramas
Área abaixo da curva
Distribuição normal padrão (x - média)/desvio padrão (4000 - 3230)/610 = 1,26 = z
Olhando as tabelas de distribuição normal...
z = 0,1038, ou seja, 10,4% das crianças tem peso ao nascer maior do que 4000 gramas
... Uso de amostras
O que seria uma amostra? Não é melhor avaliar toda a população ?
Amostra
Quero conhecer um atributo de uma população (alvo) Estado nutricional das crianças brasileiras
menores de 5 anos
Escolho um grupo para estudar Crianças menores de 5 anos da cidade de
Pelotas
Deste grupo tiro uma amostra
Definição da população
UNIVERSO ou POPULAÇÃO TOTAL
POPULAÇÃO ALVO
AMOSTRA
Amostra: características
1. Representar a população Equiprobabilidade = representatividade
Todos os indivíduos da população alvo têm a mesma chance de participar do estudo (de serem sorteados)
POPULAÇÃO ALVO POPULAÇÃO ALVO
Amostra: características
2. Precisão Amostra de tamanho adequado Garantir o mínimo de precisão Garantir a chance de demonstrar uma
diferença entre dois grupos PODER: probabilidade de encontrar uma diferença qdo
ela realmente existe Quanto maior a amostra, maior o poder
Estudos com baixo poder (amostra pequena) para testar associações são um desperdício de tempo e dinheiro
Amostra: características
3. Variabilidade amostral Cada amostra dá um resultado Repetir o processo de amostragem e estudar a
distribuição dos resultados
Como será que a distribuição das amostras se compara com a distribuição em toda população? Se coletarmos muitas amostras independentes,
do mesmo tamanho, de uma mesma população e calcularmos a média de cada amostra... Distribuição das médias amostrais
Então, a amostra...
Tem importância pelo que nos conta sobre a população que representa
A média e o desvio padrão da amostra são usados para estimar a média e o desvio padrão da população
sx
amostra
população
Distribuição das médias amostrais
A média da distribuição das médias amostrais é a média da população (isso eu já sei!!!)
E como é a variabilidade da média da população? O desvio padrão da distribuição das amostras
se denomina ERRO PADRÃO
Distribuição das médias amostrais
Enquanto o desvio padrão mede a variabilidade dos indivíduos da amostra
... o erro padrão mede a variabilidade da média das amostras E indica com que precisão a média da
população pode ser estimada pela média amostral
Distribuição das médias amostrais
Erro padrão
nep
Desvio padrão da população
Tamanho da amostra
Distribuição das médias amostrais
Dificilmente nós conhecemos o desvio padrão da população ()
Então se usa o desvio padrão da amostra (s) para estimar o erro padrão
nsep
Desvio padrão da amostra
Tamanho da amostra
E o que eu faço com o erro padrão?
Serve para calcular o Intervalo de Confiança
Intervalo de Confiança: intervalo de valores que contém o parâmetro de interesse Valores dentro dos quais existe uma certa
probabilidade de estar incluída a real média da população
Usado para comparar se existem diferenças entre dois ou mais grupos Testes de hipóteses
Isso será visto nas próximas aulas...
Referências bibliográficas
Massad E, Menezes R, Silveira P, Ortega N. Métodos Quantitativos em Medicina. SP: Manole, 2004
Kirkwood B and Sterne J. Essential of medical statistics. Blackwell Science, 2003