Apresentação Gráfica, Medidas de Posição e de Dispersão Profª. Katya Silene Porto Rodrigues.
Transcript of Apresentação Gráfica, Medidas de Posição e de Dispersão Profª. Katya Silene Porto Rodrigues.
Apresentação Gráfica,Medidas de Posição e de
Dispersão
Profª. Katya Silene Porto Rodrigues
2
Apresentação Gráfica
A apresentação gráfica é um complemento importante da apresentação tabular. A principal vantagem de um gráfico sobre a tabela é o fato de que ele permite conseguir uma visualização imediata da distribuição dos valores observados.
3
Tipos de Gráficos
Cartogramas - são mapas geográficos em que as frequências das categorias de uma variável são projetadas nas áreas específicas do mapa. Em epidemiologia, os mapas alfinetados são de grande emprego para apreciar o aparecimento e expansão de certas moléstias.
4
Cart
ogra
ma
5
Cartograma
6
Tipos de Gráficos
Diagramas - são gráficos em que a magnitude das freqüências é representada por certa mensuração de uma determinada figura geométrica. São os gráficos mais usados na representação de séries estatísticas e se apresentam através de uma grande variedade de tipos.
7
Tipos de Diagramas
1) Gráficos em Linhas ou Gráficos Lineares Índices de Produção Física da
Indústria de Transformação da Bahia
1990 - 1999
Fonte: IBGE ( Pesquisa Industria l Mensal - PIM_PF)
A no
1999199819971996199519941993199219911990
Índi
ce (1
990=
100)
130
120
110
100
90
8
Gráficos de Linhas
9
Gráficos de Linhas
10
Tipos de Diagramas
2) Gráficos Pictóricos (Pictogramas)
11
Tipos de Diagramas
2) Gráficos Pictóricos (Pictogramas)
12
Pictograma
PRODUÇÃO MUNDIAL DE CARROS DE PASSEIO - 1995
7.612.000
6.350.000 JAPÃO
JAPÃO U.S.A 4.362.000
JAPÃO U.S.A ALEMANHA
13
Tipos de Diagramas
3) Gráficos em Barras
Prevalência da anemia em crianças menores de 5 anos de 10 municípios do Estado da Bahia, 1999.
0 5 10 15 20 25
ACAJUTIBA
GONGOGI
MILAGRES
SALINAS
SÃO FÉLIX
%
14
Tipos de Diagramas
4) Gráficos em Colunas
Contribuição percentual de cada refeição na dieta das crianças menores de 24 meses de idade. Salvador, 1996.
0
10
20
30
40
50
60
70
80
90
100
Café damanhã
Merenda Almoço Lanche Jantar Ceia
%
15
Tipos de Diagramas
4) Gráficos em Colunas
16
Tipos de Diagramas
5) Gráficos de Colunas Remontadas ou de
Barras Agrupadas
28.8%
44.4%
26.8%
0.0% 60.2%
39.8%
Ao sair
Ao ingressar
Evolução do estado antropométrico das crianças segundo o indicador peso/idade ao longo do seguimento PEAD
DesnutriçãoModerado/grave
Desnutrição Leve
Eutrofia
17
Gráficos de Colunas Remontadas ou de Barras Agrupadas
18
Gráficos de Colunas Remontadas ou de Barras Agrupadas
Fonte: IBGE
19
Colunas 3D Sobrepostas
0
50
100
150
200
250
Argentina Brasil México Portugal
Concorrência dos vários meios publicitários em 2000 Montante da despesa em milhões de dólares
TelevisãoRádioOutdoorsRevistasJornais
20
Tipos de Diagramas
6) Gráficos em Setores (ou pizza)
Distribuição das condições ambientais de crianças menores de 5 anos na Cidade do Salvador,1996.
54%
46%
Boas Precárias
21
Gráfico de Setores
22
Box-Plot
Identifica assimetrias e “outliers” Uma “caixa” (box) representa a região central
dos dados Limite inferior da caixa: Q1 Limite superior da caixa: Q3 Centro da caixa: Mediana (Q2) Hastes: 1,5 x IIQ, limitadas ao mínimo e
máximo! Dados fora do intervalo merecem atenção!
23
Box-Plot dos Salários1000
900
800
700
600
500
400
3º Quartil
Mediana
1º Quartil
24
Formato & Box Plot
Assimétrica à esquerdaAssimétrica à esquerda SimétricaSimétrica
QQ11 MedianaMediana QQ 33QQ11 MedianaMediana QQ33 QQ11 MedianaMediana QQ33
Assimétrica à direitaAssimétrica à direita
25
Medidas de Posição
São medidas da estatística descritiva, que tendem a localizar um determinado ponto do conjunto de dados. As medidas de posição podem ser:
Tendência Central: são medidas que tendem a localizar pontos que ficam no centro de um conjunto de dados ordenados.
Separatrizes: são medidas que dividem um conjunto de dados ordenados em partes iguais.
26
Medidas de Tendência Central
a.1)Média Aritmética Simples: É a medida de tendência central mais comumente utilizada para descrever resumidamente uma distribuição de freqüência.
onde : xi = valor genérico da observação
n = tamanho da amostra ou no total de observações
n
xX
n
ii
1
27
Perigo: um ou mais valores bastantediscrepantes do conjunto podem distorcer
atendência apresentada pela média.
Esta distorção pode ser amenizada aplicando-se
pesos às observações (média aritmética ponderada)
28
Medidas de Tendência Central
Ex1: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em kg):
23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0
n = 10
kgX 23
10
212721222023
29
Medidas de Tendência Central
a.2) Média aritmética ponderada:Em algumas situações, os números que queremos sintetizar têm graus de importância diferentes. Utiliza-se então uma média ponderada. Quando os dados estão agrupados por freqüências (absolutas ou relativas) os ponderadores
serão as freqüências.
n
ii
n
iii
f
.fxX
1
1
30
Medidas de Tendência Central
Ex1: Nº de defeitos apresentados por aparelhos de raio X.
No. de defeitos No. de aparelhos
1 7
2 7
3 4
4 2
Total 20
31
Medidas de Tendência Central
Ex2: Encontre a nota média dos alunos
Nota No. de alunos
4,7 ⊢ 5,2 6
5,2 ⊢ 5,7 30
5,7 ⊢ 6,2 26
6,2 ⊢ 6,7 15
6,7 ⊢ 7,2 3
Total 80
32
Medidas de Tendência Central
b.1) Moda: A moda é definida como o valor mais frequente do conjunto de dados. É a medida de tendência central menos importante. Sua vantagem é que pode ser usada para variáveis qualitativas.
amodal; unimodal; bimodal; plurimodal.
33
Medidas de Tendência Central
Ex1: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em kg):
23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0
Mo = 21,0 kg
Ex2: Encontre a estatura modal das crianças com base nos dados abaixo.
Estatura (m): 1,21 1,05 1,01 1,32 1,40 1,25 1,27 1,19 1,05
34
Medidas de Tendência Central
b.2) Moda para dados agrupados em classes: Para dados agrupados em classes a moda pode ser obtida por três procedimentos. Trabalharemos apenas com a moda bruta.
Moda Bruta: A moda bruta é simplesmente o ponto médio da classe de maior freqüência absoluta simples.
35
Separatrizes
As separatrizes são medidas de posição que permitem calcularmos valores da variável que dividem ou separam a distribuição em partes iguais. Temos quatro tipos de separatrizes, também chamadas de quantis: a mediana, que é também uma medida de tendência central; os quartis; os decis; e os percentis.
36
Separatrizes
A mediana é uma separatriz que divide um conjunto ordenado de dados em duas partes exatamente iguais. 50% das observações estarão à esquerda do valor mediano e 50% delas estarão a direita do valor mediano.
Além de separatriz a mediana é uma medida de tendência central porque será sempre o ponto situado no centro dos valores observados.
37
Separatrizes
a) Determinação da Mediana de valores não tabelados: No de observações
é ímpar:
No de observações é par: a mediana será a média entre
2
1
nEmd
2
nEmd 1
2
nEmd
38
Separatrizes
Ex1: Temos uma amostra de 9 crianças de 5 anos de idade, com dados referentes a seus pesos (em kg):
23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 rol : 19,0 20,0 21,0 22,0 23,0 24,0 25,0 27,0
28,2 como n = 9 (ímpar) Emd = 9 + 1 = 5 2 Então a mediana será o 5º elemento Md = 23,0 kg
39
Separatrizes
Ex2: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em kg):
23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0 rol : 19,0 20,0 21,0 21,0 22,0 23,0 24,0 25,0 27,0 28,2 como n = 10 (par) Emd = 10 = 5 2 Como temos 2 valores centrais a mediana será a média aritmética
entre o 5º e o 6º elementos. Md = 22 + 23 = 22,5 2 Md = 22,5 kg
40
Separatrizes
b) Determinação da Mediana de valores tabelados agrupados em classes:
O elemento mediano será sempre definido como :
e a mediana por:
onde: li = limite inferior da classe mediana; h = amplitude do intervalo de classe;
Emd = elemento mediano;
fant = frequência acumulada anterior à classe mediana;
fi = frequência absoluta simples da classe mediana.
2
nEmd
i
antmdi f
FEhlMd .
41
Separatrizes
Exemplo: Faixa etária de funcionários do hospital XY. Bahia. 1993.
Fonte: dados hipotéticos
Faixa Etária Funcionários (fi)
Fa
15 ⊢ 25 25 25
25 ⊢ 35 30 55
35 ⊢ 45 15 70
45 ⊢ 55 10 80
Total 80 ..
42
Separatrizes
2
80mdE
30
30
25401025
Md
50% dos funcionários do hospital XY têm 30 anos de idade ou menos e 50% deles têm 30 anos de idade ou mais.
43
Separatrizes
2.Quartis (Qi): dividem um conjunto de dados em quatro partes iguais. Assim:
Q1:1ºquartil, deixa 25% dos elementos antes do seu valor. Q2:2ºquartil, deixa 50% dos elementos antes do seu valor.
Coincide com a mediana. Q3:3ºquartil, deixa 75% dos elementos antes do seu valor.
Q1 Q2 Q3
0% 25% 50% 75% 100%
44
Separatrizes
Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte expressão:
, onde i= nº do quartil a ser calculado
n= nº de observações.
4
inE
iQ
45
Separatrizes Para dados agrupados em classes,
encontraremos os quartis de maneira semelhante à usada para o cálculo da mediana:
onde: l=limite inferior da classe que contém o quartil desejado. h=amplitude do intervalo de classe EQi=elemento quartílico
Fant=frequência acumulada absoluta da classe anterior à classe quartílica.
fi=frequência absoluta simples da classe quartílica.
i
antQii f
FEhlQ i
46
Separatrizes
3.Decis (Di): dividem um conjunto de dados em dez partes. Assim:
De maneira, para calcular os decis, recorremos à expressão que define a ordem em que o decil se encontra
Para dados agrupados em classes, encontraremos os decis de maneira semelhante à usada para cálculo da mediana e dos quartis.
D1 D2 D3 D4 D5 D6 D7 D8 D9
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
10
inE
iD
47
Separatrizes 4.Centis (Ci): são as medidas que dividem a
amostra em 100 partes iguais. Assim:
O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão:
onde i=nº identificador do centil n=nº total de observações
Para dados agrupados em classes, encontraremos os centis de maneira semelhante à utilizada para cálculo da mediana, dos quartis e dos decis.
C1 C2 C3 C50 C97 C98 C99
0% 1% 2% 3% 50% 97% 98% 99% 100%
100
inE
iC
48
Separatrizes Exemplo:Com base na tabela de distribuição de
frequências abaixo encontre: a) Primeiro quartil; b) Septuagésimo quinto centil; c) Nono decil
Tabela-Consumo médio de eletricidade (Kw/hora) entre usuários. Rio de janeiro, 1980.
Consumo (Kwh)
Nº de usuários (fi)
Fa
5 |-- 25 4 4 25 |-- 45 6 10 45 |-- 65 14 24 65 |-- 85 26 50
85 |-- 105 14 64 105 |-- 125 8 72 125 |-- 145 6 78 145 |-- 165 2 80
Total 80 .. Fonte: dados hipóteticos
49
Medidas de dispersão
As medidas de dispersão servem para avaliar o grau de variabilidade ou dispersão dos de um conjunto de dados.
Estas medidas nos permitem estabelecer comparações entre fenômenos da mesma natureza mostrando como os valores se distribuem acima ou abaixo da medida de tendência central.
50
Amplitude total
A amplitude total (AT) de um conjunto de números é a diferença entre os valores extremos do conjunto, ou seja, entre o maior valor e o menor valor.
minmax vvAt
51
Amplitude Total
Exemplo: A tabela a seguir fornece as informações sobre a produção diária de certa peça para cinco empregados em uma indústria:
Empregado Dia Média 1° 2° 3° 4° 5° diária
X 70 71 69 70 70 70 Y 75 72 68 70 65 70 Z 70 70 70 70 70 70 W 71 69 73 75 62 70 V 68 70 69 72 71 70
52
Amplitude Total
Calcular as amplitudes totais nos exemplos anteriores e identificar qual empregado apresenta a menor dispersão e qual apresenta a maior dispersão na produção diária.
Resolução: X: AT = 71 - 69 = 2 peças;Y: AT = 75 - 65 = 10 peças;Z: AT = 70 - 70 = 0 peças;W: AT = 75 - 62 = 13 peças;V: AT = 72 - 68 = 4 peças;
53
Desvio Padrão
Desvio padrão simples: Sejam ,
n valores que a variável X assume. O desvio padrão é definido como:
x x xn1 2, ,...,
1
1
2
n
XxS
n
ii
54
Desvio Padrão
Exemplo: Com os dados sobre a produção diária de três empregados, identifique, através do desvio padrão, qual deles apresenta menor variabilidade na produção diária.
Empregado Dia Média Amplitude 1° 2° 3° 4° 5° diária total
C 82 70 65 60 73 70 22 D 60 78 68 62 82 70 22 E 53 72 75 75 75 70 22
55
Desvio Padrão
Resolução: Para C, utilizando a definição, temos:
Para C: ; para D: ; para E: . Com os valores encontrados para o desvio padrão, podemos observar que o empregado C apresentou a menor dispersão na produção diária da peça.
34,85,69
15
70737060706570707082
1
222221
2
n
Xx
S
k
ii
34,8S 69,9S 59,9S
56
Desvio Padrão
Desvio padrão ponderado:O desvio ponderado é para dados agrupados em classes onde a freqüência absoluta simples é considerada como o fator ponderador.
1
1
2
i
n
iii
f
fXxS
57
Desvio Padrão
Ex: Considere as notas de 110 alunos da faculdade XY na disciplina de estatística e encontre o desvio padrão.
Notas dos alunos
Número de alunos fiac
0 |-- 2 2 |-- 4 4 |-- 6 6 |-- 8
8 |-- 10
27 16 34 17 16
27 43 77 94 110
TOTAL 110
58
Desvio Padrão
Notas Alunos if aF ix ii fx . Xx i 2
Xx i ii fXx .2
0 - 2 27 27 1 27 - 3,62 13,10 353,70
2 - 4 16 43 3 48 - 1,62 2,62 41,92
4 - 6 34 77 5 170 0,38 0,14 4,76
6 - 8 17 94 7 119 2,38 5,66 96,22
8 - 10 16 110 9 144 4,38 19,18 306,88
Total 110 . . . . 508 . . . . 803,48
59
Desvio Padrão
72,237,7
1110
48,803
1
.1
2
n
fXxS
n
iii
37,72 S
62,4110
508.
1
n
fxX
n
iii
60
Variância
Variância simples: Sejam , n valores que a variável X assume. A variância é definido como:
Obs: a variância é o desvio padrão ao quadrado.
1
1
2
2
n
XxS
n
ii
x x xn1 2, ,...,
61
Variância
Ex: Para o exemplo da produção diária de três empregados.
Para C : ; para D : ; para E: . Com os valores encontrados para o desvio
padrão, podemos observar que o empregado C apresentou a menor dispersão na produção diária da peça.
56,692 S 90,932 S
97,912 S
62
Variância
Variância ponderada:
1
.1
2
2
n
fXxS
n
iii
63
Coeficiente de Variação
Medida de dispersão relativa. Permite comparar a dispersão de conjuntos
de dados com médias e desvios padrões diferentes.
Indica se os dados estão mais ou menos concentrados em torno da média:
100% X
SCV
64
Coeficiente de Variação
Calcule os coeficientes de variação percentual da variável renda (em salários mínimos) nos dois grupos abaixo. Qual dos dois apresenta valores mais homogêneos?
Casados: média = 10,904; desvio padrão = 4,362 Solteiros: média = 6,2683; desvio padrão = 3,0258
%0037,40100904,10
362,4.% CasadosCV
%2715,481002683,6
0258,3.% SolteirosCV
65
Baixa dispersão: CV ≤ 15%
Média dispersão: 15% < CV < 30%
Alta dispersão: CV ≥ 30%