APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras -...
-
Upload
lazaro-binda -
Category
Documents
-
view
632 -
download
25
Transcript of APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras -...
Estatística e Probabilidade
Prof. Robson Soares Ferreira
Introdução à Estatística.
Medidas de posição e medidas de dispersão.
Estatística - Introdução
É uma parte da matemática aplicada que fornece métodos para a coleta, organização,
descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de
decisões.
A coleta, organização e a descrição dos dados estão a cargo da Estatística descritiva, enquanto
que a análise e a interpretação ficam a cargo da Estatística Indutiva ou Inferencial.
Fases do método estatístico:
Coleta de dados;
Crítica dos dados;
Exposição ou apresentações dos dados;
Análise ou apresentação dos dados.
População – Ao conjunto de entes portadores de, pelo menos, uma característica comum
denominamos população estatística ou universo estatístico.
Amostra – Um subconjunto da população. Para as inferências serem corretas, é necessário
garantir que a amostra possua pelo menos uma característica básica da população.
Tabelas – É um resumo dos dados. Numa tabela devem ter:
Título – O quê?
Quando?
Onde?
Corpo - As informações sobre a variável em estudo
Fonte – Notas ou chamadas no rodapé (Quem?)
Gráficos – É uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir,
no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em
estudo. A apresentação do gráfico deve ser clara, simples e objetiva.
Levantamento estatístico
Fases do trabalho estatístico:
Definição do problema
Coleta de dados
Apuração dos dados
Apresentação dos dados (tabelas e gráficos)
Análise e informação.
Conclusão
2
Qualitativas
(qualidade)
Variáveis
Ordinais (tem que estar em ordem)
Nominais (tem que estar em nome)
1º, 2º, 3º patentes
Cor, Religião, Sexo
Discreta (enumeráveis – obtida por meio de contagem)
Quantitativas (quantidade) Contínua (é obtida por meio de medição. Variável mensurável)
Ex.: Altura de uma pessoa 1,72
Distribuição de frequência
Ex.: Dados a amostra de 60 medidas de uma dada região geográfica:
10 7 8 5 4 3 2 9
3 15 1 13 14 4 3 6
10 11 12 13 14 2 15 5
2 1 3 8 10 1 13 14
5 9 5 3 2 3 3 4
8 6 7 8 9 1 12 13
Fonte: hipotética
9
6
4
15
4
14
6
8
10
16
4
16
Dados brutos – São os dados colhidos e dispostos em colunas e linhas (dados desordenados).
Rol – organização numérica dos dados brutos (em ordem crescente ou decrescente).
Amplitude total – variação entre o maior e o menor valor observado. At = S – I
At = 16 – 1 = 15
Amplitude de classe (h)
De forma prática encontramos o valor da amplitude de classe aplicando as fórmulas
At At e
5 20
0,75 ≤ h ≤ 3
Exemplo: 15 / 5 = 3 e 15 / 20 = 0,75
h=3
Título
Classe
1 |— 4
4 |— 7
7 |— 10
10 |— 13
13 |—| 16
∑
fi
15
14
11
7
13
60
Font: hipotética
Elementos de uma distribuição de frequência
fi – frequência absoluta ou frequência simples absoluta.
3
Limites de classe (1 |— 4)
LI – limite inferior LS – limite superior
Ponto médio (xi) - xi LI LS h ou xi LI
2 2
Frequência relativa (ou probabilidade)
fr
fi
fi 100%
fac – Frequência acumulada crescente (menor do que ou abaixo de LS)
fad - Frequência acumulada decrescente (maior do que ou acima de LI)
Classe
1 |— 4
4 |— 7
7 |— 10
10 |— 13
13 |—| 16
∑
fi
15
14
11
7
13
60
xi fac fad fr
Exercício
Uma auditoria em uma grande empresa observou o valor de 50 notas fiscais emitidos durante
um mês. Preencha os dados que faltam na tabela.
Valor da nota Nº de notas xi fac fad
10 3 R$
7 12
12 17
17 22
22 27
27 32
32 37
37 42
Fonte:hip
2
5
13
10
9
6
5
Σ 50
4
Pede-se:
a) A frequência relativa da 3ª classe.
b) A classe de menor frequência.
c) O intervalo de maior frequência.
d) Os números de notas fiscais cujo valor é inferior a R$ 24.500,00.
e) A porcentagem de notas fiscais cujo valor está compreendido entre R$ 12.000 e R$
25.000,00
Medidas de posição
Média ( x )
Dados não agrupados
x x
n
Soma de todos os valores amostrais
Número de valores amostrais
Exemplo: Dada a amostra A = {2, 4, 5, 8, 2, 7}, calcule a média.
x 2 4 5 8 2 7 28
4,67 6 6
Exemplo prático:
Sabe-se que o chumbo tem alguns efeitos adversos à saúde. Abaixo estão listadas as medidas
das quantidades de chumbo (em microgramas por metro cúbico, ou µg/m3. As medidas
mostradas abaixo foram registradas no local do Edifício 5 do World Trade Center, em dias
diferentes, logo após a destruição causadas pelos ataques terroristas de 11 de setembro de
2011. Ache a média para essa amostra de medidas de níveis de chumbo no ar.
5,40 1,10 0,42 0,73 0,48 1,10
x x 5,40 1,10 0,42 0,73 0,48 1,10 9,23 1,538
n 6 6
O nível médio de chumbo é 1,538 µg/m3. Independente do valor da média, é também de se
notar que o conjunto de dados contém um valor (5,40) que está bem afastado dos demais
(outlier). Nesse caso, o nível de chumbo de 5,40 µg/m3 foi medido um dia após o
desmoronamento do World Trade Center, e havia níveis elevados de poeira e fumaça.
Também, alguma quantidade de chumbo poderia ser proveniente do grande número de
veículos que se dirigiam para o local. Esses fatores fornecem uma explicação razoável para um
tal valor extremo.
Dados agrupados
fixi x
fi =
477 7,95 60
5
Classe
1 |— 4
4 |— 7
7 |— 10
10 |— 13
13 |—| 16
∑
fi
15
14
11
7
13
xi
2,5
5,5
8,5
11,5
14,5
fixi
37,5
77
93,5
80,5
188,5
60 477,0
Mediana(Md)
Uma desvantagem da média é que ela é sensível a qualquer valor, de modo que um
valor excepcional pode afetar dramasticamente a média. A mediana supera grandemente essa
desvantagem. A mediana pode ser considerada como um "valor do meio", no sentido de que
cerca da metade dos valores no conjunto dos dados está abaixo da mediana e metade está
acima dela. A definição que se segue é mais precisa.
A mediana de um conjunto de dados é a medida de centro que é o valor do meio quando os
dados originais estão arranjados em ordem crescente (ou decrescente) de magnitude.
De forma simples podemos pensar que a mediana é o valor da abscissa que será 50% das
observações.
Dados não agrupados
Encontre a mediana para a amostra.
5,40 1,10 0,42 0,73 0,48 1,10
1º) Ordene os valores
0,42 0,48 0,73 1,10 1,10 5,40
Como o numero de valores é um número par (6), a mediana é encontrada pelo cálculo da
média dos dois valores do meio (0,73 e 1,10).
Md 0,73 1,10
0,915 2
Dados agrupados
15 14 11 7 13
Posição =
16
30
| --------- | ------ | ------ | ------ | ------ | n 60 30 2 2
1
30
4 7
↓
10 13
Md
6
10 7 Md 7
11 1 3 77
Md 7,27 11
N fac ant .h
2 Md LI
fi md
n / 2 – fac ant
Dados não agrupados
A = {2, 4, 5, 8, 2, 7}
2, 2, 4 | 5, 7, 8
xi n xi n
Md 2 2 1
2 4 5
Md 4,5 2
B = {2, 5, 3, 15, 8}
2, 3, 5, 8, 15 Md = 5
Obs.: Se os dados não estiverem ordenados é necessário que ordene os dados antes de
calcular a mediana.
Moda – É o valor que ocorre com maior frequência ou o valor da abscissa de ordenada máxima
(Mo).
Dados não agrupados
A = {2, 4, 5, 8, 2, 7}. Mo = 2
B={5, 1, 3, 2, 9} Amodal (moda não existe)
Dados agrupados
Mo Li 1
h 1 2
1 fi Mo fiant
2 fi Mo fi post
Tomando como exemplo a distribuição de frequência da página 6, calcule a moda.
7
Atividades para fixação
1) Para cada série, calcule a média, a mediana e a moda.
a) 2, 4, 6, 8
b) 2, 2, 8, 6, 6, 5, 4, 3, 2, 2, 3, 3, 6, 3, 5, 5, 4, 4, 4, 4
c) Títulos:
classes fi
20 25 6
25 30 10
30 35 18
35 40 9
40 45 7
Σ 50
2) Foram feitas oito medidas do diâmetro interno dos anéis de pistão forjados de um motor de
uma automóvel. Os dados (em mm) são: 74,001; 74,003; 74,015; 74,000; 74,005; 74,002;
74,005 e 74,004. Calcule a média e a mediana da amostra.
3) Como determinar o maior valor que um determinado número pode assumir, sabendo que
ele pertence a um grupo com cinco números inteiros distintos, estritamente positivos, cuja
média é 16?
4) Um fabricante de molas está interessado em implementar um sistema de controle da
qualidade para monitorar seu processo de produção. Como parte desse sistema de qualidade,
foi decidido registrar o número de molas fora de conformidade, em cada batelada de
produção, com um tamanho igual a 50. Durante 40 dias de produção, 40 bateladas de dados
foram coletadas sendo reportadas abaixo.
9 12 6 9 7 14 12 4 6 7
8 5 9 7 8 11 3 6 7 7
11 4 4 8 7 5 6 4 5 8
19 19 18 12 11 17 15 17 13 13
a) Construa uma tabela de distribuição de frequência, com as colunas fac, fad, fr.
b) Encontre a média, mediana e moda da amostra.
5) Observe a tabela abaixo que representa a distribuição da idade de 50 pessoas, organizada
por faixas de idade: a) Qual a porcentagem de pessoas possuem idade
Idade (anos) Nº de casos inferior a 35 anos?
1 10 l 20 b) Qual a idade média das pessoas?
14 20 l 30 c) Qual a idade que separa 40% do grupo de pessoas?
23 30 l 40
10 40 l 50
2 50 l 60
6) Seja a distribuição salarial apresentada abaixo:
Fábrica X. Número de operários, segundo classes de salários mensais 2010.
Salários Fi
8
3,0
3,2
3,4
3,6
3,8
4,0
3,2
3,4
3,6
3,8
4,0
4,2
10
18
12
9
8
3 Σ 60
Pede-se
a) uma distribuição de frequência relativa.
b) a classe do salário do 30º operário.
c) quantos operários recebem até R$ 3340,00 (exclusive)?
d) qual a porcentagem daqueles que recebem R$ 3400,00 ou mais?
e) o valor do salário que separa:
1. 50% dos operários.
2. 25% dos operários.
3. 10% dos operários.
f) o valor da média, mediana e da moda.
7) Na série (15, 20, 30, 40, 50) há, abaixo da mediana,
a) 2 valores b) 3 valores c) 3,5 valores d) 4 valores.
8) Complete as informações ausentes na tabela seguinte.
Xi Fi Fr Fac
12 5
16 13
17 32
34 8
45 47
56 3
Soma (∑) 50 100
Fad
9) A tabela abaixo apresenta uma distribuição de frequência das áreas de 400 lotes.
Área (m2) Nº de lotes Com referência a esta tabela, determine: 14 300 l 400 a) a amplitude total; 46 400 l 500 b) o limite superior da 5ª classe; 58 500 l 600 c) o limite inferior da 8ª classe; 76 600 l 700 d) o ponto médio da 7ª classe; 68 700 l 800 e) a amplitude do intervalo da 2ª classe; 62 800 l 900 f) a frequência relativa da 6ª classe; 48 900 l 1000 g) a frequência da 4ª classe; 22 1000 l 1100 h) a frequência acumulada da 5ª classe; 6 1100 l 1200 i) o nº de lotes cuja área não atinge 700 m2;
j) o nº de lotes cuja área atinge e ultrapassa 800 m2;
k) a percentagem dos lotes cuja área não atinge 600 m2;
l) a percentagem dos lotes cuja área seja maior ou igual a 900 m2;
m) a classe do 72º lote;
n) até que classe estão incluídos 60% dos lotes.
9
Medidas de dispersão
Amplitude total: É a única medida de dispersão que não tem na média o ponto de referência.
Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e
o menor valor observado:
AT = Máximo - Mínimo.
Ex: Para os valores 40, 45, 48, 62 e 70 a amplitude total será: AT = 70 - 40 = 30
Com intervalos de classe a amplitude total é a diferença entre o limite superior da última
classe e o limite inferior da primeira classe. Então:
AT = LS máximo - LI mínimo
Ex:
Classes
4 |------------- 6
6 |------------- 8
8 |------------- 10
6
2
3
fi
AT = 10 - 4 = 6
A amplitude total tem o inconveniente de só levar em conta os dois valores extremos
da série, descuidando do conjunto de valores intermediários. Faz-se uso da amplitude
total quando se quer determinar a amplitude da temperatura em um dia, no controle
de qualidade ou como uma medida de cálculo rápido sem muita exatidão.
- Desvio padrão
O desvio padrão de um conjunto de valores amostrais é uma medida da variação dos valores
em torno da média. É uma espécie de desvio médio dos valores em relação à média.
Desvio médio: é a média aritmética dos módulos dos desvios, tomados em relação à média.
DM
i
N
N xi x
N dados não agrupados.
DM
fi x i 1
i x
dados agrupados. N
10
Desvio padrão para dados não agrupados
S | x
i x |2
n 1
i
amostral
| x x |2
n população
Desvio padrão para dados agrupados
S f
i | xi x | 2
n 1
| xi x | 2
n
amostral
populacion al f
i
Propriedades
1) Se somarmos ou subtrairmos cada elemento de um conjunto por um número qualquer,
a média será alterada por este valor e o desvio padrão inalterado.
2) Se multiplicarmos ou dividirmos cada elemento da série por um número qualquer, a
média e o desvio padrão serão alterados por este valor.
- Variância ou Variança (S2 ou 2 )
A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é
extremamente importante na inferência estatística e em combinações de amostras. É a razão
entre o somatório dos quadrados dos desvios, tomados em relação a média, e o número deles.
S 2 ( xi x)
n
2
(dados não agrupados) ou S 2 ( xi x)
n
2 fi (dados agrupados)
Obs.: Se amostra n < 30 usa-se no denominador “n – 1”
Coeficiente de variação (dispersão relativa) ou coeficiente de Pearson
CV
CV
S 100% x
x 100%
CV > 30% - dispersos
CV < 30% - homogêneos
Desvio quartílico
Q Q3 Q1
2
11
Quartil
25% 25% 25% 25%
nM fac ant h
4 Qn LI
fiQn
Desvio percentílico
posição = nN
4
P90 P 10
Percentil
nN fac ant h
100 Pn LI
fi Dn
Exemplo:
posição = nN
100
Para a distribuição de dados agrupados pede-se:
a) A porcentagem de barras que pertencem ao intervalo x S
b) A variância
c) O coeficiente de variação
Limites (kg)
29 |— 36
36 |— 43
43 |— 50
50 |— 57
57 |— 64
64 |— 71
∑
fi
6
9
12
33
17
3
80
Xi fixi fi | xi - x |2
Exercícios
1) Calcule para a série:
Salário dos Vendedores
Classe Fi Xi
12
400 |— 500
500 |— 600
600 |— 700
700 |— 800
800 |— 900
5
10
15
10
6
450
550
650
750
850
a) A média e o desvio padrão dos salários. b) O coeficiente de variação. Classifique os dados em dispersos ou homogêneos.
2) Determinar o desvio padrão da amostra
3) Numa empresa, o salário médio dos homens é de R$ 4000,00 com desvio padrão de R$ 1500,00 e o das mulheres é em média de R$ 3000,00, com desvio padrão de R$ 1200,00. “Com essas informações, conclui-se que o salário das mulheres apresentam menor dispersão relativa. É verdadeira essa informação? Justifique.
4) Um pesquisador interessado na eficiência de grupos de dieta pesou 5 clientes após várias
semanas no programa. Os valores da perda de peso ( em libras) foram: 13 12 6 9 10. Pede-
se calcular amplitude total, o desvio médio, a variância e o desvio padrão para esses dados..
5) Para as séries apresentadas a seguir, responda, com base na medida de dispersão mais conveniente. Série A: Série B: Série C:
a) A série mais homogênea? b) A série mais dispersa?
6) Para uma série que apresenta coeficiente de variação e variância, respectivamente 25% e 4 unidades, qual será a média?
7) Calcule a variância, o desvio padrão, e o coeficiente de variação para a distribuição de valores de 54 notas fiscais emitidas na mesma data, selecionadas em uma loja de departamentos.
Consumo por 0 50 nota R$
N° de notas 10
50 100
28
150
12
200
2
250
1
250 300
1
9) Em Recife a temperatura média do ano é de TREC 27 C
T Rio de Janeiro a temperatura média do ano é de RIO Qual cidade apresenta a temperatura mais homogênea?
24 C
e o desvio padrão é 8 C . No
6 C . e o desvio padrão é
13
Assimetria e Curtose
Assimetria - Mede o quanto a série está enviesada em torno da média.
Simétrica
x Md Mo
Assimétrica positiva
Mo Md x
Assimétrica negativa
x Md Mo
Índice de assimetria ou grau de assimetria
3( x Md )
S
x Mo IA
S
IA
Curtose – Mede o grau de achatamento da curva
K Q3 Q1
2( P90 P10 )
Se K = 0,263 temos uma curva normal chamada mesocúrtica
Se K < 0,263 a curva apresenta mais fechada que a normal – leptocúrtica
Se K > 0,263 a curva é mais achatada – platicúrtica
14
Exemplo:
1) Considere os seguintes resultados de 3 distribuições de freqüência:
Distribuição
A
B
C
x
12
12,9
11,1
Md
12
13,5
10,5
Mo
12
16
8
Q1
814
63,7
28,8
Q3
935
80,3
45,6
P10
772
55
20,5
P90
1012
86,6
49,8
S
4,42
4,2
4,2
Determine:
a) O tipo de assimetria de cada uma delas
x a Md a Mo =>simétrica
x b Md Mo => assimétrica negativa
Mo Md x c => assimétrica positiva
b) O índice de assimetria de cada uma
3(12 12) 0
4,42
3(12,9 13,5) IAB 0,43
4,20
3(11,1 10,5) IAC 0,43
4,20
IAA
c) Os respectivos graus de curtose e classifique-os
935 814 0,252 leptocúrti ca
2(1012 772)
80,3 63,7 KB 0,263 mesocúrtica
2(86,6 55)
45,6 28,8 KC 0,287 platicúrti ca
2(49,8 20,5)
KA
Exercício
1) Considerando a distribuição de freqüência relativa aos pesos de 100 operários de uma
fábrica. (Dados: Q1 = 66, Q3 = 82,5, P10 = 58 e P90 = 90)
Pesos (Kg)
50 |— 58
58 |— 66
66 |— 74
74 |— 82
82 |— 90
90 |— 98
fi
10
15
25
24
16
10
100
Xi Determine: a) O grau de assimetria b) O grau de curtose
15
2) Dada distribuição, pede-se:
Estaturas (cm)
150 |— 154
154 |— 158
158 |— 162
162 |— 166
166 |— 170
170 |— 174
∑
fi
4
9
11
8
5
2
39
a) a percentagem de alunos no intervalo x S .
b) o desvio quartílico. c) o desvio percentílico. d) o índice de assimetria (usando a moda). e) o grau de curtose. f) Classificação da distribuição.
Bibliografia:
LARSON, Ron; FARBER, Betsy, Estatística aplicada. São Paulo: Pearson Prentice Hall, 2010. 4 ed.
TRIOLA, Mario F. Introdução à Estatística. Rio de Janeiro: LTC, 2008.
MONTGOMERY, Douglas C. Estatística aplicada e probabilidade para engenheiros. Rio de
Janeiro: LTC, 2003.
FONSECA, J. Siman; MARTINS, G. Andrade Curso de Estatística. São Paulo: Atlas.
16