3. medidas de posição e dispersão (1)
-
Upload
thiago-apolinario -
Category
Documents
-
view
4.496 -
download
4
Transcript of 3. medidas de posição e dispersão (1)
Universidade Estadual da Paraíba
Disciplina: Biometria
Professora: Nyedja Fialho M. Barbosa
Assunto: Medidas de Posição e Dispersão
Medidas de variáveis utilizadas em Estatísticas:
Medidas de tendência Central ou Posição:
Buscam evidenciar o comportamento central de uma variável. Dentre as mais utilizadas
destacam-se:
Moda:
o Definição: moda é o valor mais frequente na amostra.
o Notação:
Observações:
Quando DOIS VALORES ocorrem com a mesma maior frequência,
cada um deles é uma moda, e o conjunto de dados é dito BIMODAL;
Quando MAIS DE DOIS VALORES ocorre com a mesma maior
frequência, cada um deles é uma moda, e o conjunto de dados é dito
MULTIMODAL;
Quando NENHUM VALOR se repete com maior frequência,
dizemos que não há moda, e o conjunto de dados é dito AMODAL.
Mediana:
o Definição: Mediana é o valor da variável que particiona a amostra ao meio. Isto é, o
valor que deixa abaixo de si 50% das observações.
o Notação: ou
x~
0 50% 100%
o Fórmulas:
Média aritmética:
o Definição: média o valor dado pela soma de todos os valores da amostra, dividida pelo
número desses valores.
o Notação: o Fórmulas:
,
11
11
1
21
21
1
21
21
N
i
iNN
n
i
in
n
xN
xxxNN
xxx
xn
xxxnn
xxxx
Onde:
: indica a adição de um conjunto de valores (somatório);
x : é a variável usada para representar os valores individuais dos dados;
n : número de valores na amostra;
N : número de valores na população;
x : média do conjunto de valores AMOSTRAIS;
: média de todos os valores existentes na POPULAÇÃO;
Propriedades da média:
o A média é altamente influenciada por valores extremos. Nem sempre poderá
ser utilizada como medida que resuma adequadamente um conjunto de dados,
visto que esta não carrega em si a noção de variabilidade.
Exemplo: Tabela 1: Número de salários de cinco funcionários das
empresas A, B, C e D, escolhidos ao acaso.
Empresas Funcionários
1º 2º 3º 4º 5º
A 5 5 5 5 5
B 3 4 5 6 7
C 1 3 5 7 9
D 1 1 1 1 21
Se analisarmos as médias dos salários pagos por cada uma das
empresas veremos que em média eles pagam 5 salários para seus funcionários,
mas se olharmos com mais cuidado, vemos que nos casos onde há maior
discrepância nos dados, a média não representa a distribuição dos mesmos. Por
outro lado, a mediana pode ser obtida através de um conjunto ordenado de
dados e não será influenciada por valores extremos.
o Ao somarmos ou subtrairmos uma constante a um conjunto de valores de uma
variável x, a média desse novo conjunto ficará somada ou subtraída deste
constante.
o Ao multiplicarmos ou dividirmos os valores de um conjunto de dados, a média
desse novo conjunto ficará multiplicada ou dividida por esta constante.
Separatrizes:
Outras medidas também são muito utilizadas para observar as características dos dados.
Estas medidas são chamadas de separatrizes, e dividem-se em:
o Quartis: Colocados os dados em ordem crescente, os quartis ( iQ ) são os valores que
dividem o conjunto de dados em quatro partes iguais, cada uma contendo 25% do
total. Assim,
1Q
xQ ~2 3Q
0 25% 50% 75% 100%
Onde, 1Q é o primeiro quartil, 2Q é o segundo quartil, e coincide com a mediana, 3Q é o
terceiro quartil, é o valor que atinge todos o conjunto de observações..
o Decis: Colocados os dados em ordem crescente, os decis ( iD ) são os valores que
dividem o conjunto de dados em dez partes iguais, cada uma contendo 10% do total.
Assim,
1D
... 3D
... xD ~
5 ... 8D ... 10D
0 10% ... 30% ... 50% ... 80% ... 100%
Onde, 1D é o primeiro decil, 2D é o segundo decil, (...), 10D : é o décimo decil.
o Percentis: Colocados os dados em ordem crescente, os percentis ( iP ) são os valores
que dividem o conjunto de dados em cem partes iguais, cada uma contendo 1% do
total. Assim,
1P 2P
...
xP ~50 ... 99P 100P
0 1% ... 50% ... 99% 100%
Onde, 1P : é o primeiro percentil, 2P : é o segundo percentil, (...), 100P : é o décimo
percentil;
Medidas de dispersão:
As medidas de dispersão visam descrever os dados no sentido de informar o grau de
dispersão ou afastamento dos valores observados em torno da média. Elas informam se um conjunto de
dados é homogêneo (pouca variabilidade) ou heterogêneo (muita variabilidade).
Na prática, existem vária medidas que expressam a variabilidade de um conjunto de
dados, sendo que as mais utilizadas baseiam-se na idéia que consiste em verificar a distância de cada
valor observado em relação á média. Estas distâncias são denominadas desvios em relação à média.
VARIÂNCIA
A variância representa a média dos quadrados das distâncias entre os valores originais e a média
aritmética. Sua unidade é, portanto, o quadrado da unidade da variável. Dessa forma, se a unidade da
variável for, por exemplo, metros (m), teremos como resultado algum valor em metros quadrados (m2).
Consideremos uma população finita, de tamanho N. Seja n o tamanho de uma amostra, retirada
desta população. Assim, temos
Conjunto de dados amostrais: nxxx ,...,, 21
Conjunto de dados populacionais: Nxxx ,...,, 21
Fórmulas básicas:
,
)(1)()()(
)(1
1
1
)()()(
1
2
22
2
2
12
1
2
22
2
2
12
N
i
i
N
n
i
i
n
xNN
xxx
xxnn
xxxxxxS
Onde:
: indica a adição de um conjunto de valores (somatório);
x : é a variável, em geral usada para representar os valores individuais dos dados;
x : é média amostral do conjunto de dados;
: é média populacional do conjunto de dados;
n : número de valores na amostra;
N : número de valores na população;
2S : variância do conjunto de valores AMOSTRAIS;
2 : variância de todos os valores existentes na POPULAÇÃO;
Vamos supor que as observações não são todas distintas, ou seja, há repetições de valores, de
forma que existam:
1n observações iguais a 1x
2n observações iguais a 2x
kn observações iguais a kx
Então, temos que
,)(1
1
1
)()()(
1
2
22
22
2
112
k
i
ii
kk xxnnn
xxnxxnxxnS
com nnnn k 21 .
Podemos observar que, ao calcularmos a variância amostral, dividimos a soma dos quadrados
dos desvios por )1( n , e não por n , como no cálculo de outras medidas comumente utilizadas. Isto
acontece porque o fator )1( n pode ser usado como um fator de correção, quando queremos considerar
a variância amostral como uma estimativa da variância populacional.
OBSERVAÇÃO: Para o cálculo da variância, quando os dados estão agrupados em classes,
basta substituir os verdadeiros valores observados pelo ponto médio da classe.
DESVIO PADRÃO
O Desvio Padrão é a raiz quadrada da variância. Denotado por S , o desvio padrão amostral é
dado por:
,)(1
1
1
)()()(
1
2
22
22
2
112
k
i
iikk xxn
nn
xxnxxnxxnSS
com nnnn k 21 .
O uso do desvio padrão como medida de variabilidade é preferível pelo fato de ser expresso na
mesma unidade de medida dos valores observados, já que a variância pode causar problemas de
interpretação por ser expressa em termos quadráticos.
Analogamente à variância, quanto maior for o valor do desvio padrão, maior a dispersão entre os
dados.
O COEFICIENTE DE VARIAÇÃO DE PEARSON
É uma medida de variabilidade que, em geral, é expressa em porcentagem, e tem por função
determinar o grau de concentração dos dados em torno da média. Por ser uma medida ADIMENSIONAL,
o coeficiente de variação é geralmente utilizado para fazer a comparação entre dois conjuntos de dados,
tendo eles mesma unidade de medida, OU NÃO. Os coeficientes de variação populacional e amostral são
dados, respectivamente, por:
%100
CV e %100
X
SCV .
Outra informação importante fornecida pelo coeficiente de variação de Pearson é se a média é ou
não uma medida representativa para o conjunto de dados. Em geral, temos que:
%50CV a média não é representativa;
%50CV a média é representativa;
0CV a média é significativamente representativa )0( S ;