3. medidas de posição e dispersão (1)

5
Universidade Estadual da Paraíba Disciplina: Biometria Professora: Nyedja Fialho M. Barbosa Assunto: Medidas de Posição e Dispersão Medidas de variáveis utilizadas em Estatísticas : Medidas de tendência Central ou Posição : Buscam evidenciar o comportamento central de uma variável. Dentre as mais utilizadas destacam-se: Moda: o Definição: moda é o valor mais frequente na amostra. o Notação: Observações: Quando DOIS VALORES ocorrem com a mesma maior frequência, cada um deles é uma moda, e o conjunto de dados é dito BIMODAL; Quando MAIS DE DOIS VALORES ocorre com a mesma maior frequência, cada um deles é uma moda, e o conjunto de dados é dito MULTIMODAL; Quando NENHUM VALOR se repete com maior frequência, dizemos que não há moda, e o conjunto de dados é dito AMODAL. Mediana: o Definição: Mediana é o valor da variável que particiona a amostra ao meio. Isto é, o valor que deixa abaixo de si 50% das observações. o Notação: ou x ~ 0 50% 100% o Fórmulas: Média aritmética: o Definição: média o valor dado pela soma de todos os valores da amostra, dividida pelo número desses valores.

Transcript of 3. medidas de posição e dispersão (1)

Page 1: 3. medidas de posição e dispersão (1)

Universidade Estadual da Paraíba

Disciplina: Biometria

Professora: Nyedja Fialho M. Barbosa

Assunto: Medidas de Posição e Dispersão

Medidas de variáveis utilizadas em Estatísticas:

Medidas de tendência Central ou Posição:

Buscam evidenciar o comportamento central de uma variável. Dentre as mais utilizadas

destacam-se:

Moda:

o Definição: moda é o valor mais frequente na amostra.

o Notação:

Observações:

Quando DOIS VALORES ocorrem com a mesma maior frequência,

cada um deles é uma moda, e o conjunto de dados é dito BIMODAL;

Quando MAIS DE DOIS VALORES ocorre com a mesma maior

frequência, cada um deles é uma moda, e o conjunto de dados é dito

MULTIMODAL;

Quando NENHUM VALOR se repete com maior frequência,

dizemos que não há moda, e o conjunto de dados é dito AMODAL.

Mediana:

o Definição: Mediana é o valor da variável que particiona a amostra ao meio. Isto é, o

valor que deixa abaixo de si 50% das observações.

o Notação: ou

x~

0 50% 100%

o Fórmulas:

Média aritmética:

o Definição: média o valor dado pela soma de todos os valores da amostra, dividida pelo

número desses valores.

Page 2: 3. medidas de posição e dispersão (1)

o Notação: o Fórmulas:

,

11

11

1

21

21

1

21

21

N

i

iNN

n

i

in

n

xN

xxxNN

xxx

xn

xxxnn

xxxx

Onde:

: indica a adição de um conjunto de valores (somatório);

x : é a variável usada para representar os valores individuais dos dados;

n : número de valores na amostra;

N : número de valores na população;

x : média do conjunto de valores AMOSTRAIS;

: média de todos os valores existentes na POPULAÇÃO;

Propriedades da média:

o A média é altamente influenciada por valores extremos. Nem sempre poderá

ser utilizada como medida que resuma adequadamente um conjunto de dados,

visto que esta não carrega em si a noção de variabilidade.

Exemplo: Tabela 1: Número de salários de cinco funcionários das

empresas A, B, C e D, escolhidos ao acaso.

Empresas Funcionários

1º 2º 3º 4º 5º

A 5 5 5 5 5

B 3 4 5 6 7

C 1 3 5 7 9

D 1 1 1 1 21

Se analisarmos as médias dos salários pagos por cada uma das

empresas veremos que em média eles pagam 5 salários para seus funcionários,

mas se olharmos com mais cuidado, vemos que nos casos onde há maior

discrepância nos dados, a média não representa a distribuição dos mesmos. Por

outro lado, a mediana pode ser obtida através de um conjunto ordenado de

dados e não será influenciada por valores extremos.

o Ao somarmos ou subtrairmos uma constante a um conjunto de valores de uma

variável x, a média desse novo conjunto ficará somada ou subtraída deste

constante.

o Ao multiplicarmos ou dividirmos os valores de um conjunto de dados, a média

desse novo conjunto ficará multiplicada ou dividida por esta constante.

Separatrizes:

Outras medidas também são muito utilizadas para observar as características dos dados.

Estas medidas são chamadas de separatrizes, e dividem-se em:

o Quartis: Colocados os dados em ordem crescente, os quartis ( iQ ) são os valores que

dividem o conjunto de dados em quatro partes iguais, cada uma contendo 25% do

total. Assim,

Page 3: 3. medidas de posição e dispersão (1)

1Q

xQ ~2 3Q

0 25% 50% 75% 100%

Onde, 1Q é o primeiro quartil, 2Q é o segundo quartil, e coincide com a mediana, 3Q é o

terceiro quartil, é o valor que atinge todos o conjunto de observações..

o Decis: Colocados os dados em ordem crescente, os decis ( iD ) são os valores que

dividem o conjunto de dados em dez partes iguais, cada uma contendo 10% do total.

Assim,

1D

... 3D

... xD ~

5 ... 8D ... 10D

0 10% ... 30% ... 50% ... 80% ... 100%

Onde, 1D é o primeiro decil, 2D é o segundo decil, (...), 10D : é o décimo decil.

o Percentis: Colocados os dados em ordem crescente, os percentis ( iP ) são os valores

que dividem o conjunto de dados em cem partes iguais, cada uma contendo 1% do

total. Assim,

1P 2P

...

xP ~50 ... 99P 100P

0 1% ... 50% ... 99% 100%

Onde, 1P : é o primeiro percentil, 2P : é o segundo percentil, (...), 100P : é o décimo

percentil;

Medidas de dispersão:

As medidas de dispersão visam descrever os dados no sentido de informar o grau de

dispersão ou afastamento dos valores observados em torno da média. Elas informam se um conjunto de

dados é homogêneo (pouca variabilidade) ou heterogêneo (muita variabilidade).

Na prática, existem vária medidas que expressam a variabilidade de um conjunto de

dados, sendo que as mais utilizadas baseiam-se na idéia que consiste em verificar a distância de cada

valor observado em relação á média. Estas distâncias são denominadas desvios em relação à média.

VARIÂNCIA

A variância representa a média dos quadrados das distâncias entre os valores originais e a média

aritmética. Sua unidade é, portanto, o quadrado da unidade da variável. Dessa forma, se a unidade da

variável for, por exemplo, metros (m), teremos como resultado algum valor em metros quadrados (m2).

Consideremos uma população finita, de tamanho N. Seja n o tamanho de uma amostra, retirada

desta população. Assim, temos

Conjunto de dados amostrais: nxxx ,...,, 21

Conjunto de dados populacionais: Nxxx ,...,, 21

Fórmulas básicas:

Page 4: 3. medidas de posição e dispersão (1)

,

)(1)()()(

)(1

1

1

)()()(

1

2

22

2

2

12

1

2

22

2

2

12

N

i

i

N

n

i

i

n

xNN

xxx

xxnn

xxxxxxS

Onde:

: indica a adição de um conjunto de valores (somatório);

x : é a variável, em geral usada para representar os valores individuais dos dados;

x : é média amostral do conjunto de dados;

: é média populacional do conjunto de dados;

n : número de valores na amostra;

N : número de valores na população;

2S : variância do conjunto de valores AMOSTRAIS;

2 : variância de todos os valores existentes na POPULAÇÃO;

Vamos supor que as observações não são todas distintas, ou seja, há repetições de valores, de

forma que existam:

1n observações iguais a 1x

2n observações iguais a 2x

kn observações iguais a kx

Então, temos que

,)(1

1

1

)()()(

1

2

22

22

2

112

k

i

ii

kk xxnnn

xxnxxnxxnS

com nnnn k 21 .

Podemos observar que, ao calcularmos a variância amostral, dividimos a soma dos quadrados

dos desvios por )1( n , e não por n , como no cálculo de outras medidas comumente utilizadas. Isto

acontece porque o fator )1( n pode ser usado como um fator de correção, quando queremos considerar

a variância amostral como uma estimativa da variância populacional.

OBSERVAÇÃO: Para o cálculo da variância, quando os dados estão agrupados em classes,

basta substituir os verdadeiros valores observados pelo ponto médio da classe.

DESVIO PADRÃO

O Desvio Padrão é a raiz quadrada da variância. Denotado por S , o desvio padrão amostral é

dado por:

,)(1

1

1

)()()(

1

2

22

22

2

112

k

i

iikk xxn

nn

xxnxxnxxnSS

Page 5: 3. medidas de posição e dispersão (1)

com nnnn k 21 .

O uso do desvio padrão como medida de variabilidade é preferível pelo fato de ser expresso na

mesma unidade de medida dos valores observados, já que a variância pode causar problemas de

interpretação por ser expressa em termos quadráticos.

Analogamente à variância, quanto maior for o valor do desvio padrão, maior a dispersão entre os

dados.

O COEFICIENTE DE VARIAÇÃO DE PEARSON

É uma medida de variabilidade que, em geral, é expressa em porcentagem, e tem por função

determinar o grau de concentração dos dados em torno da média. Por ser uma medida ADIMENSIONAL,

o coeficiente de variação é geralmente utilizado para fazer a comparação entre dois conjuntos de dados,

tendo eles mesma unidade de medida, OU NÃO. Os coeficientes de variação populacional e amostral são

dados, respectivamente, por:

%100

CV e %100

X

SCV .

Outra informação importante fornecida pelo coeficiente de variação de Pearson é se a média é ou

não uma medida representativa para o conjunto de dados. Em geral, temos que:

%50CV a média não é representativa;

%50CV a média é representativa;

0CV a média é significativamente representativa )0( S ;