Unidade_03_Medidas_Descritivas_2011.1Sem

69
UNIDADE 03 Medidas Estatísticas

Transcript of Unidade_03_Medidas_Descritivas_2011.1Sem

Page 1: Unidade_03_Medidas_Descritivas_2011.1Sem

UNIDADE 03

Medidas Estatísticas

Page 2: Unidade_03_Medidas_Descritivas_2011.1Sem

1 − Introdução ........................................................................................................................... 3 2 − Medida de Posição Central................................................................................................. 6

2.1 − Medida de posição central para dados brutos ............................................................ 6 2.2 − Medidas de posição central para dados agrupados em tabelas de freqüência........ 14

2.2.1 − Dados agrupados em tabelas de freqüência sem classe .................................. 14 2.2.2 − Dados agrupados em tabelas de freqüência com classe .................................. 17

2.3 - Exercícios propostos .................................................................................................. 21

3 − Medidas de Variabilidade.................................................................................................. 25

3.1 − Introdução.................................................................................................................. 25 3.2 − Medida de variabilidade para dados brutos .............................................................. 26 3.3 − Medidas de variabilidade para dados agrupados em tabelas de freqüência ............ 34

3.3.1 − Dados agrupados em tabelas de freqüência sem classe .................................. 34 3.2.2 − Dados agrupados em tabelas de freqüência com classe .................................. 35

3.4 − Algumas aplicações do desvio-padrão...................................................................... 36 3.5 - Exercícios propostos .................................................................................................. 38

4 − Medida Separatrizes, de Assimetria e de Curtose ........................................................... 41

4.1 − Introdução.................................................................................................................. 41 4.2 − Medidas separatrizes para dados brutos .................................................................. 41

4.3 − Medidas Separatrizes para dados agrupados em tabelas de freqüência ................. 46

4.3.1 − Dados agrupados em tabelas de freqüência sem classe .................................. 46 4.3.2 − Dados agrupados em tabelas de freqüência com classe .................................. 48

4.4 – Cálculo do percentil usando gráfico de freqüência acumulada (Ogiva de Galton) ... 49 4.5 – Construção do Boxplot (gráfico de caixa) ................................................................. 50 4.6 − Medida de Assimetria ................................................................................................ 53 4.7 − Medida de Curtose .................................................................................................... 56 4.8 - Exercícios propostos .................................................................................................. 58 4.9 - Exercícios resolvidos.................................................................................................. 59

5 - Anexo................................................................................................................................. 67 6 - Bibliografia ......................................................................................................................... 69

Page 3: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 3 − prof. José Aguinaldo

1 −−−− Introdução

Na unidade anterior, o nosso esforço foi tentar organizar e resumir os dados coletados de forma a facilitar o trabalho de quem está analisando os dados. Com a ajuda das tabelas de freqüência e dos gráficos, vistos anteriormente, podemos ver como é a distribuição dos valores assumidos por uma variável, ou seja, podemos ver quais os valores que ocorrem com mais freqüência e quais os valores que ocorrem com menos freqüência. O Gráfico 3.1 mostra a distribuição do PIB per capita1 dos municípios brasileiros. Neste gráfico podemos observar que a maioria dos municípios brasileiros apresenta PIB per capita abaixo de 45 mil reais. É ainda possível observar uma pequena minoria de municípios com PIB per capita acima de 90 mil reais. GRÁFICO 3.1 – Distribuição do PIB per capita dos municípios brasileiros em 2004.

Pelo Gráfico 3.1, podemos notar que há outras características da distribuição que devem ser consideradas em uma análise estatística. Uma das características que devemos destacar é o valor típico da distribuição e uma outra é a dispersão dos valores em torno desse valor típico. O valor típico e a dispersão dos valores quando expressos em números torna-se mais fácil fazer comparações entre as diversas distribuições. Por exemplo, podemos comparar as distribuições do PIB per capita dos municípios ano a ano ou mesmo entre estados.

1 O Produto Interno Bruto per capita de cada município foi estimado pelo quociente entre o valor do PIB do município por sua população residente.

315270225180135904510

2500

2000

1500

1000

500

0

PIB per capita (em mil reais)

Quantidade de municípios

zoom

31527022518013590

10

0

Page 4: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 4 − prof. José Aguinaldo

EXEMPLO 01 - Uma pequena empresa trabalha com apenas quatro máquinas de encher pacotes de café de 500 gramas. Os pesos de 40 pacotes selecionados de cada máquina estão mostrados no gráfico de pontos abaixo2. Descreva os quatros gráficos de pontos.

Solução ------------------------------------------- -----------------------------------------------------------------------

Os pacotes de café enchidos pela máquina “A” apresentam um peso típico em torno de 490 gramas (10 gramas a menos do especificado), enquanto que, na máquina B, os pacotes apresentam um peso típico em torno de 510 gramas (10 gramas a mais). Quanto à dispersão (ou variabilidade) dos pesos, parece que eles estão igualmente dispersos em torno dos valores típicos. Podemos ainda destacar a presença de um pacote com peso considerado extremo3 na máquina “A” (peso de 480 gramas).

Na máquina “C”, os pesos dos pacotes giram em torno de 500 gramas (igual ao especificado), mas a dispersão dos pesos é muito grande, indicando alguma instabilidade na máquina (os pesos estão variando de 481 gramas a 520 gramas).

Na máquina “D”, encontramos uma situação que podemos dizer ideal, os pesos giram em torno do valor especificado (de 500 gramas) e com uma pequena dispersão dos pesos. As medidas que ajudam a descrever uma distribuição são:

• Medidas de posição central;

• Medidas de variabilidade (ou dispersão);

• Medidas separatrizes (posição não-central)

• Medidas de assimetria e de curtose.

2 No gráfico de ponto, cada ponto representa o peso de um pacote de café. 3 Em estatística, costumamos chamar esse valor extremo de outlier.

525520515510505500495490485480

Máquina A

Máquina B

Máquina C

Máquina D

Peso dos pacotes (em gramas)

Esse pacote pesou 480 gramas

média

média

média

média

Page 5: Unidade_03_Medidas_Descritivas_2011.1Sem

Medidas de Posição Central

Page 6: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 6 − prof. José Aguinaldo

2 −−−− Medida de Posição Central

É a medida estatística que “melhor” representa um conjunto de dados, ela tende a ser o valor mais típico ou o mais representativo do conjunto de dados. As medidas de posição central usuais são: média simples, média ponderada, mediana e a moda.

2.1 −−−− Medida de posição central para dados brutos

As medidas abaixo se referem aos dados brutos, ou seja, dados não agrupados em tabelas de freqüência. •••• Média

A média de um conjunto de valores é o somatório destes valores dividido pela quantidade de números no conjunto. Note que a média é simplesmente a média aritmética simples dos valores.

Quando trabalhamos com os dados de uma amostra, a média é denominada de média amostral e é denotada pelo símbolo x (leia-se x barra).

n

xxx

n

x

x n21

n

1ii

+++==

∑= L

onde xi = i-ésimo valor da variável n = tamanho da amostra (quantidade de valores na amostra) EXEMPLO 02 - A empresa XYZ selecionou uma amostra de 5 funcionários e registrou a distância (em km) que esses funcionários percorrem até chegar à empresa. Os valores obtidos foram 12, 4, 12, 9 e 3. Calcule média amostral dos valores (ou seja, a distância média percorrida por esses funcionários amostrados).

Solução ------------------------------------------- -----------------------------------------------------------------------

0,85

40

5

3912412

n

x

x

n

1ii

==++++==∑

= km

A distância média percorrida até a empresa pelos funcionários amostrados é de 8,0 km.

1211109876543Distância percorrida

média

Page 7: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 7 − prof. José Aguinaldo

Caso particular: Média Populacional

Por outro lado, quando trabalhamos com os dados de uma população (o que não é tão comum assim na prática), a média passa a ser denominada de média populacional e é denotada pela letra grega µµµµ (leia-se mi). Na realidade, o cálculo é igual ao da média amostral.

N

xxx

N

x

µN21

N

1ii

+++==

∑= L

onde xi = i-ésimo valor da variável X N = tamanho da população (quantidade de valores na população)

EXEMPLO 03 - Imagine uma pequena região fictícia com apenas 8 famílias. Abaixo estão listados as renda (em reais) destas famílias.

450 560 550 300 620 400 500 580 Assumindo que esta região é a sua população de interesse, calcule a renda média populacional destas famílias.

Solução ------------------------------------------- -----------------------------------------------------------------------

4958

3960

8

580560450

N

x

µ

N

1ii

==+++==∑

= L reais

A renda média populacional é 495 reais por família •••• Mediana

A mediana de um conjunto de dados é o valor que está exatamente no centro deste conjunto de valores ordenados . A mediana, portanto, “deixa” metade dos valores abaixo dela e a outra metade acima. A mediana pode ser denotada por Md ou x~ (leia-se x til). Dependendo se n é ímpar ou par, a mediana poderá ter um único valor central ou a média dos dois valores centrais .

Se n é ímpar A mediana será o único valor central.

Se n é par A mediana será a média dos dois valores

centrais.

x = {8, 10, 15} → 10Md = x = {8, 10, 15, 30} → 5,122

1510Md =+=

Page 8: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 8 − prof. José Aguinaldo

EXEMPLO 04 - A empresa XYZ selecionou uma amostra de 5 funcionários e registrou a distância (em km) que esses funcionários percorrem até chegar à empresa. Os valores obtidos foram 12, 4, 12, 9 e 3. Calcule mediana dos valores (ou seja, a distância mediana percorrida pelos funcionários).

Solução ------------------------------------------- ----------------------------------------------------------------------- Dados ordenados: 3 4 9 12 12 Como n é ímpar, o conjunto ordenado só tem um único valor central, que é o 9. Portanto, a mediana amostral será o Md = 9 km. Veja o gráfico e pontos abaixo. Podemos formalizar um procedimento para obter a mediana da seguinte maneira:

•••• Ordene o conjunto de dados em ordem crescente e calcule 2n=pos que é a posição da

mediana no conjunto ordenado;

•••• Se pos não for inteiro, arredonde pos para cima (maior inteiro mais próximo) e a mediana será o valor central que está na posição pos .

•••• Se pos for inteiro, então a mediana será a média entre os valores centrais que estão na posição pos e pos +1.

No EXEMPLO anterior, a posição da mediana é pos = 5/2 = 2,5. Como esse valor não é inteiro, deverá ser arredondado para cima (pos = 3). Portanto, a mediana está na 3ª posição (na série ordenada), que é Md = 9 km. Comparação entre a média e a mediana

Por usar todos os valores do conjunto de dados, a média acaba sendo bastante influenciada pelos valores atípicos ou extremos4, enquanto que a mediana é menos sensível a estes valores. EXEMPLO 05 - Suponha que no EXEMPLO 02, a distância de 12 km foi registrada erradamente como 120 km. Calcule a média e a mediana da distância percorrida pelos funcionários.

Solução ------------------------------------------- ----------------------------------------------------------------------- Média amostral

0,285

140

5

391204121 ==++++==∑

=

n

x

x

n

ii

km

O valor alto de 120 km fez com a média pulasse de 8 km para 28 km. O cálculo matemático da média está correto, mas uma média de 28 km não está representando bem as distâncias percorridas pelos funcionários. Com a exceção de um, todos os valores são menores do que 28 km.

4 Denominados de outliers em estatística.

1211109876543Distância percorrida

mediana Cerca da metade (50%) dos funcionários percorrem menos de 9 km para ir até a empresa.

Page 9: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 9 − prof. José Aguinaldo

Mediana amostral Dados ordenados: 3 4 9 12 120 A mediana está na posição pos = 5/2 = 2,5 ≈ 3 (3ª posição), portanto Md = 9. Mesmo com o valor alto de 120 km, a mediana permaneceu em 9 km. Dizemos, então, que a mediana foi pouco influenciada pelo valor atípico. •••• Moda

A moda, denotada por Mo, é o valor que ocorre com mais freqüência no conjunto de dados. Em uma empresa, por exemplo, o salário modal dos empregados seria o salário mais comum, isto é, o salário recebido pelo maior número de empregados. No EXEMPLO 02, só temos uma moda (Mo = 12 km), mas algumas vezes podemos ter conjuntos de dados com mais de uma moda: 3, 4, 4, 4, 9, 10, 12, 12, 12 → Mo = 4 e 12 (bimodal) 3, 4, 4, 4, 9, 10, 10, 10, 12, 12, 12 → Mo = 4, 10 e 12 (trimodal) ou mesmo não ter moda 3, 4, 9, 10, 12 → amodal (não tem moda)

•••• Média aparada de k%

É a média simples dos dados que permanecem, quando k% das observações ordenadas são

removidas (aparadas) de cada extremidade. A média aparada, denotada por apx , é uma

medida de posição central que procura ser menos sensível aos valores atípicos (tal como era a mediana). O procedimento formal para obter a média aparada de k% é:

•••• Ordene o conjunto de dados em ordem crescente;

•••• Calcule T = k ⋅⋅⋅⋅n/100, quantidade de valores a serem retirados de cada extremidade;

•••• Arredonde o valor de T para um número inteiro;

•••• Retire os T menores valores e também os T maiores valores;

•••• Calcule a média aritmética simples dos valores que permaneceram

EXEMPLO 06 - Os dados abaixo são as idades de vinte alunos de uma sala de aula.

8, 75, 21, 19, 18, 21, 19, 20, 21, 19, 19, 20, 22, 21, 21, 20, 19, 19, 21, 19 Vamos considerar que de fato há um aluno com 75 anos e que o valor 8 foi erro de digitação. Calcule a média aparada de 10%.

Solução ------------------------------------------- ----------------------------------------------------------------------- Dados ordenados:

8, 18, 19, 19, 19, 19, 19, 19, 19, 20, 20, 20, 21, 21, 21, 21, 21, 21, 22, 75

Como queremos média aparada de 10%, a quantidade de valores que devem ser retiradas de cada extremidade é

T = 10⋅20/100 = 2 valores (= 10% de 20)

Page 10: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 10 − prof. José Aguinaldo

Os valores retirados são: 8, 18, 22 e 75.

A média aparada é 9,1916

319

16

211919 ==+++= L

apx anos

•••• Média ponderada

É a média das observações x1, x2, ..., xn levando em consideração seus respectivos pesos w1, w2, ..., wn. A média ponderada, denotado por px , é dada por:

n21

nn2211n

1ii

n

1iii

p w w w

xwxwxw

w

xw

x+++

+++==

=

=

L

L

EXEMPLO 07 - Um professor aplicou quatro avaliações com os seguintes pesos 1, 2, 4 e 8. Um aluno tirou as seguintes notas nessas avaliações 20, 25, 28 e 10. Qual a média das notas ponderadas pelos pesos das provas?

Solução ------------------------------------------- --------------------------------------------------

Nota (xi) 20 25 28 10 Peso (wi) 1 2 4 8

Média ponderada: 8421

108284252201

w

xw

xn

1ii

n

1iii

p +++⋅+⋅+⋅+⋅==

=

= = 17,47 pontos

Sem levar em consideração os pesos de cada prova, a nota média seria igual a 20,75 pontos, maior que os 17,47 pontos obtidos pela ponderação. O motivo dessa queda é que o aluno tirou uma nota muito baixa em uma prova com maior peso.

Uma maneira mais prática de calcular a média ponderada é trabalhar com os dados dispostos em uma tabela.

(1) x i

(2) wi

(3) wi⋅xi

20 1 20 25 2 50 28 4 112 10 8 80

- ∑∑∑∑wi = 15 ∑∑∑∑wi⋅xi = 262

Observação:

Se os pesos (wi) forem todos iguais, então a média ponderada será igual a média aritmética simples. Por exemplo, se wi = k, então:

( )x

n

x

n

xxx

kn

xxxk

k k k

kxkxkxx

n

1ii

n21n21n21p ==

+++=

⋅+++

=++++++

=∑

=LL

L

L

15

262

w

w

1i

1i

===

=

=n

i

n

ii

p

x

x = 17,47 pts

Page 11: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 11 − prof. José Aguinaldo

•••• Média geométrica

A média geométrica dos n valores (positivos) x1, x2, ..., xn é a raiz n-ésima do produtos destes n

valores. A média geométrica, denotada por gx , é calculada algebricamente por:

nn21g xxxx ⋅⋅⋅= L

Por exemplo, a média geométrica dos valores 8, 5, 3, 6 é

4g 6358x ⋅⋅⋅= = 18,57204 =

Aplicação:

A média geométrica mede a taxa média de variação de uma variável ao longo do tempo, por exemplo, um crescimento médio de juros compostos com taxas variáveis ao longo de um período ou uma taxa média de retorno de um investimento ao longo do tempo.

EXEMPLO 08 - O faturamento de uma empresa cresceu 30% em 2005, 26% em 2006, 48% em 2007 e 15% em 2008. Em média, cresceu quanto por ano? Use a média geométrica para obter esta taxa média de crescimento do faturamento.

Solução ------------------------------------------- ----------------------------------------------------------------------- Se houve crescimento de 30%, 26%, 48% e 15% nos faturamentos, então os faturamentos de cada ano foram multiplicados por 1,30, 1,26, 1,48 e 1,15, respectivamente. Vamos calcular, então, a média geométrica dos valores 1,30, 1,26, 1,48 e 1,15.

=⋅⋅⋅= 4g 15,148,126,130,1x 2922,178788,24 =

A média geométrica da taxa de crescimento do faturamento no período estudado (2005 – 2008) é de 29,22%.

A tabela a seguir mostra a evolução dos faturamentos ao longo do período para o exemplo anterior, partindo de um faturamento de R$ 100 antes de 2005,

Evolução dos faturamentos partindo de um valor inicial de R$ 100

Ano Taxa Faturamento 100 reais

2005 30% 100 * 1,30 = 130,0 2006 26% 130,0 * 1,26 = 163,8 2007 48% 163,8 * 1,48 = 242,4 2008 15% 242,4 * 1,15 = 278,8

Se usássemos a média geométrica obtida (29,22%) para cada ano teríamos o mesmo faturamento em 2008

=== 42008 )2922,1(*100)2922,1(*)2922,1(*)2922,1(*)2922,1(*100F 278,8 reais

Page 12: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 12 − prof. José Aguinaldo

Note que chegamos aos mesmos 278,8 em 2008 na tabela anterior. Esta é a finalidade das médias - obter o mesmo efeito produzido pelos valores individuais. Caso usássemos a média aritmética simples das taxas, a taxa média seria de 29,75% (ligeiramente maior que a média geométrica).

%75,294

15482630x =+++=

Estes 29,75% produziriam um faturamento de R$ 283,4 em 2008, diferente dos R$ 278,8 esperados.

4,283)2975,1(*100 42008 ==F

•••• Média harmônica

A média harmônica equivale ao inverso da média aritmética dos inversos de n valores. Se temos n valores x1, x2, ..., xn, a média harmônica, denotada por hx , é calculada algebricamente por:

∑=

=+++

=n

i in xxxx

n

121

h1

1111

xL

Por exemplo, a média harmônica dos valores 8, 5, 3, 6 é

848,48250,0

4

6

1

3

1

5

1

8

14

x h ==+++

=

Aplicação 5:

Problemas envolvendo média de velocidades, vazões, taxas e freqüências são, em geral, resolvidos com a média harmônica. Por exemplo, ao percorrer um mesmo trajeto a 60 km/h na ida e a 40 km/h na volta, sua velocidade média no percurso não será a média aritmética entre as velocidades (50 km/h), mas sim a média harmônica, que é igual a 48 km/h.

Algumas observações a) Comparação entre as médias aritmética, geométric a e harmônica.

É importante destacar que em todas as médias o resultado sempre estará entre o maior e o menor número dado no conjunto e que para ara os mesmos valores, a média aritmética terá o maior valor, seguida da média geométrica e depois a média harmônica. Resumidamente, se xmin e xmax é, respectivamente, o menor e maior valor do conjunto de dados, então temos que:

maxghmi xxxxx ≤≤≤≤

b) Propriedades da média aritmética simples

Suponha que os dados do conjunto x = {x1, x2,..., xn} têm uma média x :

(1) Somando-se (ou subtraindo-se) uma constante a de todos os valores de uma variável, a média do conjunto fica aumentada (ou diminuída) dessa constante.

Se axy ii ±= ⇒⇒⇒⇒ axy ±=

5 José Luiz Pastore Mello, mestre em ensino de matemática pela USP e professor do Colégio Santa Cruz em especial para folha de São Paulo.

Page 13: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 13 − prof. José Aguinaldo

(2) Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante b, a média do conjunto fica multiplicada (ou dividida) dessa constante.

Se ii bxy = ⇒⇒⇒⇒ xby =

(3) Combinando as propriedades (1) e (2), temos:

Se abxy ii ±= ⇒⇒⇒⇒ axby ±=

(4) A soma dos desvios de cada valor xi em torno da média é sempre zero, ou seja,

0=∑=

n

1iid , onde xxd ii −= .

EXEMPLO 09 - Considere o conjunto X = {1, 2, 3, 3, 4, 5}, cuja média é x = 3.

a) Qual a soma dos desvios de cada valor xi em relação à média x ? b) Se cada valor xi for somado o valor 6, qual será a média dos ‘novos’ valores? c) Se cada valor xi for multiplicado pelo valor 4, qual será a média dos ‘novos’ valores?

Solução ------------------------------------------- ----------------------------------------------------------------------- Vamos aplicar as propriedades vistas acima.

a) A soma dos desvios de cada valor xi em relação à média é SEMPRE zero. Se di é o desvio, então Σdi = 0 (veja a coluna 2 da tabela abaixo).

b) Se yi = xi + 6, então 6xy += = 3 + 6 = 9 (veja a coluna 3 da tabela abaixo).

c) Se yi = 4*xi, então x*4y = = 4*3 = 12 (veja a coluna 4 da tabela abaixo).

(1) x i

(2)

xxdii

−=

(3) yi = xi + 6

(4) yi = 4*xi

1 -2 7 4 2 -1 8 8 3 0 9 12 3 0 9 12 4 1 10 16 5 2 11 20

média = 3 soma = 0 média = 9 média = 12

EXEMPLO 10 - O salário médio de 20 funcionários é 800 reais. Cada funcionário recebeu um aumento de 20%, determine o salário médio após o aumento.

Solução ------------------------------------------- -----------------------------------------------------------------------

Se cada funcionário recebeu um aumento de 20%, então seu salário foi multiplicado por 1,20. Portanto, o salário médio após o aumento é de 960 reais (= 800 * 1,20) pela propriedade 3.

Page 14: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 14 − prof. José Aguinaldo

2.2 −−−− Medidas de posição central para dados agrupados em tabelas de freqüência

2.2.1 −−−− Dados agrupados em tabelas de freqüência sem class e

•••• Média

Em tabelas de freqüência sem intervalos de classe, as freqüências (absoluta ou relativa) de cada valor x i da variável funcionam como fatores de ponderação, já que elas podem ser vistas como indicadores da intensidade de cada valor da variável.

Por esse motivo, o cálculo de uma média amostral é bem parecido com o cálculo da média ponderada, tendo as freqüências como pesos dos valores.

[ ]∑∑=

i

ii

f

fxx

onde xi = i-ésimo valor da variável fi = freqüência de xi

Σ fi = n � tamanho da amostra EXEMPLO 11 - A tabela abaixo mostra a distribuição do o número de filhos para uma amostra de 20 funcionários. Calcule o número médio de filhos desses funcionários.

Número de Filhos

Quantidade de funcionários

(fi) 0 5 1 7 2 5 3 2 4 1

Solução ------------------------------------------- -----------------------------------------------------------------------

Para facilitar o cálculo da média, vamos acrescentar coluna xifi que é o produto de cada valor xi pela sua respectiva freqüência fi.

xi fi xifi 0 5 0 1 7 7 2 5 10 3 2 6 4 1 4

Total ∑∑∑∑fi = 20 ∑∑∑∑xifi = 27

Da tabela ao lado temos: ∑fi = 20 e ∑[xifi] = 27. Portanto,

[ ]filho

f

fxx

i

ii35,1

20

27 ===∑∑

Obs: Pode parecer estranho dizer 1,35 filho, mas esse valor é uma média. Seria estranho dizer que uma família, em específico, tem 1,35 filho.

Page 15: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 15 − prof. José Aguinaldo

•••• Mediana O cálculo da mediana para dados agrupados é bem semelhante àquele utilizado em dados não-agrupados. Só vamos acrescentar a freqüência acumulada (Fi) para agilizar a localização da mediana na tabela. Procedimento • Determine a freqüência absoluta acumulada (Fi); • Calcule 2n=pos que é a posição da mediana (lembre-se: n = Σfi)

• Localize a mediana como sendo o valor, cuja com freqüência acumulada (Fi) é imediatamente superior à posição pos da mediana;

Observação: No caso de existir uma freqüência acumulada Fi exatamente igual a pos = n/2, a mediana será igual a média entre dois valores da variável. Um destes valores corresponderá ao Fi e o outro valor corresponderá ao Fi seguinte. EXEMPLO 12 - Volte ao exemplo anterior e calcule a mediana do número de filhos dos funcionários.

Solução ------------------------------------------- -----------------------------------------------------------------------

xi fi Fi 0 5 5 1 7 12 2 5 17 3 2 19 4 1 20

Total ∑∑∑∑ fi = 20 -- EXEMPLO 13 - Calcule a mediana da variável X na tabela abaixo.

Solução ------------------------------------------- -----------------------------------------------------------------------

xi fi Fi 0 4 5 1 6 10 2 7 17 3 2 19 4 1 20

Total ∑∑∑∑fi = 20 --

A posição da mediana é pos = n/2 = 20/2 = 10 Da tabela vemos que a mediana é o valor 1 (um), visto que a freqüência absoluta acumulada é 12 (imediatamente superior a pos =10). Portanto, a mediana é Md = 1 filho

A posição da mediana é pos = n/2 = 20/2 = 10 Como existe uma Fi = 10, então

Md = (1+2)/2 = 1,5 filho Portanto, a mediana é Md = 1,5 filho

Page 16: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 16 − prof. José Aguinaldo

•••• Moda A moda é o valor da variável com maior freqüência (absoluta ou relativa). EXEMPLO 14 - Volte ao EXEMPLO 11 e obtenha a moda do número de filhos desses funcionários.

Solução ------------------------------------------- -----------------------------------------------------------------------

xi fi 0 5 1 7 2 5 3 2 4 1

Total ∑∑∑∑fi = 20

Da tabela vemos que a moda é o valor 1 (um), visto que ele apresenta uma freqüência absoluta (fi = 7) Portanto, a moda é Mo = 1 filho.

Page 17: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 17 − prof. José Aguinaldo

2.2.2 −−−− Dados agrupados em tabelas de freqüência com class e

•••• Média

Em tabelas de freqüência com intervalos de classe, as freqüências (absoluta ou relativa) também funcionam como fatores de ponderação dos valores da variável. Mas é aí que está o problema, qual valor do intervalo deverá ser usado?

Como estamos trabalhando com intervalos, temos de decidir qual valor usar para a variável em cada classe. Se optar por trabalhar com o limite inferior das classes, a média tende a ser subestimada (ser menor do que realmente é), por outro lado, se optar por trabalhar com o limite superior das classes, a média tende a ser superestimada (ser maior do que realmente é). Para evitar a subestimação e superestimação da média, assumimos que os valores estão distribuídos de forma uniforme dentro da classe e calculamos o ponto médio xi de cada classe. O cálculo da média é:

[ ]∑∑=

i

ii

f

fxx

onde: xi e fi são o ponto médio e a freqüência absoluta da classe i Σ fi = n é o tamanho da amostra

EXEMPLO 15 - A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para uma amostra de 20 funcionários. Calcule o salário médio desses funcionários.

TABELA - Salários dos funcionários

Salários (em SM)

Quantidade de funcionários

f i 4,0 | 8,0 5 8,0 | 12,0 7 12,0 | 16,0 4 16,0 | 20,0 3 20,0 | 24,0 1

Solução ------------------------------------------- ----------------------------------------------------------------------- Complete a tabela acrescentando uma coluna com o ponto médio de cada classe (xi) e uma coluna com o produto ii fx .

Salários x i f i x if i 4,0 | 8,0 6 5 30 8,0 | 12,0 10 7 70 12,0 | 16,0 14 4 56 16,0 | 20,0 18 3 54 20,0 | 24,0 22 1 22

Total --- ∑ = 20 ∑ = 232

Da tabela ao lado temos: ∑fi = 20 e ∑[xifi] = 232. Portanto,

[ ]SM6,11

20

232

f

fxx

i

ii===

∑∑

Page 18: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 18 − prof. José Aguinaldo

•••• Mediana Para obter a mediana em dados agrupados com classe, o procedimento é o seguinte: • Determine a freqüência absoluta acumulada (Fi); • Calcule 2n=pos que é a posição da mediana (lembre-se: n = Σ fi)

• Localize a classe mediana como sendo a classe com a freqüência acumulada (Fi) imediatamente superior à posição pos da mediana;

• Calcule a mediana usando um dos dois métodos abaixo:

Mediana bruta 2

LMd

+= l (ponto médio da classe mediana)

Método da interpolação linear ( )ll −⋅

−+= L

f

F

Mdi

ant2

n

onde,

if , l e L = freqüência absoluta, limite inferior e superior da classe mediana, respectivamente.

antF = freqüência absoluta acumulada anterior à classe mediana.

Observação: No caso de existir uma freqüência acumulada Fi exatamente igual a 2n=pos , a mediana será o limite superior da classe correspondente. EXEMPLO 16 - Volte ao exemplo anterior e calcule a mediana dos salários dos funcionários. Use a mediana bruta e a mediana por interpolação linear.

Solução ------------------------------------------- ----------------------------------------------------------------------- Vamos completar a tabela obtendo a freqüência acumulada (Fi).

Salários f i Fi 4,0 | 8,0 5 5 8,0 | 12,0 7 12 12,0 | 16,0 4 16 16,0 | 20,0 3 19 20,0 | 24,0 1 20 Total ∑ = 20 --

Mediana bruta Método da interpolação linear

SM 102

128 =+=Md ( ) ( ) SM

Md 86,10812

7

5108 =−⋅−+=

classes fi Fi

... antf antF

l | L if iF ...

posf posF classe mediana

A posição da mediana é pos = n/2 = 20/2 = 10. A classe mediana é a classe 8 | 12, pois a sua freqüência acumulada é 12 (imediatamente superior a pos =10). Então, da tabela temos:

l = 8, L = 12, if = 7 e antF = 5

Page 19: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 19 − prof. José Aguinaldo

•••• Moda A moda em uma tabela de freqüência com classe provavelmente está dentro da classe com a maior freqüência. Essa classe é denominada de classe modal. Identificar a classe modal e calcule a moda usando um dos dois métodos abaixo:

Moda bruta 2

LMo

+= l

Método de Czuber ( )ll −⋅+

+= LDD

D Mo

21

1

Método de King ( )ll −⋅+

+= Lff

f Mo

posant

pos

Método de Pearson 6 x2Md3Mo ⋅−⋅=

onde, x e Md = média e mediana amostral;

anti1 ffD −= ;

posi2 ffD −= ;

l e L = limite inferior e superior da classe modal;

if = freqüência absoluta da classe modal;

antf = freqüência absoluta da classe anterior à

classe modal;

posf = freqüência absoluta da classe posterior à

classe modal. EXEMPLO 17 - Usando os dados do EXEMPLO 15, calcule a moda dos salários desses funcionários usando os quatros métodos descritos acima.

Solução ------------------------------------------- ----------------------------------------------------------------------- A classe modal é a 8 | 12 (segunda classe), pois ela apresenta a maior freqüência absoluta (fi = 7).

Salários f i 4,0 | 8,0 5 8,0 | 12,0 7 12,0 | 16,0 4 16,0 | 20,0 3 20,0 | 24,0 1 Total ∑ = 20

6 O método de Pearson fornece boa aproximação para o cálculo da moda quando a distribuição analisada apresenta uma razoável simetria em torno da média. Algumas outras relações também são interessantes, a partir desse método. Por exemplo, ( ) 3x2MoMd ⋅+= ou ( ) 2MoMd3x −⋅= .

classes fi

... antf

l | L if ...

posf classe modal

As informações que precisamos para calcular a moda são:

l = 8, L = 12, if = 7, antf = 5, posf = 4

anti1 ffD −= = 7 - 5 = 2

posi2 ffD −= = 7 - 4 = 3

Page 20: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 20 − prof. José Aguinaldo

Método de Czuber

( )ll −⋅+

+= LDD

D Mo

21

1 → ( ) SM 6,981232

2 8 =−⋅

++=Mo

Método de King

( )ll −⋅+

+= Lff

f Mo

posant

pos → ( ) SM 8,981245

4 8 =−⋅

++=Mo

Método de Pearson

xMdMo ⋅−⋅= 23 → ( ) ( ) SM4,96,11286,103 =⋅−⋅=Mo

Lembre-se de que Md = 10,86 e x =11,6 foram obtidos nos exemplos anteriores.

Page 21: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 21 − prof. José Aguinaldo

2.3 - Exercícios propostos

EXERCÍCIO 01 - Abaixo temos os saldos (em 100 reais) na conta corrente do Sr. DJ nos últimos seis meses. Considerando estes dados como amostra, calcule a média amostral, a mediana e a moda.

-1,0 -3,0 5,0 1,0 -1,0 5,0

EXERCÍCIO 02 - Uma amostra de 10 funcionários da empresa XYZ foi escolhida e registrada a distância em km que esses funcionários percorrem até chegar à empresa.

x = distância percorrida = {13, 5, 15, 9, 3, 15, 9, 12, 15, 7}

a) Desenhe um gráfico de pontos para os dados acima. b) Qual a distância média percorrida pelos funcionários? c) Qual a mediana e a moda da distância percorrida pelos funcionários? d) Um funcionário que percorre 20 km foi acrescentado à amostra acima, mas vamos

supor que o responsável pela entrada de dados errou na digitação e acabou registrando 200. Calcule novamente as medidas estatísticas que você calculou em ‘b’ e ‘c’. O que você reparou?

e) Vamos imaginar que uma obra está sendo feito na estrada que leva à empresa XYZ, de forma que cada funcionário teria que percorrer mais 1,25 km para chegar à empresa. Calcule a distância média percorrida por esses funcionários considerando essa obra agora.

EXERCÍCIO 03 - Um vendedor percorre um mesmo trajeto a 100 km/h na ida e a 60 km/h na volta. Qual a velocidade média harmônica desenvolvida pelo vendedor neste trajeto ida-volta?

EXERCÍCIO 04 - Sabendo que X é um conjunto de valores com média x = 5, calcule a média

do conjunto ( ) 610X5

4Y +−= . DICA: Utilize as propriedades da média.

EXERCÍCIO 05 - Um jornal anunciou que uma pessoa gasta, em média, 45 minutos por dia ouvindo música (The Des Moines Register, 5 de Dezembro de 1997). Os seguintes dados foram obtidos para o número de minutos gastos ouvindo música em uma amostra de 30 indivíduos.

88,3 4,3 4,6 7 9,2 0 99,2 34,9 81,7 0 85,4 0 17,5 45 53,3 29,1 28,8 0 98,9 64,5 4,4 67,9 94,2 7,6 56,6 52,9 145,6 70,4 65,1 63,6

a) Calcule o tempo médio que estes indivíduos amostrados ouvem música. Os dados

amostrados são coerentes com a média populacional anunciada pelo jornal? b) Calcule a mediana do tempo ouvindo música

EXERCÍCIO 06 - Considere os salários de 4 funcionários de um setor.

x = salário em reais = {800, 700, 900, 15000}, a) Calcule a média amostral e a mediana amostral e diga qual dessas medidas

estatísticas “melhor” representa os salários desses funcionários. b) Troque o valor de 15000 por 150000 e compare as mudanças ocorridas na média e na

mediana.

Page 22: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 22 − prof. José Aguinaldo

EXERCÍCIO 07 - Calcule a média aparada de 5% para os dados abaixo, que se referem a distância percorrida até a empresa para uma amostra de 20 funcionários.

x = {5, 6, 6, 2, 2, 2, 3, 3, 3, 8, 8, 8, 8, 9, 9, 9, 15, 13, 15, 11}

EXERCÍCIO 08 - Dona Maria foi à feira e encontrou batatas a R$ 1,50 o quilo e resolveu comprar 8 kg de batatas. Andando mais um pouco pela feira, ela encontrou batatas a R$ 1,00 kg e comprou mais 4 kg. No caminho de casa, notou que a quitanda do Sr. Manoel estava vendendo as batatas por R$ 0,60 e resolveu comprar mais 15 kg (vai gostar de batata, hein!). Qual foi o preço médio que Dona Maria pagou pelo quilo da batata?

Preço

(x i) Quilo (w i)

1,50 8 1,00 4 0,60 15

EXERCÍCIO 09 - (Bussab e Morettin, modificado) A tabela abaixo mostra a distribuição dos frangos de uma granja em relação ao peso (em gramas). Calcule a mediana dos pesos dos frangos desta granja e escreva uma frase interpretando o valor obtido.

Peso (em gramas)

Quantidade de frangos

f i 960 | 980 60 980 | 1000 160 1000 | 1020 280 1020 | 1040 260 1040 | 1060 160 1060 | 1080 80

EXERCÍCIO 10 - De uma amostra de 500 divórcios ocorridos em uma cidade, foi registado a duração do casamento (em anos). Os dados estão na tabela abaixo.

a) Qual a duração média dos casamentos? b) Qual é a moda (por Czuber) e a mediana (por interpolação linear) da

duração dos casamentos?

Anos de casamentos

Quantidade de divórcios (fi)

0 | 6 280 6 | 12 140 12 | 18 60 18 | 24 15 24 | 30 5

Page 23: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas estatísticas

Estatística Básica − 23 − prof. José Aguinaldo

EXERCÍCIO 11 - Numa amostra de 150 candidatos ao vestibular, foi registrado o número de vestibulares prestados por cada um até aquele momento. Assim, pela tabela vemos que 75 candidatos prestaram vestibular uma única vez e assim por diante.

a) Qual o número médio de vestibulares prestados pelos candidatos? b) Qual é a moda e a mediana do número de vestibulares prestados pelos

candidatos?

Número de vestibular prestado

Quantidade de candidatos

(fi) 1 75 2 47 3 21 4 7

EXERCÍCIO 12 - O histograma abaixo mostra a distribuição das notas finas de uma turma da disciplina de Introdução à Estatística. O eixo vertical representa a quantidade de aluno. Obtenha as seguintes medidas estatísticas: nota média, nota mediana (por interpolação linear), moda (por Czuber) das notas.

1009080706050403020

30

20

10

0

Notas

Qua

ntid

ade

de

alu

nos

(fi)

2

5

11

24

56

43

Page 24: Unidade_03_Medidas_Descritivas_2011.1Sem

Medidas de Variabilidade

Page 25: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 25 − prof. José Aguinaldo

3 −−−− Medidas de Variabilidade

3.1 −−−− Introdução

A medida de dispersão ou de variabilidade procura “medir” o quanto os valores de um conjunto de dados estão afastados ou dispersos em relação a uma medida central, normalmente a média aritmética. As medidas de posição central (média, mediana, etc) vistas anteriormente, não conseguem sozinhas descrever bem uma distribuição de valores. Considere a quantidade de gols feitos por dois times nos últimos sete campeonatos nacionais.

Time A: 80, 78, 80, 85, 75, 85, 80 Time B: 50, 78, 67, 85, 88, 94, 98

Cada time fez, em média, 80 gols em cada ano, nos levando a crer que ambos os times tiveram desempenhos iguais nos últimos sete campeonatos. Analisando a quantidade de gols marcados pelos times, notaremos que essa quantidade varia de 75 a 85 gols no time ‘A’, enquanto que a do time ‘B’ varia de 50 a 98 gols, e com essa análise da variação na quantidade de gols marcados podemos ver que o desempenho é bem distinto de ambos os times.

Para quantificar a variação presente em um conjunto de dados, temos de nos valer das medidas de dispersão ou de variabilidade. As medidas usuais são: Medidas de dispersão absoluta Desvio-padrão Variância Amplitude Desvio médio absoluto Medidas de dispersão relativa Coeficiente de variação

109876543Distância percorrida

30 40 50 60 70 80 90 100

109876543Distância percorrida

30 40 50 60 70 80 90 100

Page 26: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 26 − prof. José Aguinaldo

3.2 −−−− Medida de variabilidade para dados brutos

As medidas abaixo se referem aos dados brutos, ou seja, dados não agrupados em tabelas de freqüência. •••• Amplitude

A amplitude amostral é diferença entre o maior e o menor valor do conjunto de dados.

MínimoMáximoAt −=

Para o conjunto x = {9, 4, 5, 10, 7} a amplitude amostral será:

6410 =−=tA

É a medida mais simples de dispersão. Quanto maior for a amplitude, mais afastados estão os valores (maior dispersão ou variabilidade). A amplitude será sempre maior ou igual a zero, NUNCA negativa.

Apesar de sua simplicidade, a amplitude deixa um pouco a desejar, principalmente quando temos grandes conjuntos de dados, pois ela só leva em consideração os valores extremos (mínimo e máximo) de um conjunto, deixando de lado os valores intermediários.

EXEMPLO 18 - Calcule a amplitude dos dois conjuntos abaixo.

x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7}

Solução ------------------------------------------- -----------------------------------------------------------------------

Os dois conjuntos abaixo têm mesma amplitude, deixando a entender que ambos têm a mesma variabilidade, mas o que vemos pelo diagrama de pontos é que a variabilidade não é igual (é maior no conjunto y). x = {7, 7, 4, 7, 10} At = 6 y = {9, 4, 5, 10, 7} At = 6 A amplitude tem grande aplicação na área de controle de qualidade ou em situações onde desejamos uma rápida medida de variabilidade dos dados.

1211109876543Distância percorrida

1211109876543Distância percorrida

Page 27: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 27 − prof. José Aguinaldo

•••• Desvio médio absoluto

O grande inconveniente da amplitude é que ela usa apenas os valores extremos dos dados, deixando de lado os demais valores. Uma medida que considera todos os valores do conjunto seria mais interessante e mais justo para representar a variabilidade dos dados.

O desvio médio absoluto, representado por DMA, é uma das medidas de dispersão que leva em consideração todos os valores do conjunto. O DMA analisa a dispersão dos dados em torno de um valor central, representado pela média aritmética. O desvio médio absoluto é dado pela fórmula abaixo:

n

xxxxxx

n

xx

DMA n

n

ii −++−+−

=−

=∑

= L211

onde xi = i-ésimo valor da variável n = número de valores (tamanho da amostra)

xx i − = módulo do desvio de xi em relação à média

Como se vê, o desvio médio absoluto pode ser visto como uma média do afastamento dos valores em relação à média do conjunto. Quanto maior o DMA, mais afastados os valores estarão da média, portanto maior será a variabilidade. O DMA é uma medida sempre maior ou igual à zero, NUNCA negativa.

EXEMPLO 19 - Calcule o desvio médio absoluto dos dois conjuntos de dados abaixo.

x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7}

Solução ------------------------------------------- -----------------------------------------------------------------------

O modo mais prático de calcular o desvio médio absoluto é formar uma tabela com os valores e calcular o módulo dos desvios em torno da média. Veja abaixo como ficariam os cálculos.

Conjunto x Conjunto y x i xx i − xx i − yi yy i − yy i −

7 0 0 9 2 2 7 0 0 4 -3 3 4 -3 3 5 -2 2 7 0 0 10 3 3 10 3 3 7 0 0

- ∑ = 0 ∑ = 6 - ∑ = 0 ∑ = 10

2,15

61 ==−

=∑

=

n

xx

DMA

n

ii

X 0,25

101 ==−

=∑

=

n

yy

DMA

n

ii

Y

Como o DMAY foi maior que o DMAX, conclui-se que o conjunto y apresenta maior variabilidade em seus valores do que o conjunto x.

Page 28: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 28 − prof. José Aguinaldo

Apesar de usar todos os valores do conjunto e resolver aquele “problema” apresentado pela amplitude, o desvio médio absoluto também apresenta alguns pontos fracos, dentre eles:

• O DMA é bastante influenciado pelos valores atípicos (outliers); • Pelo fato de trabalhar com o módulo, certas propriedades estatísticas do DMA são

difíceis de serem verificadas7. •••• Variância amostral (s 2) e desvio-padrão amostral (s)

A variância amostral, representada por s2, é uma medida de variabilidade baseada nos desvios de cada valor em torno da média. Como esses desvios podem assumir valores positivos e negativos, a soma de todos eles será sempre zero. Para evitar que a soma dê sempre zero, a variância trabalha com os desvios elevados ao quadrado8. A variância é dada pela fórmula abaixo:

( )

1n

xx

s

n

1i

2i

2

−=∑

=

onde

( ) ( ) ( ) ( )2n

22

21

n

1i

2i xxxxxxxx −++−−=−∑

=

L (soma dos desvios ao quadrado)

A variância é uma média dos desvios ao quadrado. Quanto maior a variância, mais afastados os valores estarão da média, portanto maior será a variabilidade dos valores. A variância é uma medida sempre maior ou igual a zero, NUNCA negativa.

EXEMPLO 20 - Calcule a variância dos dois conjuntos de dados abaixo.

x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7}

Solução ------------------------------------------- -----------------------------------------------------------------------

O modo mais prático é também formar uma tabela com os valores,

Conjunto x Conjunto y x i xx i − ( )2

i xx − yi yy i − ( )2

i yy −

7 0 0 9 2 4 7 0 0 4 -3 9 4 -3 9 5 -2 4 7 0 0 10 3 9 10 3 9 7 0 0

- ∑ = 0 ∑ = 18 - ∑ = 0 ∑ = 26

( )5,4

15

18

1n

xx

s

n

1i

2i

2x =

−=

−=∑

=

( )5,6

15

26

1n

yy

s

n

1i

2i

2y =

−=

−=∑

=

Como o 2Xs foi menor que o 2

Ys , conclui-se que o conjunto x apresenta menor variabilidade em

seus valores do que o conjunto y (os valores de x estão mais homogêneos em torno da média).

7 Verificar se um estimador é não-viciado e com menor variabilidade. 8 O DMA calcula o módulo de cada desvio, em vez de elevar cada desvio ao quadrado.

Page 29: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 29 − prof. José Aguinaldo

Pelo fato de trabalhar com os desvios elevados ao quadrado, a unidade de medida da variância é também elevada ao quadrado também. Por exemplo, se conjunto x do exemplo anterior se referir à idade (em anos) de cinco crianças, então a variância será igual a 4,5 anos2. Se o conjunto se referir ao salário (em mil reais) de cinco funcionários, então a variância será igual a 4.500 reais2 e, por fim, se o conjunto se referir ao número de filhos de cinco famílias, então a variância será igual 4,5 filhos2.

Fica difícil ter alguma interpretação prática para a variância, já que sua unidade de medida não é a mesma dos dados originais. Para resolver essa pequena inconveniência, bastou tirar a raiz quadrada do valor da variância, dessa forma, surgiu o desvio-padrão.

O desvio-padrão amostral, representada por s, é apenas a raiz quadrada da variância. Portanto sua fórmula é dada por:

variância=s →

( )

1n

xx

s

n

1i

2i

−=∑

=

EXEMPLO 21 - No exemplo anterior, calcule o desvio-padrão dos dois conjuntos de dados.

Solução ------------------------------------------- -----------------------------------------------------------------------

O desvio-padrão do conjunto x é == 5,4sx 2,12

O desvio-padrão do conjunto y é == 5,6sy 2,55

Quanto maior o valor do desvio-padrão, mais afastados os valores estarão da média, portanto maior será a variabilidade dos valores. A unidade de medida do desvio-padrão é a mesma unidade dos dados originais. Por exemplo, se conjunto x do exemplo anterior se referir à idade (em anos) de cinco crianças, então o desvio-padrão será igual a 2,12 anos e, por fim, se o conjunto se referir ao salário (em mil reais) de cinco funcionários, então o desvio-padrão será igual a 2.120 reais.

O que de fato é o desvio-padrão?

Essa é a pergunta mais freqüente do aluno. O que podemos dizer é que o desvio-padrão é uma medida do quanto os valores estão afastados da média (ou uns dos outros para ser mais fácil de entender), sua utilidade é mais visível quando ele é usado para comparar a variabilidade entre diversos conjuntos de valores. Por exemplo, suponha alguém esteja interessado em um emprego oferecido por duas pelas empresas. O resumo dos salários dessas empresas está na tabela abaixo:

Empresa Salário médio Desvio-padrão dos salários

A 1500 reais 50 reais B 1500 reais 250 reais

O salário médio de ambas as empresas é 1500 reais, então a pessoa interessada deve estar ciente de que o seu salário vai girar em torno desse valor. Analisando o desvio-padrão, vemos que a variabilidade dos salários na empresa ‘A’ é muito menor indicando que os salários dessa empresa estão bem próximos de 1500 do que os salários da empresa ‘B’. Então, se a escolha não fosse influenciada por outros fatores (plano de carreira, plano de saúde, vale refeição, etc), a empresa ‘A’ seria mais interessante do que a ‘B’.

Page 30: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 30 − prof. José Aguinaldo

CASO PARTIULAR: Variância e desvio-padrão populacio nal Por outro lado, quando trabalhamos com os dados de uma população (o que não é tão comum assim na prática), a variância passa a ser denominada de variância populacional e é denotado pelo símbolo σσσσ2 (leia-se sigma ao quadrado). Na realidade, o cálculo é semelhante ao cálculo da variância amostral, com exceção de que no denominador não há a subtração do valor 1. A fórmula da variância populacional é:

( )

N

µx

σ

N

1i

2i

2∑

=

−=

onde xi = i-ésimo valor da variável X µ = média populacional N = amanho da população

O desvio-padrão populacional é denotado por σσσσ é calculado por:

( )

N

µx

σ

N

1i

2i∑

=

−=

EXEMPLO 22 - Imagine uma pequena região fictícia com apenas 8 famílias. Abaixo estão listados as renda (em reais) destas famílias.

450 560 550 300 620 400 500 580 Assumindo que esta região é a sua população de interesse, calcule a desvio-padrão populacional destas famílias.

Solução ------------------------------------------- -----------------------------------------------------------------------

Média populacional: 4958

3960

8

580560450

N

x

µ

N

1ii

==+++==∑

= L reais

Desvio-padrão populacional:

( )( ) ( ) ( )

50,998

79200

8

495580495560495450

N

µx

σ

222

N

1i

2i

==−++−+−=−

=∑

= L

O desvio-padrão populacional das rendas é 99,50 reais. Por que na variância amostral a divisão é por n - 1 e não por n?

Quando temos os dados de toda a população, o cálculo da variância é feito dividindo a soma dos desvios ao quadrado pelo tamanho da população N, obtendo, então, uma média desses desvios. Entretanto, na estatística, freqüentemente trabalhamos com uma amostra apenas e o desejo é usar essa amostra para obter estimativas de parâmetros da população, entre eles a variância populacional (σ2).

Page 31: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 31 − prof. José Aguinaldo

Ao calcular a variância amostral (s2) usando n no denominador, o valor obtido de s2 estará subestimando a real variância (σ2). Então, para melhorar a estimativa da real variância (σ2), calculamos a variância usando o n – 1 no denominador, em vez de n. Fórmula alternativa de calcular a variância e/ou o desvio-padrão

Há uma fórmula alternativa que nos permite calcular a variância e o desvio-padrão amostral.

Variância populacional Desvio-padrão populacional

−⋅−

=∑

∑ =

= n

x

xn

s

n

iin

ii

2

1

1

22

1

1

−⋅−

=∑

∑ =

= n

x

xn

s

n

iin

ii

2

1

1

2

1

1

onde: n21

n

1ii xxxx +++=∑

=L 2

n22

21

n

1i

2i xxxx +++=∑

=

L

EXEMPLO 23 - Calcule a variância do conjunto x = {7, 7, 4, 7, 10} usando a fórmula alternativa.

xi 2

ix

7 49 7 49 4 16 7 49 10 100

∑ ix = 35 ∑2ix = 263

Propriedades do desvio-padrão

Suponha que os dados do conjunto x = {x1, x2,..., xn} têm um desvio-padrão sx:

(1) Somando-se (ou subtraindo-se) uma constante a a todos os valores de uma variável, o desvio-padrão do conjunto não se altera.

Se axy ii ±= ⇒⇒⇒⇒ xy ss =

(2) Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante b, o desvio-padrão do conjunto fica multiplicado (ou dividido) dessa constante.

Se ii bxy = ⇒⇒⇒⇒ xy bss =

(3) Combinando as propriedades (1) e (2), temos:

Se abxy ii ±= ⇒⇒⇒⇒ xy bss =

Variância:

( )

−⋅

−=

5

35263

15

1 22s = 4,5

Desvio-padrão:

5,4=s = 2,12

Page 32: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 32 − prof. José Aguinaldo

EXEMPLO 24 - Considere o conjunto x = {1, 2, 3, 3, 4, 5}, cujo desvio-padrão é sx = 1,4142.

a) Se cada xi for adicionado o valor 6, qual será o desvio-padrão dos ‘novos’ valores? b) Se cada xi for multiplicado pelo valor 4, qual será o desvio-padrão dos ‘novos’ valores?

Solução ------------------------------------------- ----------------------------------------------------------------------- Vamos aplicar as propriedades vistas acima.

a) Se yi = xi + 6, então xy ss = = 1,4142 (veja a coluna 2 da tabela abaixo)

b) Se yi = 4*xi, então xy s4s ⋅= = 4*1,4142 = 5,6568 (veja a coluna 3 da tabela abaixo)

(1) x i

(2) yi = xi + 6

(3) yi = 4*xi

1 7 4 2 8 8 3 9 12 3 9 12 4 10 16 5 11 20

sx = 1,4142 sy = 1,4142 sy = 5,6569

EXEMPLO 25 - Sabendo que X é um conjunto de valores com desvio-padrão sx = 15,

calcule o desvio-padrão e a variância do conjunto ( ) 6105

4 +−= XY .

Solução ------------------------------------------- ----------------------------------------------------------------------- Vamos primeiro desenvolver a fórmula do Y

( ) 25

468

5

4610

5

4

5

4610

5

4 −=+−=+−=+−= XXXXY

Portanto, 25

4 −= XY e aplicando a propriedade (3) 12155

4

5

4 =⋅== xy ss .

Page 33: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 33 − prof. José Aguinaldo

•••• Coeficiente de variação (CV)

A amplitude, o desvio médio absoluto, a variância e o desvio-padrão são medidas absolutas de dispersão. O coeficiente de variação, representado por CV, é uma medida relativa de dispersão, pois leva em consideração a média do conjunto de dados. Ele é a razão entre o desvio-padrão s e a média x , isto é:

x

sCV =

Como se pode ver, o CV é adimensional (não tem unidade de medida) e multiplicando o valor obtido por 100, ele será expresso em percentual (%). O coeficiente de variação é indicado para comparar variabilidade de variáveis com unidades diferentes ou comparar variabilidade entre conjuntos com médias bem diferentes.

EXEMPLO 26 - Considere os quatro conjuntos de valores:

X = Peso de recém-nascidos (em kg) = {4, 5, 6, 5} Y = Peso da mãe (em kg) = {65, 75, 68, 60} Z = Altura da mãe (em cm) = {178, 176, 170, 160} Z = Altura do pai (em cm) = {185, 180, 175, 160}

QUADRO RESUMO

X = Peso de recém-nascidos (em kg)

Y = Peso da mãe dos recém-nascidos

(em kg)

Z = Altura da mãe dos recém-nascidos

(em cm)

Q = Altura do pai dos recém-nascidos

(em cm)

média = 5 kg dp = 0,82 kg CV = 16,3%

média = 67 kg dp = 6,78 kg CV = 9,4%

média = 171 cm dp = 8,08 cm CV = 4,7%

média = 175 cm dp = 10,8 cm CV = 6,2%

dp = desvio-padrão Comparando variabilidade entre as variáveis X e Y → As unidades de medidas são as mesmas para ambas as variáveis, porém o peso médio da

mãe (67 kg) é muito diferente do peso médio da criança (5 kg). Nesse caso, a melhor forma de comparar a variabilidade é usar o coeficiente de variação (CVX = 16,3% e CVY = 9,4%). Comparando os resultados, vê-se que a variação relativa dos pesos9 é maior para os recém-nascidos do que para as mães.

Comparando variabilidade entre as variáveis Y e Z → As unidades de medidas são bem diferentes (kg para peso e cm para altura). Nesse caso, a

única forma de comparar a variabilidade é usando o coeficiente de variação (CVY = 9,4% e CVZ = 9,4%). Comparando os resultados, vê-se que a variação relativa é maior para os pesos das mães.

Comparando variabilidade entre as variáveis Z e Q

→ As unidades de medidas são as mesmas e as médias são bem parecidas (171 cm das mães e 175 cm dos pais). Nesse caso, podemos usar tanto o desvio-padrão quanto o coeficiente de variação. Comparando os resultados, vê-se que há uma maior variabilidade nas alturas dos pais (dp = 10,8 cm e CV = 6,2%) do que nas alturas das mães (dp = 8,08 cm e CV = 4,7%).

9Variação em torno da média.

Page 34: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 34 − prof. José Aguinaldo

3.3 −−−− Medidas de variabilidade para dados agrupados em t abelas de freqüência

3.3.1 −−−− Dados agrupados em tabelas de freqüência sem class e

Se os dados estão agrupados em tabela sem classe, então x i é o valor da nossa variável de interesse e f i é a freqüência desse valor. Da mesma forma que levamos em consideração as freqüências f i no cálculo da média agrupada, também devemos considerá-las no cálculo da variância e desvio-padrão. As duas fórmulas dão os mesmos resultados e, em se tratando de tabelas, a segunda fórmula abaixo é mais prática.

( )

1

f1

i2

2

−=∑

=

n

xx

s

n

ii

ou

−⋅−

=∑

∑ =

= n

x

xn

s

n

iin

ii

2

1i

1i

22

f

f1

1

EXEMPLO 27 - A tabela abaixo mostra a distribuição do o número de filhos para uma amostra de 20 funcionários. Calcule a variância e o desvio-padrão do número de filhos dos funcionários.

Número de Filhos

Quantidade de funcionários

(fi) 0 5 1 7 2 5 3 2 4 1

Solução ------------------------------------------- -----------------------------------------------------------------------

Para facilitar o cálculo da média, vamos acrescentar coluna xifi, que é o produto de cada valor xi pela sua respectiva freqüência fi.

xi fi ii fx i2i fx

0 5 0 0 1 7 7 7 2 5 10 20 3 2 6 18 4 1 4 16

Total 20 27 61

Da tabela ao lado temos:

∑= ifn = 20, ii fx∑ = 27, ∑ i

2i fx = 61

Variância: ( )

−⋅

−=

20

2761

120

1s

22 = 1,29 (filho)2

Desvio-padrão: 29,1s = = 1,14 filho

Page 35: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 35 − prof. José Aguinaldo

3.2.2 −−−− Dados agrupados em tabelas de freqüência com class e

Se os dados estão agrupados em tabela com intervalo de classe, então x i é o ponto médio da classe e f i é a freqüência dessa classe. As duas fórmulas dão os mesmos resultados e, em se tratando de tabelas, a segunda fórmula abaixo é novamente a mais prática.

( )

1n

xx

s

n

1i

2i

2

−=∑=

if

ou

−⋅−

=∑

∑ =

= n

x

x1n

1s

2n

1iin

1i

2i

2i

i

f

f

EXEMPLO 28 - A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para uma amostra de 20 funcionários. Calcule o salário médio desses funcionários.

Salários (em SM)

Quantidade de funcionários

f i 4,0 | 8,0 5 8,0 | 12,0 7 12,0 | 16,0 4 16,0 | 20,0 3 20,0 | 24,0 1

Solução ------------------------------------------- ----------------------------------------------------------------------- Complete a tabela acrescentando uma coluna com o ponto médio de cada classe (xi) e uma coluna com o produto ii fx .

Salários xi fi ii fx i2i fx

4,0 | 8,0 6 5 30 180 8,0 | 12,0 10 7 70 700 12,0 | 16,0 14 4 56 784 16,0 | 20,0 18 3 54 972 20,0 | 24,0 22 1 22 484 Total --- 20 232 3120 Obs. x i = ponto médio da classe i Variância amostral

−⋅−

=∑

∑ =

= n

x

xn

s

n

iin

ii

2

1i

1i

22

f

f1

1 =

( )

−⋅

− 20

2323120

120

1 2

= 22,574 (SM)2

Desvio-padrão amostral: 57,22s = = 4,75 SM

Da tabela ao lado temos:

∑ if = 20

ii fx∑ = 232

∑ i2i fx = 3120

Page 36: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 36 − prof. José Aguinaldo

3.4 −−−− Algumas aplicações do desvio-padrão

a) Regra empírica

Para conjunto de dados simétricos em forma de sino, uma útil regra prática pode ser aplicada a estes dados. Esta regra, algumas vezes chamada de regra empírica , nos diz que:

• Cerca de 68,3% dos valores estarão dentro de uma distância de ± 1 desvio-padrão em torno da média (ou seja, média ± 1*dp).

• Cerca de 95,4% dos valores estarão dentro de uma distância de ± 2 desvios-padrões em torno da média (ou seja, média ± 2*dp).

• Cerca de 99,7% dos valores estarão dentro de uma distância de ± 3 desvios-padrões em torno da média (ou seja, média ± 3*dp).

Como exemplo, suponha que as notas dos candidatos em um vestibular tenham uma média de 90 pontos com um desvio-padrão de 20 pontos. Assumindo que as notas se distribuem simetricamente em torno da média (em forma de sino), podemos dizer que: Cerca de 95,4% dos alunos obtiveram notas dentro do intervalo 90 ± (2*20) = 90 ± 40, ou seja, de 50 pontos a 130 pontos (nove de cada dez tiram notas de 50 a 130 pontos). A regra acima deve ser usada em conjunto de dados distribuídos simetricamente em torna da média em forma de sino. Veja as figuras abaixo que mostra uma distribuição simétrica e assimétrica. Dados simétricos (em forma

de sino) Dados assimétricos (não simétricos em torno da média)

Uma alternativa é o uso da regra do Tchebychev, usada para situações mais gerais.

b) Regra Tchebychev <<< Incluir depois >>>

Page 37: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 37 − prof. José Aguinaldo

c) Escore z (ou z-escore)

O escore z de um valor x é o número de desvios-padrões que este valor x está acima ou abaixo da média. O escore z pode ser obtido pela fórmula abaixo:

dp

médiavalorz

−= onde dp = desvio-padrão

Usando o escore z para classificar um valor como não-usual O escore z pode ser usado para classificar um valor como atípico (valor não-usual, não comum ou outlier) ou típico (valor usual ou comum). Para conjunto de dados simétricos em torno da média podemos usar a regra abaixo:

z < −2 � valor atípico (considerado valor muito pequeno) z > +2 � valor atípico (considerado como muito grande) −2 ≤ z ≤ +2 � valor usual (considerado como valor comum)

Como exemplo, considere que os homens adultos em geral têm uma altura média de 175 cm com um desvio-padrão de 6 cm. O jogador de basquetebol norte-americano Michael Jordan tem uma altura de 1,98 metro, portanto seu escore z é

8,36

175198Jordan Michael =−=−=

dp

médiavalorz

Como z = 3,8 é maior que 2, então podemos concluir que a altura de Michael Jordan não é comum em homens adultos em geral (esta altura seria um valor não-usual). E o jogador brasileiro Romário que tem altura de 1,69 metro, o que você poderia dizer sobre sua altura? Tente responder. Usando o escore z para fazer comparações entre valores O escore z também pode ser usado comparar valores vindo de diferentes conjuntos de dados. Por exemplo, suponha que uma prova foi aplicada aos alunos de duas turmas (A e B). Na turma A, a nota média foi de 10 pontos com desvio-padrão de 5 pontos. Na turma B, a nota média foi de 15 pontos com desvio-padrão de 10 pontos. Vamos comparar o desempenho de dois alunos:

Narizinho da turma A : obteve 18 pontos Pedrinho da turma B : obteve 25 pontos.

O z-escore da Narizinho foi:

6,15

1018 =−=Narizinhoz

O z-escore do Pedrinho foi:

0,110

1525 =−=Pedrinhoz

Usando o escore z podemos concluir que a aluna Narizinho teve um desempenho melhor dentro da sua turma do que o aluno Pedrinho.

Significa que a nota de Narizinho está 1,6 desvio-padrão acima da média da sua turma (A).

Significa que a nota de Pedrinho está 1 desvio-padrão acima da média da turma

Page 38: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 38 − prof. José Aguinaldo

3.5 - Exercícios propostos

EXERCÍCIO 13 - Uma amostra de 10 funcionários da empresa XYZ foi escolhida e registrada a distância em km que esses funcionários percorrem até chegar à empresa.

x = distância percorrida = {13, 5, 15, 9, 3, 15, 9, 12, 15, 7}

a) Calcule a amplitude , desvio-médio absoluto , variância , desvio-padrão e o

coeficiente de variação para a distância percorrida pelos funcionários amostrados. b) Calcule o z-escore para um funcionário que percorre 20 km até a empresa. Esta

distância pode ser considerada atípica? Justifique.

EXERCÍCIO 14 - O desvio-padrão dos salários dos funcionários de uma empresa é 30 reais. No próximo mês, cada funcionário receberá um aumento de 50 reais e no mês seguinte um aumento de 20%, determine o desvio-padrão dos “novos” salários após estes aumentos. DICA: Use as propriedades do desvio-padrão.

EXERCÍCIO 15 - De uma amostra de 500 divórcios ocorridos em uma cidade, foi registado a duração do casamento (em anos). Os dados estão na tabela abaixo.

a) Calcule o desvio-padrão da duração dos casamentos. b) Suponha que o número de filhos destes casamentos

Anos de casamentos

Quantidade de divórcios (fi)

0 | 6 280 6 | 12 140 12 | 18 60 18 | 24 15 24 | 30 5

EXERCÍCIO 16 - O histograma abaixo mostra a distribuição das notas finas de uma turma da disciplina de Introdução à Estatística. O eixo vertical representa a quantidade de aluno. Calcule o coeficiente de variação (CV) das notas obtidas pelos alunos.

1009080706050403020

30

20

10

0

Notas

Qua

ntid

ade

de

alu

nos

(fi)

2

5

11

24

56

43

Page 39: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 39 − prof. José Aguinaldo

EXERCÍCIO 17 - A seqüência de operações executadas por operários para executar certa tarefa está sendo estudada. Uma nova seqüência esta sendo proposta e deseja-se verificar se é adequado substituir a anterior. Para tanto, nove operários foram sorteados e mediu-se o tempo necessário, em minutos, para que cada um realizasse a tarefa, com dois tipos de seqüências. Os dados coletados foram:

Operário 1 2 3 4 5 6 7 8 9

Atual seqüência 24 25 27 22 23 28 26 28 29

Nova seqüência 21 23 28 27 24 26 25 22 23 Diferenças (D= A-N) 3

a) Calcule a diferença D entre os tempos obtidos na atual e nova seqüência. b) Calcule as medidas estatísticas usuais (média, mediana, variância, desvio-

padrão e coeficiente de variação) da diferenças D. c) Um pesquisador utilizou a seguinte regra: “Se não houver diferenças

significativas entre as duas seqüências, então o intervalo10 abaixo deverá incluir o valor zero”.

+−

n

sD

n

sD DD 86,1;86,1

onde n, D , Ds = tamanho, média e desvio-padrão das diferenças D

Qual deveria ser a conclusão do pesquisador?

10 Isto é denominado de intervalo de confiança para dados emparelhados.

Page 40: Unidade_03_Medidas_Descritivas_2011.1Sem

Medidas Separatrizes, de Assimetria e de

Curtose

Page 41: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 41 − prof. José Aguinaldo

4 −−−− Medida Separatrizes, de Assimetria e de Curtose

4.1 −−−− Introdução

As medidas de posição central (média, mediana, ...) e as medidas de dispersão (variância, desvio-padrão, ...) desempenham um papel importante na estatística, pois conseguem descrever as duas principiais características de uma distribuição de valores: o valor central e a variabilidade. A mediana, além de representar o valor central de uma distribuição, também apresenta uma característica interessante que é a de dividir a distribuição em duas partes iguais quanto ao número de elementos em cada parte. Usando essa última idéia da mediana podemos também dividir a distribuição em quatro, dez ou cem partes iguais quanto ao número de elemento. As medidas que dividem a distribuição em quatro, dez e cem partes iguais são denominados de quartis, decis e percentis, respectivamente. No geral, essas medidas são conhecidas como medidas separatrizes (ou medidas de posição não-central).

4.2 −−−− Medidas separatrizes para dados brutos

As medidas separatrizes abaixo se referem aos dados brutos, ou seja, dados não-agrupados em tabelas de freqüência. •••• Quartil

Há três quartis (Q1, Q2, Q3), que juntos dividem a distribuição em quatro partes iguais com cerca de um quarto (ou seja, 25%) dos elementos em cada parte.

Primeiro Quartil

O primeiro Quartil, simbolizado por Q1, é o valor que divide o conjunto ordenado de valores em duas partes, tais que um quarto (ou 25%) dos valores sejam menores do que ele e três quartos (ou 75%) dos valores dos restantes sejam maiores (ver figura a).

Segundo Quartil

O segundo Quartil, simbolizado por Q2, é o valor que divide o conjunto ordenado de valores em duas partes, tais que dois quartos (ou 50%) dos valores sejam menores do que ele e dois quartos (ou 50%) dos valores dos restantes sejam maiores. Note que o segundo quartil é a própria mediana, ou seja, Q2 = Md (ver figura b).

Terceiro Quartil

O terceiro Quartil, simbolizado por Q3, é o valor que divide o conjunto ordenado de valores em duas partes, tais que três quartos (ou 75%) dos valores sejam menores do que ele e um quarto (ou 25%) dos valores dos restantes sejam maiores (ver figura c).

25% 75% 25% 75% 50% 50%

Q1 Q2 = Md Q3 ( a ) ( b ) ( c )

Page 42: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 42 − prof. José Aguinaldo

Abaixo mostramos um desenho esquematizando a divisão de uma distribuição em quatro partes com 25% dos elementos em cada grupo. Note que de Q1 a Q3 temos metade (ou 50%) dos valores.

Não há um consenso mundial sobre um procedimento único para obter os quartis. Vamos usar o seguinte procedimento:

•••• Ordene o conjunto de dados em ordem crescente e calcule 4)nk( ⋅=pos que é a posição do Quartil Q k (k = 1, 2 ou 3);

•••• Se pos não for inteiro, arredonde pos para cima (maior inteiro mais próximo) e o Quartil Qk será o valor que está na posição pos .

•••• Se pos for inteiro, então o Quartil Qk será a média entre os valores que estão na posição pos e pos +1.

EXEMPLO 29 - Os dados abaixo se referem à distância percorrida até a empresa para uma amostra de 20 funcionários. Calcule os três quartis e interprete-os.

8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2

Solução ------------------------------------------- -----------------------------------------------------------------------

Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20 Primeiro quartil (Q 1)

k = 1 posição → 54201 =⋅=pos (o Q1 será a média dos valores que estão na 5ª e 6ª posição no conjunto ordenado)

km5,42

63Q1 =+=

Segundo quartil (Q 2)

k = 2 posição → 104202 =⋅=pos (o Q1 será a média dos valores que estão na 10ª e 11ª posição no conjunto ordenado)

km0,82

88Q2 =+=

Obs: O cálculo acima não precisava ser feito. Um número entre 8 e 8 só pode ser o 8 mesmo.

Primeiro Quartil Segundo

Quartil Terceiro Quartil

Q1 Q2 Q3 Livro do Barbeta, 2004

25% 25%

25%

25%

Cerca de 25% dos funcionários percorrem menos de 4,5 km até a empresa e os restantes (75%) percorrem mais de 4,5 km.

Cerca de 50% dos funcionários percorrem menos de 8 km até a empresa e os restantes (50%) percorrem mais de 8 km.

Page 43: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 43 − prof. José Aguinaldo

Terceiro quartil (Q 3)

k = 3 posição → 154203 =⋅=pos (o Q1 será a média dos valores que estão na 15ª e 16ª posição no conjunto ordenado)

km0,122

159Q3 =+=

•••• Decil

Há nove decis (D1, D2, ..., D9), que juntos dividem a distribuição em dez partes iguais com cerca de 10% dos elementos em cada parte. Lembre-se de que a divisão em partes iguais se refere ao número de elementos em cada parte.

Decil k (k = 1, 2, ...., 9)

O Decil k , simbolizado por Dk, é o valor que divide o conjunto ordenado de valores em duas partes, tais que (10*k)% dos valores sejam menores do que ele e os restantes sejam maiores.

Por exemplo:

Decil 7 (D 7) É o valor que divide em duas partes, tais que 70% dos valores sejam menores do que ele e os 30% restantes sejam maiores.

Decil 5 (D 5) É o valor que divide em duas partes, tais que 50% dos valores sejam menores do que ele e os 50% restantes sejam maiores.

O procedimento que vamos usar é o mesmo usado para o cálculo dos quartis.

•••• Ordene o conjunto de dados em ordem crescente e calcule 10)nk( ⋅=pos que é a posição do Decil D k (k = 1, 2, ..., 9);

•••• Se pos não for inteiro, arredonde pos para cima (maior inteiro mais próximo) e o Decil Dk será o valor que está na posição pos .

•••• Se pos for inteiro, então o Decil Dk será a média entre os valores que estão na posição pos e pos +1.

EXEMPLO 30 - Os dados abaixo se referem a distância percorrida até a empresa para uma amostra de 20 funcionários. Calcule e interprete o Decil 9.

8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2

Solução ------------------------------------------- -----------------------------------------------------------------------

Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20 Decil 9 (D 9)

k = 9 posição → 1810209 =⋅=pos (o D9 será a média dos valores que estão na 18ª e 19ª posição no conjunto ordenado)

km172

1816D9 =+=

Cerca de 75% dos funcionários percorrem menos de 12 km até a empresa e os restantes (25%) percorrem mais de 12 km.

Cerca de 90% dos funcionários percorrem menos de 17 km até a empresa e os 10% restantes percorrem mais de 17 km.

Page 44: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 44 − prof. José Aguinaldo

•••• Percentil

Há 99 percentis (P1, P2, ..., P99), que juntos dividem a distribuição em cem partes iguais com cerca de 1% dos elementos em cada parte.

Percentil k (k = 1, 2, ...., 99)

O Percentil k , simbolizado por Pk, é o valor que divide o conjunto ordenado de valores em duas partes, tais que k% dos valores sejam menores do que ele e os restantes sejam maiores.

Por exemplo:

Percentil 70 (P 70) É o valor que divide em duas partes, tais que 70% dos valores sejam menores do que ele e os 30% restantes sejam maiores.

Percentil 50 (P 50) É o valor que divide em duas partes, tais que 50% dos valores sejam menores do que ele e os 50% restantes sejam maiores. Note que o P50 é a mediana.

O procedimento que vamos usar é o mesmo usado para o cálculo dos quartis.

•••• Ordene o conjunto de dados em ordem crescente e calcule 100)nk( ⋅=pos que é a posição do Percentil P k (k = 1, 2, ..., 99);

•••• Se pos não for inteiro, arredonde pos para cima (maior inteiro mais próximo) e o Percentil Pk será o valor que está na posição pos .

•••• Se pos for inteiro, então o Percentil Pk será a média entre os valores que estão na posição pos e pos +1.

EXEMPLO 31 - Os dados abaixo se referem a distância percorrida até a empresa para uma amostra de 20 funcionários. Calcule e interprete o Percentil 25 e o Percentil 78.

8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2

Solução ------------------------------------------- -----------------------------------------------------------------------

Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20

↑ ↑ Percentil 25 (P 25) - k = 25 posição → 51002025 =⋅=pos

Como 5 é um valor inteiro, então o percentil P25 será a média dos 5º e 6º valores no conjunto ordenado. Ou seja,

km3

P25 4,5 2

6 =+=

Percentil 72 (P 72) - k = 72 posição → 4,141002072 =⋅=pos

Como o 14,4 não é um valor inteiro, devemos arredondá-lo para cima. Neste caso, o percentil P74 será o valor que está na 15ª posição no conjunto ordenado, Ou seja,

km9P72 =

Cerca de 25% dos funcionários percorrem até 4,5 km até a empresa e os 75% restantes percorrem mais de 4,5 km.

Cerca de 72% dos funcionários percorrem até 9 km até a empresa e os 28% restantes percorrem mais de 9 km.

Page 45: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 45 − prof. José Aguinaldo

Relação importante entre Quartil, Decil e Percentil

• Relação entre Decil e Percentil.

D1 = P10 D2 = P20 ... D5 = P50 = mediana ... D9 = P90

• Relação entre Quartil, Percentil e Mediana.

Q1 = P25 Q2 = P50 = D5 = mediana Q3 = P75

Page 46: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 46 − prof. José Aguinaldo

4.3 −−−− Medidas Separatrizes para dados agrupados em tabel as de freqüência

O cálculo do quartil, decil e percentil para dados agrupados em tabelas de freqüência (com ou sem intervalo de classe) segue o mesmo raciocínio empregado no cálculo da mediada.

Como há uma relação entre o percentil e o quartil e decil, os cálculos que serão visto a seguir serão feitos apenas para os percentil.

4.3.1 −−−− Dados agrupados em tabelas de freqüência sem class e

Etapas a serem seguidas • Determine a freqüência absoluta acumulada (Fi); • Calcule 100)nk( ⋅=pos que é a posição do Percentil Pk (lembre-se: n = Σ fi)

• Localize o Percentil P k como sendo o valor cuja freqüência acumulada (Fi) é imediatamente superior à posição pos do Percentil.

Observação: No caso de existir uma freqüência acumulada Fi exatamente igual a pos = k⋅n/100, o Percentil será a média aritmética entre o valor da variável correspondente a essa freqüência acumulada é a seguinte. EXEMPLO 32 - A tabela abaixo mostra a distribuição do o número de filhos para uma amostra de 20 funcionários. Calcule o Percentil 75, o Percentil 95, o Decil 3 e o terceiro Quartil.

Número de Filhos

Quantidade de funcionários

(fi) 0 5 1 7 2 5 3 2 4 1

Solução ------------------------------------------- -----------------------------------------------------------------------

Para facilitar os cálculos vamos acrescentar a freqüência acumulada Fi.

Número de filhos x i

f i Fi

0 5 5 1 7 12 2 5 17 3 2 19 4 1 20

Total ∑∑∑∑ fi = 20 -- • Percentil 75 (P 75)

151002075 =⋅=pos (terceira linha da tabela, pois é Fi = 17 é imediatamente superior a 15)

Então, o valor do Percentil 75 é P75 = 2 filhos

Page 47: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 47 − prof. José Aguinaldo

• Percentil 95 (P 95) 191002095 =⋅=pos (como existe um pos = Fi = 19, então o percentil será uma média do

valor xi = 3 dessa linha com o valor xi = 4 da linha seguinte)

5,32

43P95 =+=

Então, o valor do Percentil 95 é P95 = 3,5 filhos

• Decil 3 (D 3)

Basta lembrar que D3 = P30

31002030 =⋅=pos (segunda linha da tabela, pois é Fi = 12 é imediatamente superior a 6)

Então, o valor do Decil 43 é D3 = 1 filho • Terceiro Quartil (Q 3)

Basta lembrar que Q3 = P75 Então, o valor do terceiro quartil é Q3 = 2 filhos (já calculado anteriormente)

Page 48: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 48 − prof. José Aguinaldo

4.3.2 −−−− Dados agrupados em tabelas de freqüência com class e

Para obter o percentil em dados agrupados com classe, o procedimento é o seguinte: • Determine a freqüência absoluta acumulada (Fi); • Calcule 100)nk( ⋅=pos que é a posição da percentil (lembre-se: n = Σ fi)

• Localize a classe do percentil como sendo a classe com a freqüência acumulada (Fi) imediatamente superior à posição pos da percentil;

• Calcule a percentil usando o método da interpolação linear abaixo:

( ) ( )ll −⋅−

+= Lf

Fpos P

i

antk

onde,

if , l e L = freqüência absoluta, limite inferior e superior da classe percentil, respectivamente.

antF = freqüência absoluta acumulada anterior à classe percentil.

Observação: No caso de existir uma freqüência acumulada Fi exatamente igual a 100)nk( ⋅=pos , o percentil será o limite superior da classe correspondente. EXEMPLO 33 - A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para uma amostra de 20 funcionários. Calcule o Percentil 95, o terceiro Quartil e o Decil 3

Salários (em SM)

Quantidade de funcionários

f i 4,0 | 8,0 5 8,0 | 12,0 7 12,0 | 16,0 4 16,0 | 20,0 3 20,0 | 24,0 1

Total 20

Solução ------------------------------------------- ----------------------------------------------------------------------- Vamos acrescentar a freqüência acumulada Fi à tabela.

Salários f i Fi 4,0 | 8,0 5 5 8,0 | 12,0 7 12 12,0 | 16,0 4 16 16,0 | 20,0 3 19 20,0 | 24,0 1 20

Total 20 --

classes fi Fi

... antf antF

l | L if iF ...

posf posF classe percentil

Page 49: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 49 − prof. José Aguinaldo

• Percentil 95 (P 95) 191002095 =⋅=pos (P95 está na quarta classe, pois é Fi = 20 é imediatamente

superior a 19)

Da tabela temos: 20=l , 24L = , 1f *i = e 19F*

ant = .

( ) ( ) 2020241

19 1920Pk =−⋅−+=

Então, o salário que corresponde ao Percentil 95 é P95 = 20 SM

• Q3

Basta lembrar que Q3 = P75

151002075 =⋅=pos (P75 está na terceira classe, pois Fi = 16 é imediatamente superior a 15)

Da tabela temos: 12=l , 16L = , 4f i = e 12Fant = .

( ) ( ) 1512164

12 1512Pk =−⋅−+=

Então, o salário que corresponde ao terceiro quartil é Q3 = 15 SM

• Decil 3 (D 3)

Basta lembrar que D3 = P30

61002030 =⋅=pos (D3 está na segunda classe, pois é Fi = 12 é imediatamente superior a 6)

Da tabela temos: 8=l , 12L = , 7f i = e 8Fant = .

( ) ( ) 57,88127

5 68Pk =−⋅−+=

Então, o valor do Decil 3 é D3 = 8,54 SM)

4.4 – Cálculo do percentil usando gráfico de freqüê ncia acumulada (Ogiva de Galton)

<<<< incluir depois >>>>

Page 50: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 50 − prof. José Aguinaldo

4.5 – Construção do Boxplot (gráfico de caixa)

O gráfico boxplot (ou gráfico de caixa) é uma representação gráfica que descreve as seguintes características importantes de uma distribuição de dados: medida de posição central, medida de dispersão, desvio da simetria e identificação de valores atípicos ou extremos (outliers). Há duas formas de construir o boxplot. Uma delas é a construção do gráfico sem se preocupar com a identificação de valores extremos e a segunda com a identificação dos valores atípicos (caso existam).

o Boxplot sem identificação de valores atípicos ou extremos.

o Boxplot com identificação de valores atípicos ou extremos. Segundo o critério usado pelo boxplot, todo valor que não pertence ao intervalo [ ]DQDQ ⋅+⋅− 5,1 ; 5,1 31 é considerado um valor atípico (outlier) e é identificado no gráfico com o asterisco (*).

As linhas verticais em Q1 - 1,5⋅D e Q3 + 1,5⋅D não precisam estar no gráfico, elas só foram colocadas para ajudá-lo a visualizar os limites máximo e mínimo dos valores considerados “normais” (que não são valores extremos) . Quanto maior o comprimento da caixa maior é variabilidade dos dados, portanto a distância interquatílica (D) pode ser vista também como uma medida de dispersão, tal como são a variância e o desvio-padrão.

A linha se estende até o menor valor, desde que ele seja maior que Q1 − 1,5D

Q1 − 1,5D Q1 Q2 Q3 Q3 + 1,5D

D = Q3 – Q1

A linha se estende até o maior valor, desde que ele seja menor que Q3 +1,5D

* Valor atípico

Valores atípicos * *

Q1 Q2 Q3

D = Q3 – Q1

A linha se estende até o menor valor.

A linha se estende até o maior valor.

Page 51: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 51 − prof. José Aguinaldo

Os gráficos boxplot abaixo comparam as notas finais de uma disciplina em três turmas. A inspeção dos gráficos revela que existe uma grande variabilidade nas notas dos alunos na turma B e uma pequena variabilidade nas notas na turma A11. A performance foi melhor na turma A e pior na turma C12.

Existe um valor extremo (um aluno com uma nota muito grande) na turma A e um alunos com nota muito pequena na turma C. Não existe nenhum valor extremo em B.

Turma CTurma BTurma A

100

90

80

70

60

50

40

30

Notas finais

11 Observe que a caixa, na turma B, é mais comprida (maior D =distância interquatílica), enquanto que, na turma A, a caixa é menor em comprimento. 12 Observe a linha do meio (a linha da mediana), ela está em torno de 80 pts, na turma A, e em torno de 60 pts na turma C.

Page 52: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 52 − prof. José Aguinaldo

EXEMPLO 34 - Considere a renda per-capita para uma amostra de 9 famílias de cada região abaixo. Construa os gráficos boxplot para essas rendas e comente-os. Observe que alguns quartis já estão calculados. Quartis Região Rendimento familiar per capita (em SM) Q 1 Q2 Q3 Brasil 30 44 80 100 130 150 180 352 580 ? 130 180 São Paulo 50 82 150 180 208 250 300 500 650 150 208 300 Nordeste 10 15 55 65 68 75 80 192 300 55 68 ? FONTE: Dados hipotéticos SM (salário-minimo em 1999) = 136,00 reais

NordesteSão PauloBrasil

900

800

700

600

500

400

300

200

100

0

Salário-m

ímimo

*

Page 53: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 53 − prof. José Aguinaldo

4.6 −−−− Medida de Assimetria

Em algumas situações é interessante analisarmos a "forma" da distribuição, ou seja, como os dados se distribuem. Essa distribuição pode ser simétrica ou assimétrica em torno da média.

Na distribuição simétrica, as modas, a média e a mediana coincidem teoricamente, mas na prática elas tendem a coincidir. Então, se você tem um conjunto de dados, onde a média, mediana e moda são próximos uns dos outros é bem provável que a distribuição seja simétrica.

Na distribuição assimétrica à direita, a média tende a estar à direita da mediana, enquanto que na distribuição assimétrica à esquerda, a média tende a estar à esquerda da mediana (veja as "formas" teóricas na figura abaixo). Então, se você tem um conjunto de dados, onde a média é bem maior do que a mediana é provável que seus dados apresentem assimetria à direita, por outro lado se a média for bem menor do que a mediana, então provavelmente seus dados apresentam assimetria à esquerda.

Uma medida simples da assimetria em torno da média é o índice de assimetria de Pearson, representado por As . Ele utiliza a média simples ( x ), a mediana (Md) e o desvio-padrão (dp)

( )dp

Mdx3As

−⋅=

FONTE: Mário Triola – Introdução à Estatística (9ª. edição)

Coeficiente quartílico de assimetria

O coeficiente quartílico de assimetria (IQ) é uma outra medida de assimetria, mas que usa apenas os três quartis (Q1, Q2 = Md e Q3).

( )13

13

QQ

QMd2QIQ

−+−

=

Page 54: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 54 − prof. José Aguinaldo

Classificação da assimetria com base no valor do índice de assimetria Pearson (As) A assimetria será negativa se As < 0 e positiva se As > 0. A intensidade da assimetria é determinada pela magnitude de As . Se:

• As ≈ 0 A distribuição não tem assimetria (ou seja, ela é simétrica ) • 15,0As < Distribuição tem uma fraca assimetria

• 1As15,0 << Distribuição tem uma moderada assimetria

• 1As > Distribuição tem uma forte assimetria

OBS: As = módulo de As

EXEMPLO 35 - Em cada distribuição abaixo, calcule o coeficiente de assimetria de Pearson e identifique o tipo de assimetria dos dados.

Distribuição 1 Distribuição 2 Distribuição 3 média = 9,95 mediana = 9,90 desvio-padrão = 1,90

média = 2,38 mediana = 2,23 desvio-padrão = 1,03

média = 0,85 mediana = 0,94 desvio-padrão = 0,19

Solução ------------------------------------------- -----------------------------------------------------------------------

Distribuição 1: ( )

90,1

90,995,93As

−⋅= = 0,08 → Fraca assimetria positiva

Distribuição 2: ( )

03,1

23,238,23As

−⋅= = 0,44 → Moderada assimetria positiva

Distribuição 3: ( )

19,0

94,085,03As

−⋅= = -1,42 → Forte assimetria negativa

-1 -0,15 0 +0,15 +1 Moderada assimetria

Fraca assimetria

Forte assimetria

Moderada assimetria

Forte assimetria

Assimetria negativa Assimetria positiva

Page 55: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 55 − prof. José Aguinaldo

Relação entre gráfico Boxplot e a assimetria de uma distribuição Abaixo estão exibidas quatro distribuições teóricas hipotéticas destacando a assimetria de cada uma e comparando-as com o gráfico boxplot.

FONTE: Estatística – Teoria e Aplicações à Estatística . Levine, Stephan, Khehbiel, Berenson, 3ª edição

Se a linha no meio (que representa a mediana) do gráfico boxplot estiver bem no centro da caixa é provável que os dados venham de uma distribuição simétrica (ver painel A).

Caso a linha do meio esteja mais próxima do terceiro quartil (Q3) é provável que os dados venham de uma distribuição com assimetria negativa (ver painel B).

Caso a linha do meio esteja mais próxima do primeiro quartil (Q1) é provável que os dados venham de uma distribuição com assimetria positiva (ver painel C).

Page 56: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 56 − prof. José Aguinaldo

4.7 −−−− Medida de Curtose

A curtose ou excesso é o grau de achatamento de uma distribuição em relação a uma curva padrão, denominada de curva normal. A medida de curtose nos informa se uma curva está mais achatada que a curva normal, ou se ela é mais esticada.

Tipos de curtose

• Leptocúrtica: A curva da distribuição é mais esticada do que a curva normal, ou seja, ela é mais delgada.

• Mesocúrtica: A curva da distribuição é bem semelhante à curva normal.

• Platicúrtica: A curva da distribuição é mais achatada do que a curva normal

Leptocúrtica (mais esticada)

Mesocúrtica (semelhante a Normal)

Platicúrtica (mais achatada)

Para medir a curtose podemos usar o coeficiente percentílico de curtose , cuja fórmula é:

( )1090

13

PP2

QQC

−−

=

0,263

C < 0,263 Curva Leptocúrtica

C > 0,263 Curva Platicúrtica

Curva Mesocúrtica

Page 57: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 57 − prof. José Aguinaldo

EXEMPLO 36 - As medidas abaixo se relacionam a três distribuições de freqüência. Calcule o grau de curtose e classifique o tipo de curtose.

Distribuições P 10 P25 P50 P75 P90

A 772 814 895 935 1012 B 55,0 63,7 75,2 80,3 86,6 C 20,5 28,8 40,5 45,6 49,8

Solução ------------------------------------------- -----------------------------------------------------------------------

Distribuição A: A curva é do tipo Leptocúrtica, pois C < 0,263

( )77210122

814935C

−⋅−= = 0,252

Distribuição B: A curva é do tipo Mesocúrtica, pois C = 0,263

( )0,556,862

7,633,80C

−⋅−= = 0,263

Distribuição C : A curva é do tipo Platicúrtica, pois C > 0,263

( )5,208,492

8,286,45C

−⋅−= = 0,287

Page 58: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 58 − prof. José Aguinaldo

4.8 - Exercícios propostos

EXERCÍCIO 18 - Um jornal anunciou que uma pessoa gasta, em média, 45 minutos por dia ouvindo música (The Des Moines Register, 5 de Dezembro de 1997). Os seguintes dados foram obtidos para o número de minutos gastos ouvindo música em uma amostra de 30 indivíduos.

88,3 4,3 4,6 7 9,2 0 99,2 34,9 81,7 0 85,4 0 17,5 45 53,3 29,1 28,8 0 98,9 64,5 4,4 67,9 94,2 7,6 56,6 52,9 145,6 70,4 65,1 63,6

a) Calcule a mediana do tempo ouvindo música b) Calcule os três quartis do tempo ouvindo música. c) Escreva uma frase interpretando o valor do terceiro quartil obtido acima.

EXERCÍCIO 19 - Abaixo estão listados os salários (em reais) de 12 funcionários de uma empresa.

funcionário 1 2 3 4 5 6 7 8 9 10 11 12 salário 2210 2255 2825 2350 2380 2390 2420 2380 2440 2450 2550 2630

a) Se a empresa determinou que os funcionários com salários inferiores ao Decil 4 (D4)

receberiam aumento salarial. Quais desses funcionários receberiam o aumento? b) Classifique o salário 2.825 reais como sendo "usual" ou "raro" usando o z-escore.

Justifique. c) Salários fora do intervalo [Q1 – 1,5*D ; Q3 + 1,5*D ], com D = Q3 –Q1, são considerados

atípicos (outliers) em relação aos demais salário. Dos funcionários amostrados, liste (se houver) os funcionários com rendimentos considerados muito pequenos ou grandes.

d) Uma outra forma de verificar valores atípicos é verificar se há valores fora do intervalo

[ dp2x;dp2x ⋅+⋅− ]. Dos funcionários amostrados, liste (se houver) os funcionários com salários considerados atípicos.

EXERCÍCIO 20 - tabela abaixo mostra a duração do casamento (em anos) de uma amostra de 500 divórcios ocorridos em uma cidade.

a) Calcule os três quartis da duração de casamentos. b) Calcule o indice de assimetria e Perason (As) e o coeficiente quartílico de assimetria

(IQ). Com base nestes índices, qual a “forma” de distribuição dos dados? c) Com base no coeficiente percentílico de Pearson, qual o tipo de curtose dos dados?

Anos de casamentos

Quantidade de divórcios (fi)

0 | 6 280 6 | 12 140 12 | 18 60 18 | 24 15 24 | 30 5

Page 59: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 59 − prof. José Aguinaldo

4.9 - Exercícios resolvidos

QUESTÃO 1 - O Sr. José anotou o saldo (em reais) em sua conta corrente no final de cada mês durante o segundo semestre de 20xx. Considere este dados como se fosse uma amostra.

-100 150 -80 150 203 -200 a) Calcule as medidas de posição central usuais para o saldo: média amostral, mediana

amostral e a moda.

b) Calcule as medidas de dispersão usuais para o saldo: variância amostral, desvio-padrão amostral, amplitude e coeficiente de variação.

c) Calcule as seguintes medidas de posição não-central para o saldo: Percentil 80 (P80) e o primeiro quartil (Q1).

Solução ------------------------------------------- ------------------------------------------------------------------------

a) Calcule as medidas de posição central usuais para o saldo: média amostral, mediana amostral e a moda.

Repare que temos dados brutos, ou seja dados individuais que não estão agrupados em tabela de freqüência.

Considerando que os saldos acima representam uma amostra, então:

• Media amostral – È a média aritmética simples dos dados

5,206

123

6

)200(203150)80(150)100(

n

xx

i==−+++−++−== ∑ reais

• Mediana amostral – É o valor que está no centro do conjunto de dados ORDENADO

Primeiro vamos ordenar os dados

-200 -100 -80 150 150 203

Como o conjunto tem seis valores (n = 6), não teremos um único valor central e sim DOIS valores centrais. A mediana, portanto será a média entre estes dois valores.

Md = (-80 + 150) / 2 = 35 reais

Lembre-se Se n = par � A mediana será a média dos dois valores centrais

Se n = ímpar � A mediana será o único valor central

• Moda (mo) - É o valor que apresenta maior frequencia

mo = 150 reais (valor que repete mais, ou seja, que aparece mais vezes)

Page 60: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 60 − prof. José Aguinaldo

b) Calcule as medidas de dispersão usuais para o saldo: variância amostral, desvio-padrão amostral, amplitude e coeficiente de variação.

Considerando que os saldos acima representam uma amostra , então:

• Variância amostral:

( ) ( ) ( ) ( )

2

222222

222222

2n

22

21

2i2

(reais) 5,280175

5,14008716

)5,220()5,182()5,129()5,100()5,129()5,120(

16

)5,20200()5,20203()5,20150()5,2080()5,20150()5,20100(

1n

xxxxxx

1n

xxs

==

−−+++−++−

=

−−−+−+−+−−+−+−−

=

−−+−+−

=−

−= ∑ L

• Desvio-padrão amostral:

reais 38,167 28017,5iânciavars ===

• Amplitude

At = Maior – Menor = [ 203 – (-200) ] = 403 reais

• Coeficiente de variação

CV = DesvioPadrão / média = 167,38 / 20,5 = 8,17 (ou 817%)

OBS: Quando temos nos dados valores positivos e negativos, a média costuma ser muito pequena em relação ao desvio-padrão. Nestes casos, não é comum calcular o CV, pois seu valor poderá ser muito alto (como foi neste exemplo).

c) Calcule as seguintes medidas de posição não-central para o saldo: Percentil 80 (P80), Percentil 50 (P50) e o primeiro quartil (Q1).

Para calcular percentil e quartil precisamos ordenar os dados antes.

-200 -100 -80 150 150 203

• Percentil 80 (P 80)

Precisamos calcular a posição do P80

pos = 80*6/100 = 4,8 (como 4,8 não é um valor inteiro, vamos arredonda-lo para o próximo inteiro. Então P80 será o 5º valor)

Page 61: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 61 − prof. José Aguinaldo

P80 = 150 reais (Interpretação : Cerca de 80% das vezes o saldo do Sr. José será menor ou igual que 203 reais)

• Percentil 50 (P 50)

Precisamos calcular a posição do P50

pos = 50*6/100 = 3 (como 3 é um valor inteiro, então o percentil será a média entre o 3º e 4º valor. Então, P80 será o 5º valor)

P50 = (-80 + 150) / 2 = 35 reais Interpretação : Cerca de 50% das vezes o saldo do Sr. José será menor ou igual a 35 reais

• Primeiro quartil (Q 1) ATENÇÃO : Lembre-se de que o Q1 = P25 (percentil 25)

Precisamos calcular a posição do P25

pos = 25*6/100 = 1,5 (como 1,5 não é um valor inteiro, vamos arredonda-lo para o próximo inteiro. Então, Q1 será o 2º valor)

Q1 = -100 reais (Interpretação : Cerca de 25% das vezes o saldo do Sr. José será menor ou

igual a -100 reais)

-200 -100 -80 150 150 203

Q1 P80 P50 será a média entre os valores -80 e 150

Page 62: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 62 − prof. José Aguinaldo

QUESTÃO 2 - O histograma abaixo mostra a distribuição das notas obtidas pelos alunos na primeira prova presencial de Estatística em 2007 no curso virtual de Ciências Contábeis. a) Usando os dados do histograma construa uma tabela de freqüência com a a freqüência

absoluta simples (fi), a freqüência relativa simples (fri), a freqüência absoluta acumulada (Fi) e a freqüência relativa acumulada (Fri).

b) Calcule a média e o desvio-padrão dos pontos obtidos pelos alunos. c) Calcule a mediana (Md) e o terceiro quartil (Q3) dos pontos obtidos pelos alunos. Escreva

uma frase interpretando o Q3. d) Qual a moda (usando método de Czuber) dos pontos obtidos pelos alunos. e) Compare a variabilidade das notas obtidas pelos alunos com a variabilidade do saldo na

conta corrente do Sr. José (QUESTÃO 1). Onde ocorreu a maior variabilidade? Qual a medida estatística que você usou para comparar as variabilidades?

Solução ------------------------------------------- ------------------------------------------------------------------------ a) Usando os dados do histograma construa uma tabela de freqüência com a a freqüência

absoluta simples (fi), a freqüência relativa simples (fri), a freqüência absoluta acumulada (Fi) e a freqüência relativa acumulada (Fri).

Os pontos dos alunos foram divididos em cinco classes (intervalos) com a mesma amplitude. A primeira classe é a 0 | 6 pontos e a última é 24 | 30 pontos. O eixo vertical representa a quantidade de alunos. A tabela que representa o histograma acima é:

Tabela: Distribuição dos pontos obtidos

Pontos obtidos

Número de

alunos f i

fr i

(em %) Fi Fr i

(em %)

0 | 6 7 7,3% 7 7,3% 6 | 12 8 8,3% 15 15,6% 12 | 18 34 35,4% 49 51,0% 18 | 24 25 26,0% 74 77,0% 24 | 30 22 23,0% 96 100%

Total 96 100% - -

3024181260

35

30

25

20

15

10

5

0

Pontos obtidos na primeira prova presencial

Número de alunos

22

25

34

87

Page 63: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 63 − prof. José Aguinaldo

a) Calcule a média, a mediana e o desvio-padrão dos pontos obtidos pelos alunos.

Note que agora temos os dados agrupados em TABELA DE FREQÜÊNCIA COM CLASSE. Para calcular a média, mediana e o desvio-padrão iremos precisar calcular inicialmente o ponto médio de cada classe (xi) e depois os produtos xi*fi, xi

2*fi

Vamos usar a tabela de freqüência

Pontos obtidos

Número de alunos

f i

x i

x i·fi

x i

2·f

0 | 6 7 3 21 63 6 | 12 8 9 72 648 12 | 18 34 15 510 7650 18 | 24 25 21 525 11025 24 | 30 22 27 594 16038

Total ΣΣΣΣ f i = 96 -- 1722 35424

Para ver como foram feitos os cálculos, pegaremos a quarta classe como referência. Quarta classe: 18 | 24 xi = (24 + 18)/2 = 21 (ponto médio da 4ª classe) xi·fi = 21*25 = 525 xi

2·f = (21)2*25 = 11025 Do total da tabela temos: n = Σ f i = 96 Σ x i·fi = 1.722 e Σ x i

2·fi = 35.424

• Media amostral:

94,1796

722.1

f

]fx[x

i

ii ===∑∑

pontos

• Variância amostral (s 2) e desvio-padrão amostral (s)

Lembre-se de que o desvio-padrão é a raiz quadrada da variância.

Variância amostral: ( )

74342,4796

172235424

196

1

n

fxfx

1n

1s

2

2

ii

i2i

2 =

−⋅

−=

−⋅−

=∑

Desvio-padrão amostral: 91,674342,47s == pontos

RESPOSTA: A média amostral foi 17,94 pontos e o desvio-padrão amostral foi 6,91 pontos.

Page 64: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 64 − prof. José Aguinaldo

b) Calcule a mediana (Md) e o terceiro quartil (Q3) dos pontos obtidos pelos alunos. Escreva

uma frase interpretando o Q3.

• Mediana amostral (Md) Como estamos trabalhando com tabela de freqüência, vamos usar a fórmula

( )***i

*ant

* Lf

F

Md ll −⋅

−+=

2

n

Posição da Md: pos = n/2 = 96/2 = 48 A classe onde está Md é a classe com freqüência absoluta acumulada (Fi) imediatamente superior a 48. Portanto, seria a 3ª classe (12 | 18 )

Da classe temos: =*l 12, =*L 18, =*

if 34 e =*antF 15 (Fi da classe anterior)

( )***i

*ant

* Lf

F

Md ll −⋅

−+=

2

n

( ) ( ) =−⋅−+= 121834

154812

17,82 pontos

• Terceiro quartil (Q 3) Lembre-se de que o Q3 = P75 (percentil 75)

Posição do Q3: pos = 75*96/100 = 72 A classe onde está Q3 é classe com freqüência acumulada (Fi) imediatamente superior a pos = 72. Portanto, a classe é quarta classe (18 | 24).

Da classe temos: =*l 18, =*L 24, =*

if 25 e =*antF 49 (Fi da classe anterior)

( ) ( )**

*i

*ant*

3 Lf

F pos Q ll −⋅

−+= ( ) ( ) =−⋅−+= 1824

25

49 7218 23,52 pontos

INTERPRETAÇÃO: Cerca de 75% dos alunos obtiveram notas menores ou iguais a 23,52 pontos. c) Qual é a moda (usando método de Czuber) dos pontos obtidos pelos alunos. Primeiro vamos identificar a classe modal que é a aquela com maior freqüência absoluta (fi) Classe modal: 3ª classe (12 | 18)

Da classe modal temos: =*l 12, =*L 18, =*

if 34, =antf 8 e =posf 25.

anti1 ffD −= = 34 – 8 = 26

posi2 ffD −= = 34 – 25 = 9

( )**

21

1* LDD

D Mo ll −⋅

++= ( ) =−⋅

++= 1218

926

2612 16,46 pontos

Page 65: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 65 − prof. José Aguinaldo

d) Compare a variabilidade das notas obtidas pelos alunos com a variabilidade do saldo na

conta corrente do Sr. José (QUESTÃO 1). Onde ocorreu a maior variabilidade? Qual a medida estatística que você usou para comparar as variabilidades?

Solução ------------------------------------------- ------------------------------------------------------------------------ NOTAS: média = 17,94 pts desvio-padrão = 6,91 pts

SALDO: média = 20,5 reais desvio-padrão = 167,38 reais

Como se trata de variáveis com unidades de medidas diferentes (um é em pontos e o outro é em reais), então não há como usar o desvio-padrão para comparar a variabilidade. Devemos, portanto, usar o coeficiente de variação (CV) NOTAS: CV = 6,91 / 17,94 = 0,38 (ou 38%)

SALDO: CV = 167,38 / 20,5 = 8,16 (ou 816%)

A maior variabilidade ocorreu nos saldos , pois o seu CV é maior.

QUESTÃO 3 - Em uma empresa com 15 funcionários, o salário médio era de R$ 1.800,00. O gerente que ganhava R$ 15.000,00 foi demitido.

a) Qual a média salarial dos funcionários que permaneceram? Houve uma grande diferença no salário médio desta empresa com o gerente e sem o gerente?

b) Você acha justo dizer (antes de o gerente sair) que os funcionários ganhavam em média R$ 1.800,00?

Solução ------------------------------------------- ------------------------------------------------------------------------

a) Qual a média salarial dos funcionários que permaneceram? Houve uma grande diferença no salário médio desta empresa com o gerente e sem o gerente?

Se o salário médio dos 15 era 1800, então os 15 juntos ganhavam um salário total de 15*1800 = 27000 reais. Se o gerente saiu, e ele ganhava 15000, então os 14 funcionários que ficaram passaram a ganhar 27000 – 15000 = 12000 reais. Portanto, a média agora será

média = 12000 / 14 = 857,14 reais

média = 857,14 reais

b) Você acha justo dizer (antes de o gerente sair) que os funcionários ganhavam em média R$ 1.800,00?

Não acho que 1800 reais fosse uma média salarial que melhor representasse os salários daqueles funcionários. O alto salário do gerente era o responsável pela média salarial ser tão alta.

Page 66: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 66 − prof. José Aguinaldo

QUESTÃO 4 - Considerando a amostra x = {62, 75, b, 78, 82, 64} e que a média amostral é 5,69x = , determine a o valor de ‘b’.

Solução ------------------------------------------- ------------------------------------------------------------------------

5,696

648278b7562

n

xx

i=+++++=== ∑

361 + b = 6*69,5 361 + b = 417 b = 417 – 361 b = 56

Page 67: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 67 − prof. José Aguinaldo

5 - Anexo

Diferenças entre a média amostral e populacional e desvio-padrão amostral e populacional

Na grande maioria das vezes os dados que temos representam uma amostra retirada de uma população de interesse. E se, de repente, os nossos dados representarem uma população, como iremos calcular a média populacional, a variância populacional e o desvio-padrão populacional?

Média

Média populacional (µ)

N

xxx

N

xN

N

ii

+++==µ

∑= L211

Média amostral ( x )

n

xxx

n

x

x n

n

ii

+++==

∑= L211

Na realidade, para as médias a única diferença é na notação usada: µ para média populacional e x para média amostral.

Variância

Variância populacional (σ2)

( )

N

xN

ii∑

=

µ−

=σ 1

2

2

Variância amostral (s2)

( )

11

2

2

=∑

=

n

xx

s

n

ii

Além da diferença na notação usada (σ2 para variância populacional e s2 para variância amostral) note que no denominador de σ2 usa-se N, enquanto que s2 o usa-se n – 1.

Desvo-padrão

Desvio-padrão populacional (σ)

( )

N

xN

ii∑

=

µ−

=σ 1

2

desvio-padrão amostral (s)

( )

11

2

=∑

=

n

xx

s

n

ii

EXEMPLO: Imaginem um país hipotético com apenas 4 estados, com os valores representando o PIB (em milhões de dólares) de cada estado.

6 10 16 12

Já que só tem 4 estados, os valores acima representam a população de todos os estados daquele país (N = 4). Neste caso, a média populacional, a variância populacional e o desvio-padrão populacional são:

Média populacional: 114

44

4

1216106

4

4

1 ==+++==µ∑

=iix

milhões (PIB médio destes estados)

Page 68: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 68 − prof. José Aguinaldo

Variância populacional:

( )

N

xN

ii∑

=

µ−

=σ 1

2

2 =( ) ( ) ( ) ( )

4

111211161110116 2222 −+−+−+−

= 134

52

4

125125 ==+++

Desvio-padrão populacional:

( )iância

N

xN

ii

var1

2

=

µ−

=σ∑

= = 13 = 3,61 milhões

EXEMPLO: Imaginem um país hipotético com vários estados, onde apenas 4 estados foram sorteados aleatoriamente (amostra de 4 estrados) e registrado o PIB (em milhões de dólares) de cada um deles.

6 10 16 12

Como os 4 estados foram sorteados de uma população de vários estados, então os valores acima vêm de uma amostra (n = 4) e não de uma população . Neste caso, a média amostral, a variância amostral e o desvio-padrão amostral são:

Média amostral: 114

44

4

1216106

4

4

1 ==+++==∑

=iix

x milhões (PIB médio destes estados)

Variância amostral:

( )

11

2

2

=∑

=

n

xx

s

n

ii

=( ) ( ) ( ) ( )

14

111211161110116 2222

−−+−+−+−

= 33,173

52

3

125125 ==+++ milhões2

Desvio-padrão amostral:

( )iância

n

xx

s

n

ii

var1

1

2

=−

=∑

= = 33,17 = 4,16 milhões

Observem que, ao calcular a variância amostral, o denominador foi n −−−− 1

Page 69: Unidade_03_Medidas_Descritivas_2011.1Sem

Unidade 03 – Medidas Estatísticas

Estatística Básica − 69 − prof. José Aguinaldo

6 - Bibliografia

• CRESPO, A. A. Estatística Fácil, São Paulo: Saraiva, 2000. • TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatística básica . 2. ed. São Paulo:

Atlas, 1981. • LEVINE, David M.; STEPHAN, David; KREHBIEL, Timothy C.; BERENSON, Mark L..

Estatística: Teoria e Aplicações usando Microsoft E xcel em Português . 3 ed.. Rio de Janeiro - RJ: LTC - Livros Técnicos e Científicos. 2005.

• TRIOLA, Mario F. Introdução à estatística . Rio de Janeiro: LTC - Livros Técnicos e Científicos, c2005. 656p.

• BARBETTA, P. A.; REIS, M. M.; BORNIA, A. C. Estatística para cursos de engenharia e informática . 1 ed. São Paulo: Atlas. 2004.