aula06

46

description

Aula 06, referente a alguma coisa.

Transcript of aula06

Page 1: aula06

Análise Exploratória de DadosAula 06

MEDIDAS DE POSIÇÃO

Prof. Hemílio Fernandes Campos Coêlho

5 de Maio de 2014

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 2: aula06

Medidas de Posição

Vimos anteriormente a sintetização dos dados sob a forma detabelas, grá�cos e distribuições de frequências. Aqui, vamosaprender o cálculo de medidas que possibilitem representar umconjunto de dados (valores de uma variável quantitativa, isto é,informações numéricas), relativos à observação de determinadofenômeno de forma reduzida.

Estes índices estatísticos são as Medidas de Posição que sãotambém chamadas de medidas de tendência central eestabelecem valores em torno dos quais os dados se distribuem.Dizemos ainda que esse nome é dado pelo fato dos dadosobservados tenderem, em geral, a se concentrar em torno de valorescentrais.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 3: aula06

Média Aritmética

Utilizaremos o símbolo µ para denotar a média populacional, isto é,a média da variável de interesse observada para todos os indivíduosda população, e, utilizaremos o símbolo X para denotar a média davariável de interesse na amostra.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 4: aula06

Média Aritmética Simples

Se dispomos de um conjunto de valores (ordenados ou não) podemoscalcular sua média aritmética simples por

µ =

∑N

i=1Xi

N=

X1 + . . .+ XN

N,

no caso populacional, em que N representa o número de indivíduos dapopulação. Ou, por

X =

∑n

i=1Xi

n=

X1 + . . .+ Xn

n,

no caso amostral, em que n representa o número de indivíduos daamostra.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 5: aula06

continuação

Exemplo: Abaixo, temos uma amostra de 10 crianças de 5 anos deidade, com dados referentes a seus pesos (em Kg).

23, 0 20, 2 22, 0 19, 0 25, 028, 8 24, 0 21, 0 27, 0 21, 0

Temos que n = 10 e obtemos X através de

X =23, 0+ 20, 2+ 22, 0+ 19, 0+ 25, 0+ 28, 8+ 24, 0+ 21, 0+ 27, 0+ 21, 0

10

=230, 0

10= 23, 0.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 6: aula06

Média Aritmética Ponderada

Caso sejam atribuídos �pesos� ou �ponderações� às observações, podemoscalcular sua média aritmética simples por

µ =

∑N

i=1wiXi∑N

i=1wi

=w1X1 + . . .+ wNXN

w1 + . . .+ wN

,

no caso populacional, em que N representa o número de indivíduos dapopulação e w1, . . . ,wN são os pesos das observações. Ou, por

X =

∑n

i=1wiXi∑n

i=1wi

=w1X1 + . . .+ wnXn

w1 + . . .+ wn

,

no caso amostral, em que n representa o número de indivíduos daamostra e w1, . . . ,wn são os pesos das observações.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 7: aula06

continuação

Exemplo: Sejam as notas de 5 provas de um aluno de estatística eos pesos atribuídos a cada prova:

Notas 7, 0 3, 7 4, 9 6, 6 7, 2Pesos 1 1 2 3 3

A média aritmética ponderada das notas pode ser obtida por

X =7, 0× 1 + 3, 7× 1 + 4, 9× 2 + 6, 6× 3 + 7, 2× 3

1 + 1 + 2 + 3 + 3

=7, 0 + 3, 7 + 9, 8 + 18, 8 + 21, 6

10=

61, 910

= 6, 19.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 8: aula06

Média Aritmética de Dados TabuladosNão-agrupados em Classes

Quando os dados estão dispostos em uma tabela de freqüências porvalores, a média aritmética pode ser obtida através de

µ =

∑ki=1 fiXi∑ki=1 fi

=f1X1 + . . .+ fkXk

f1 + . . .+ fk=

f1X1 + . . .+ fkXk

N,

no caso populacional, em que N representa o número de indivíduosda população (Note que

∑ki=1 fi = N) e f1, . . . , fk são as

freqüências simples absolutas dos k valores. Ou, por

X =

∑ki=1 fiXi∑ki=1 fi

=f1X1 + . . .+ fkXk

f1 + . . .+ fk=

f1X1 + . . .+ fkXk

n,

no caso amostral, em que n representa o número de indivíduos daamostra (Note que

∑ki=1 fi = n) e f1, . . . , fk são as freqüências

simples absolutas dos k valores.Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 9: aula06

continuação

Exemplo:

Tabela: Número de dentes com cárie em amostra de crianças de 7 anosde idade da segunda série do colégio XYZ. Setembro de 2007

No de dentes com cárie fi fiXi

0 3 01 2 22 4 83 2 64 1 45 1 5Σ 13 25

Fonte: Dados Hipotéticos

Obtemos o número médio de dentes com cárie por

X =3× 0 + 2× 1 + 4× 2 + 2× 3 + 1× 4 + 1× 5

3 + 2 + 4 + 2 + 1 + 1

= 25/13 = 1, 923.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 10: aula06

Média Aritmética de Dados Tabulados Agrupadosem Classes

Quando os dados estão dispostos em uma tabela de freqüências porclasses, a média aritmética pode ser obtida através de

µ =

∑ki=1 fixi∑ki=1 fi

=f1x1 + . . .+ fkxk

f1 + . . .+ fk=

f1x1 + . . .+ fkxk

N,

no caso populacional, em que os xi 's são os pontos médios dasclasses, N representa o número de indivíduos da população (Noteque

∑ki=1 fi = N) e f1, . . . , fk são as freqüências simples absolutas

das k classes. Ou, por

X =

∑ki=1 fixi∑ki=1 fi

=f1x1 + . . .+ fkxk

f1 + . . .+ fk=

f1x1 + . . .+ fkxk

n,

no caso amostral, em que os xi 's são os pontos médios das classes,n representa o número de indivíduos da amostra (Note que∑k

i=1 fi = n) e f1, . . . , fk são as freqüências simples absolutas das kclasses.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 11: aula06

continuação

Exemplo:

Tabela: Casos de AIDS (×1000) segundo faixa etária. Recife, 1993

Faixa Etária fi xi fixi15 ` 25 25 20 50025 ` 35 30 30 90035 ` 45 15 40 60045 ` 55 10 50 500

Σ 80 2500Fonte: Dados Hipotéticos

Neste exemplo, podemos obter a média aritmética fazendo

X =25× 20 + 30× 30 + 15× 40 + 10× 50

25 + 30 + 15 + 10

=500 + 900 + 600 + 500

80=

250080

= 31, 25.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 12: aula06

Propriedades da Média Aritmética

P1) A soma dos desvios com relação à média é nula, isto é,

n∑i=1

(Xi − X ) = 0.

Prova: Seja X1, . . . ,Xn um conjunto de n valores. A média

aritmética desse conjunto pode ser obtida por X =∑

n

i=1 Xi

n.

Podemos escrever∑n

i=1(Xi − X ) como

n∑i=1

(Xi − X ) =n∑i=1

Xi −n∑i=1

X =n∑i=1

Xi − nX

=n∑i=1

Xi − n

∑ni=1 Xi

n=

n∑i=1

Xi −n∑i=1

Xi = 0.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 13: aula06

continuação

P2) Somando-se ou subtraindo-se uma constante (a) a todos osvalores do conjunto, a média �ca aumentada ou diminuida dessaconstante.

Prova: Seja X1, . . . ,Xn um conjunto de n valores. A médiaaritmética desse conjunto pode ser obtida por X = X1+...+Xn

n. Seja

agora, um conjunto Y1, . . . ,Yn onde cada Yi , i = 1, . . . , n éde�nido por Yi = Xi + a, ou seja,

Y1 = X1 + a; Y2 = X2 + a ; . . . ;Yn = Xn + a.

A média do conjunto Y1, . . . ,Yn pode ser obtida por

Y =Y1 + Y2 + . . .+ Yn

n=

X1 + X2 + . . .+ Xn +

n termos︷ ︸︸ ︷a + a + . . .+ a

n

=X1 + . . .+ Xn

n+

n · an

= X + a.

Observação: A prova para a subtração é análoga.Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 14: aula06

continuação

P3) Multiplicando-se ou dividindo-se uma constante (b) a todos osvalores do conjunto, a média �ca multiplicada ou dividida por essaconstante.

Prova: Seja X1, . . . ,Xn um conjunto de n valores. A médiaaritmética desse conjunto pode ser obtida por X = X1+...+Xn

n. Seja

agora, um conjunto Y1, . . . ,Yn onde cada Yi , i = 1, . . . , n éde�nido por Yi = b · Xi , ou seja,

Y1 = b · X1; Y2 = b · X2; . . . ; Yn = b · Xn.

A média do conjunto Y1, . . . ,Yn pode ser obtida por

Y =Y1 + Y2 + . . .+ Yn

n=

b · X1 + b · X2 + . . .+ b · Xnn

=b · (X1 + . . .+ Xn)

n= b · X1 + . . .+ Xn

n= b · X .

Observação: A prova para a divisão é análoga.Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 15: aula06

Vantagens e desvantagens da média

à a medida mais conhecida e de maior uso;

√É facilmente calculável;

√Pode ser tratada algebricamente;

√Serve para compararmos conjuntos semelhantes;

√É particularmente indicada para dados que possuem os valoressimétricos em relação a um valor médio e de frequência máxima(um histograma pode ajudar nessa identi�cação);

× É uma medida de tendência central que por uniformizar os valoresde um conjunto de dados, não representa bem os conjuntos querevelam tendências extremas. Ou seja, é grandemente in�uenciadapelos valores extremos (grandes) do conjunto;

× Não pode ser calculada para distribuições de freqüências com limitesindeterminados (inde�nidos);

× Só deve ser utilizada quando a distribuição dos dados for simétrica(normal ou Gaussiana).

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 16: aula06

Mediana

A mediana de um conjunto de dados, que denotaremos por Md ,pode ser de�nida como o valor que divide a série ordenada em duaspartes iguais, em relação à quantidade de elementos. Em outraspalavras, é o valor que ocupa o centro da distribuição, ou seja, 50%dos elementos da série são menores do que ela e 50% doselementos da série são maiores do que ela.

Exemplo: No Rol, temos:

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 17: aula06

continuação

Podemos encontrar o elemento mediano de um conjunto de dadosda seguinte forma:

1) Se n é ímpar: a mediana será o elemento que ocupar a posiçãon+12

no rol, ou seja, EMd = n+12

, em que EMd representa oelemento mediano.

Exemplo: Sejam X1 = 2, X2 = −2, X3 = 6, X4 = 1 e X5 = 3.Ordenando os valores temos, −2, 1, 2, 3, 6. O elemento mediano édado por EMd = n+1

2= 5+1

2= 6

2= 3. Ou seja, a mediana será o

valor que ocupar a posição 3 do rol. Daí, concluimos que Md = 2.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 18: aula06

continuação

2) Se n é par: a mediana será a média aritmética simples doselementos que ocuparem as posições n

2e n

2+ 1. Ou seja, teremos

dois elementos centrais ou dois elementos medianos, dados por1oEMd = n

2e 2oEMd = n

2+ 1.

Exemplo: Sejam X1 = 2, X2 = −2, X3 = 6, X4 = 1, X5 = 3 eX6 = 5. Ordenando os valores temos, −2, 1, 2, 3, 5, 6. Oselementos centrais são dados por 1oEMd = n

2= 6

2= 3 e

2oEMd = n2

+ 1 = 62

+ 1 = 3 + 1 = 4. A mediana será a médiaaritmética simples entre os valores que ocuparem as posições 3 e 4,ou seja, Md = 2+3

2= 5

2= 2, 5.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 19: aula06

Mediana de Dados Tabulados Não-agrupados emClasses

Em tabelas de freqüências com valores não agrupados em classespodemos obter a mediana dos valores observando as freqüênciasacumuladas �abaixo de� (absolutas ou relativas).

Primeiramente, veri�camos se o número de observações é par ou ímpar eobtemos o elemento mediano (ou os elementos medianos, dependendo sen é ímpar ou par), utilizando para isso, os métodos apresentados para ocaso em que temos dados não tabulados. Em seguida, acrescentamos acoluna das freqüências acumuladas �abaixo de� (absolutas ou relativas) e,observando essas freqüências, determinamos a mediana.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 20: aula06

continuação

Exemplo: Obter a mediana dos valores da tabela a seguir. Temosque n = 13 é ímpar, logo, EMd = n+1

2= 13+1

2= 7. Assim, a mediana

será o elemento que ocupar a posição 7 do conjunto de valores.Observando a coluna das freqüências acumuladas �abaixo de�, veri�camosque até o segundo valor (Xi = 1) existem 5 observações, ou seja, amediana não pode ser 1, pois a mediana é o valor que ocupa a posição 7.Até o terceiro valor (Xi = 2) existem 9 observações e concluimos queMd = 2.

Xi fi F ab

i

0 3 31 2 52 4 93 2 114 1 125 1 13Σ 13

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 21: aula06

Mediana de Dados Tabulados Agrupados emClasses

Obtemos o elemento mediano através de EMd = n2, não fazendo

distinção entre n par ou ímpar. A partir daí, determinamos a classemediana, isto é, a classe que contém a mediana. Assim, a medianaé obtida por interpolação, de acordo com a seguinte fórmula

Md = LIMd +

(Emd − F ab

ant

fMd

)· h,

onde:LIMd é o limite inferior da classe mediana;F abant é a freqüência absoluta acumulada �abaixo de� da classe

anterior à classe mediana;fMd é a freqüência absoluta simples da classe mediana;h é a amplitude dos intervalos de classe.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 22: aula06

continuação

Exemplo: Determinar a mediana dos dados apresentados na tabelaabaixo.

Tabela: Casos de AIDS (×1000) segundo faixa etária. Recife, 1997

Faixa Etária fi F abi

15 ` 25 25 2525 ` 35 30 5535 ` 45 15 7045 ` 55 10 80

Σ 80

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 23: aula06

continuação

Temos que n = 80 (par), logo, EMd = n2

= 802

= 40. Daí, podemosveri�car que a mediana está contida na segunda classe, 25 ` 35,pois até a primeira classe existem 25 observações enquanto que atéa segunda classe existem 55 observações. Desse modo, obtemos amediana por

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 24: aula06

Vantagens e desvantagens da Mediana

√A mediana não é in�uenciada por valores extremos (grandes)de uma série ou conjunto de dados;

√A mediana é utilizada especialmente para distribuiçõesassimétricas, mas pode ser utilizada para dados comdistribuição simétrica também.

√A mediana de uma série de dados agrupados de classesextremas inde�nidas pode ser calculada.

× Suas propriedades não são bem compreendidas por muitaspessoas;

× Não é levada em consideração na maior parte dos testesestatísticos.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 25: aula06

Moda

A moda de um conjunto de dados, que denotaremos por Mo, é ovalor que ocorre com maior freqüência.

Exemplo: 1, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 8. Temos queo valor mais freqüente é 6, logo, Mo = 6.

Observação:

1 A moda pode não existir. Neste caso, dizemos que o conjuntode dados é amodal.

Exemplo: 1, 1, 2, 2, 3, 3, 4, 4, 5, 52 A moda pode não ser única.

Exemplo: 2, 2, 3, 3, 3, 4, 4, 5, 5, 5. Temos dois valores maisfreqüentes: 3 e 5.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 26: aula06

Moda de Dados Tabulados Não-agrupados emClasses

Neste caso, obtemos a moda simplesmente identi�cando o valormais freqüente na tabela.

Exemplo:

Tabela: Tipo sangüíneo em uma amostra de 820 doadores do HEMOPE.Recife, 2007.

Tipo Sangüíneo Número de DoadoresO 417A 292B 94AB 17Total 820

Fonte: Dados Hipotéticos

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 27: aula06

Moda de Dados Tabulados Agrupados em Classes

Nesta situação, pode-se determinar a moda através de 4 processos:1 Moda Bruta2 Moda de King3 Moda de Czuber4 Moda de Pearson

Para os três primeiros processos, o primeiro passo é identi�car aclasse modal, isto é, a classe que apresenta a maior freqüência.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 28: aula06

Moda Bruta

Corresponde simplesmente ao ponto médio da classe modal, ouseja,

Mo =LIMo + LSMo

2,

onde LSMo e LSMo representam, respectivamente, o limite inferiorda classe modal e o limite superior da classe modal.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 29: aula06

Moda de King

É obtida através da expressão

Mo = LIMo +

(fpost

fant + fpost

)· h,

onde:LIMo é o limite inferior da classe modal;fant é a freqüência simples absoluta da classe anterior à classemodal;fpost é a freqüência simples absoluta da classe posterior à classemodal;h é a amplitude do intervalo de classe.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 30: aula06

Moda de Czuber

É obtida através da expressão

Mo = LIMo +

(d1

d1 + d2

)· h,

onde:LIMo é o limite inferior da classe modal;d1 = fMo − fant ;d2 = fMo − fpost ;fMo é a freqüência simples absoluta da classe modal;fant é a freqüência simples absoluta da classe anterior à classemodal;fpost é a freqüência simples absoluta da classe posterior à classemodal;h é a amplitude do intervalo de classe.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 31: aula06

Moda de Pearson

É determinada através da fórmula

Mo = 3Md − 2X ,

onde:Md é a mediana dos dados;X é a média aritmética dos dados.

A moda de Pearson é bastante útil quando queremos avaliarconjuntos de dados quanto à sua distribuição. Em uma primeirasituação temos Mo < Md < X , ou seja, os dados estãoconcentrados à esquerda. Quando temos X < Md < Mo, dizemosque os dados estão concentrados à direita.E por �m, quando temos X = Md = Mo, dizemos que os dadosconcentram-se no centro da distribuição.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 32: aula06

continuação

Exemplo: Considere a distribuição de freqüências abaixo. Obter amoda através dos quatro processos.

Classes fi0 ` 2 32 ` 4 54 ` 6 76 ` 8 68 ` 10 1

Σ 22

A classe de maior freqüência é a 3a, 4 ` 6.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 33: aula06

1. Moda Bruta

Fazemos

Mo =4 + 62

= 5.

2. Moda de King

Fazemos

Mo = 4 +

(6

5 + 6

)· 2 ∼= 5, 09.

3. Moda de Czuber

Fazemos d1 = 7− 5 = 2, d2 = 7− 6 = 1 e, dessa forma,

Mo = 4 +

(2

2 + 1

)· 2 ∼= 5, 33.

4. Moda de Pearson

Temos que X ∼= 4, 73 e Md = 4, 86, daí,

Mo = 3× 4, 86− 2× 4, 73 ∼= 5, 12.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 34: aula06

Vantagens e desvantagens da moda

√Não é in�uenciada por valores extremos (grandes) do conjuntode dados;

√Pode ser calculada para distribuições com limitesindeterminados (inde�nidos) na maioria dos casos.

× Não depende de todos os valores do conjunto de dados,podendo mesmo não se alterar com a modi�cação de algunsdeles;

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 35: aula06

Quantis ou Separatrizes

São medidas que dividem o rol ou a distribuição de freqüências empartes iguais.

Exemplo: A mediana é um quantil, pois divide os dados em duaspartes iguais.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 36: aula06

Quartis (Qi)

Dividem os dados em quatro partes iguais.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 37: aula06

continuação

A ordem ou posição do quartil a ser calculado é dada por

EQi=

in

4,

onde:i é o número do quartil (1, 2 ou 3);n é o número de observações.

O procedimento para encontrar o quartil desejado quando temosdados não tabulados ou dados em distribuições de freqüências porvalores é idêntico àquele apresentado para a obtenção da mediana.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 38: aula06

continuação

Quando temos dados em distribuições de freqüências por classesutilizamos

Qi = LIQi+

(EQi− F ab

ant)

fQi

· h,

onde:LIQi

é o limite inferior da classe que contém o quartil desejado;EQi

é o elemento quartílico;F abant é a freqüência acumulada �abaixo de� da classe anterior à

classe que contém o quartil desejado;fQi

é a freqüência simples absoluta da classe que contém o quartildesejado;h é a amplitude dos intervalos de classes.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 39: aula06

Decis (Di)

Dividem os dados em dez partes iguais.

A ordem ou posição do decil a ser calculado é dada por

EDi=

in

10,

onde:i é o número do decil (1, 2, . . . , 9);n é o número de observações.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 40: aula06

continuação

O procedimento para encontrar o decil desejado quando temosdados não tabulados ou dados em distribuições de freqüências porvalores é idêntico àquele apresentado para a obtenção da mediana.Quando temos dados em distribuições de freqüências por classesutilizamos

Di = LIDi+

(EDi− F ab

ant)

fDi

· h,

onde:LIDi

é o limite inferior da classe que contém o decil desejado;EDi

é o elemento decílico;F abant é a freqüência acumulada �abaixo de� da classe anterior à

classe que contém o decil desejado;fDi

é a freqüência simples absoluta da classe que contém o decildesejado;h é a amplitude dos intervalos de classes.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 41: aula06

Percentis (Ci)

Dividem os dados em cem partes iguais.

A ordem ou posição do percentil a ser calculado é dada por

ECi=

in

100,

onde:i é o número do percentil (1, 2, . . . , 99);n é o número de observações.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 42: aula06

O procedimento para encontrar o percentil desejado quando temosdados não tabulados ou dados em distribuições de freqüências porvalores é idêntico àquele apresentado para a obtenção da mediana.Quando temos dados em distribuições de freqüências por classesutilizamos

Ci = LICi+

(ECi− F ab

ant)

fCi

· h,

onde:LICi

é o limite inferior da classe que contém o percentil desejado;ECi

é o elemento percentílico;F abant é a freqüência acumulada �abaixo de� da classe anterior à

classe que contém o percentil desejado;fCi

é a freqüência simples absoluta da classe que contém o percentildesejado;h é a amplitude dos intervalos de classes.Observação: Note que Md = Q2 = D5 = C50.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 43: aula06

continuação

Exemplo: Na tabela abaixo estão apresentados dados referentes aoconsumo médio mensal de eletricidade (em kw/h) de uma amostrade 80 residências de Parnaíba. Encontrar o primeiro quartil, o nonodecil e o septuagsimo quinto percentil.

Consumo fi F abi

5 ` 25 4 425 ` 45 6 1045 ` 65 14 2465 ` 85 26 5085 ` 105 14 64105 ` 125 8 72125 ` 145 6 78145 ` 165 2 80

Σ 80

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 44: aula06

continuação

Queremos obter Q1, D9 e C75. Para Q1 temos

EQ1=

1× 804

= 20,

ou seja, primeiro quartil é o elemento que ocupa a posição 20.Observando as freqüências acumuladas veri�camos que estepertence à terceira classe. Daí,

Q1 = 45 +20− 10

14· 20 ∼= 59, 29.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 45: aula06

continuação

Para D9, temos

ED9=

9× 8010

= 72,

o que nos diz que o decil desejado pertence à sexta classe. Daí,

D9 = 105 +72− 64

8· 20 = 125.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06

Page 46: aula06

continuação

Para C75, temos

EC75 =75× 80100

= 60,

o que nos diz que o percentil desejado pertence à quinta classe.Daí,

C75 = 85 +60− 50

14· 20 ∼= 99, 29.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 06