Apontamentos de Estatística Descritivafiles.cfleiria.webnode.com/200000014-127d713771/SPSS -...

43
Apontamentos de Estatística Descritiva Apontamentos de Estatística Descritiva Unidade Curricular: Estatística Aplicada A L ti 2007/2008 Área Científica: Matemática Ano Lectivo: 2007/2008 Curso: Contabilidade e Finanças Escola: Superior de Tecnologia e Gestão do Instituto Regime: Diurno + Pós-Laboral Escola: Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria D t Mi lFl i J éM ti RiPi Docentes: Miguel Felgueiras, José Martins, Rui Paiva A F d Sb i Hl Sil Autores: Fernando Sebastião e Helena Silva

Transcript of Apontamentos de Estatística Descritivafiles.cfleiria.webnode.com/200000014-127d713771/SPSS -...

Apontamentos de Estatística DescritivaApontamentos de Estatística Descritiva

• Unidade Curricular: Estatística Aplicada

A L ti 2007/2008

• Área Científica: Matemática

• Ano Lectivo: 2007/2008

• Curso: Contabilidade e Finanças

• Escola: Superior de Tecnologia e Gestão do Instituto• Regime: Diurno + Pós-Laboral

Escola: Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria

D t Mi l F l i J é M ti R i P i• Docentes: Miguel Felgueiras, José Martins, Rui Paiva

A F d S b i H l Sil• Autores: Fernando Sebastião e Helena Silva

Conteúdos ProgramáticosgNoções básicas:

População. Amostra. Unidade estatística.Atributo ModalidadesAtributo. Modalidades.

Quadros de frequências:Frequências absolutas.Frequências relativasFrequências relativas.Frequências acumuladas.Dados agrupados em classes.

Representação gráfica de frequências:Representação gráfica de frequências:Diagrama de barras.Diagrama de sectores.Histograma.P lí d f ê iPolígono de frequências.

Redução dos dados:Medidas de tendência central.M did d di ãMedidas de dispersão.Medidas de assimetria.Medidas de achatamento.Medidas de concentração.

Estatística Descritiva 2

Medidas de concentração.

Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemGerais:• Explorar a informação contida num conjunto de dados.• Usar espírito crítico na análise dos resultados obtidos quer em

termos numéricos quer em termos computacionaistermos numéricos quer em termos computacionais.

Específicos:No fim deste capítulo da unidade curricular o estudante deverá saber:

Noções básicas:çIdentificar a população em estudo.Identificar a amostra em análise.Identificar a unidade estatística.Identificar o atributo em estudo na população.Distinguir atributos qualitativos e quantitativos.Caracterizar as modalidades para um determinado atributo.

Estatística Descritiva 3

p

Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemEspecíficos (continuação):Quadros de frequências:

Determinar e interpretar as frequências absolutas. Determinar e interpretar as frequências relativas. p qDeterminar e interpretar as frequências acumuladas. Distinguir os vários tipos de frequências (absolutas, relativas e acumuladas). Agrupar os dados em classes para um determinado atributo.

Representação gráfica de frequências:Representar e interpretar o diagrama de barras para atributos qualitativos e quantitativosquantitativos.Representar e interpretar o diagrama de sectores para atributos qualitativos e quantitativos.Representar e interpretar o histogramaRepresentar e interpretar o histograma. Distinguir as várias representações gráficas.Identificar as representações gráficas mais adequadas a cada tipo de atributo.Representar e interpretar o polígono de frequências

Estatística Descritiva 4

Representar e interpretar o polígono de frequências.

Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemEspecíficos (continuação):Redução dos dados:

Definir, determinar e interpretar as medidas de tendência central: média aritmética, mediana e moda.Definir, determinar e interpretar as medidas de dispersão, nomeadamente amplitude total, amplitude interquartis, desvio padrão e variância.Definir e determinar os percentis, nomeadamente os quartis. Definir e identificar outliersDefinir e identificar outliers.Representar e interpretar diagramas de extremos e quartis. Definir as medidas de assimetria.Interpretar as medidas de assimetria através das medidas de tendência centralInterpretar as medidas de assimetria através das medidas de tendência central assim como através do coeficiente de assimetria. Distinguir a simetria da assimetria negativa e da assimetria positiva. Definir as medidas de achatamento.Interpretar as medidas de achatamento através do coeficiente de achatamento. Distinguir os tipos de achatamento (leptocúrtica, mesocúrtica e platicúrtica).Definir as medidas de concentração.Interpretar as medidas de concentração no contexto dos problemas em análise

Estatística Descritiva 5

Interpretar as medidas de concentração no contexto dos problemas em análise.

BibliografiaBibliografia

[1] Murteira B (1993) Análise Exploratória de Dados[1] Murteira, B. (1993) Análise Exploratória de Dados –Estatística Descritiva, McGraw Hill

[2] Murteira, B., Ribeiro, C., Silva, J. e Pimenta, C. (2002) Introdução à Estatística, McGraw Hill

[3] Pereira, A. (2004) SPSS – Guia Prático de Utilização, Edições SílaboEdições Sílabo

[4] Reis, Elizabeth (2000) Estatística Descritiva, Edições [ ] ( )Sílabo

Estatística Descritiva 6

Noções básicas Estatística

Descritiva Indutiva

Tem como objectivo T bj tiresumir a informação

mais importante tid j t

Tem como objectivo tirar conclusões sobre as características dacontida num conjunto

de dados, permitindo assim facilitar a sua

as características da população a partir da informação contidaassim facilitar a sua

compreensão e interpretação

informação contida numa amostra.

Estatística Descritiva 7

interpretação.

Noções básicas Indivíduo ou unidade estatística

Unidade base sobre a qual o observador realiza as observações.

População ou universoConjunto formado por todos os indivíduos em estudoConjunto formado por todos os indivíduos em estudo.

AmostraSubconjunto finito da população que seja representativo desta.

A ib iá lAtributo ou variávelCaracterística em estudo na população.

Modalidades ou categoriasResultados possíveis para um determinado atributo.

Estatística Descritiva 8

Resultados possíveis para um determinado atributo.

Noções básicas Atributos ou Variáveis

Q d j t d t i

Qualitativas

Quando assumem um conjunto de categorias que, embora possam ser representadas por números, não tem significado transformá-las através de operações usuais, tais como, adições ou subtracções.

QuantitativasQuantitativas

Quando assumem um conjunto de valores numéricos.

Estatística Descritiva 9

Noções básicas Variáveis Qualitativas

Nominais Ordinais

P d t b lNão se pode estabelecer uma

l ã d d

Pode-se estabelecer uma relação de ordem entre as categoriasrelação de ordem

entre as categorias.

as categorias.

Exemplo:o grau de satisfaçãoExemplo:

o sexo, feminino ou masculino pode ser

o grau de satisfação relativamente a um serviço, pode ser codificado por

masculino, pode ser codificado por 0 ou 1.

insatisfeito (1), pouco satisfeito (2), satisfeito (3) ou muito satisfeito (4)

Estatística Descritiva 10

ou muito satisfeito (4).

Noções básicas Variáveis Quantitativas ou de Escala

Discretas Contínuas

As categorias definem-se no conjunto dos números i t i

As categorias definem-se no conjunto dos números

inteiros.

Exemplos:

reais.

Exemplos:

• Nº de clientes;• Nº de animais de estimação;

p

• Altura;P• Nº de animais de estimação;

• Nº de livros editados.• Peso;• Lucro anual.

Estatística Descritiva 11

Quadros de FrequênciasDefinição de Frequências

Seja p o número total de modalidades distintas, nas n observações válidas.

Frequências absolutas - ni: número de observaçõesque pertencem à modalidade i, com i = 1, 2, …, p.

.nnp

1ii∑

=

=

q p p

Verifica-se que:1i=

Frequências relativas - fi: percentagem de observaçõesque pertencem à modalidade i com i = 1 2 pque pertencem à modalidade i, com i 1, 2, …, p.

.f e 100nnf

p

1ii

ii 100=×= ∑Verifica-se que:

Estatística Descritiva 12

n 1i=

Quadros de FrequênciasF ê i l ti l d F tFrequências relativas acumuladas - Fi: percentagem de observações que pertencem à modalidade i e

t i i 1 2anteriores, com i = 1, 2, …, p.. 100F e fF p

i

1jji == ∑Verifica-se que:

1j=

Notas:Para o caso em que as variáveis são qualitativas nominaisnão faz sentido determinar as frequências relativas qacumuladas, uma vez que as modalidades não são ordenáveis.

Para o caso em que as variáveis são qualitativas ordinaisPara o caso em que as variáveis são qualitativas ordinaispode fazer sentido determinar as frequências relativas acumuladas uma vez que as modalidades são ordenáveis

Estatística Descritiva 13

acumuladas, uma vez que as modalidades são ordenáveis.

Quadros de FrequênciasVariáveis Qualitativas

O ficheiro SegSocial.sav contém informações de algumas características g ç gpessoais, profissionais, familiares, sociais, etc., que se obtiveram através de um inquérito efectuado a 1500 indivíduos inscritos na Segurança

Estado civil

Social. Considere-se a seguinte variável:

795 53,0 53,0165 11 0 11 0

CasadoViúvo

ValidFrequency (ni) Percent Valid Percent (fi)

165 11,0 11,0213 14,2 14,240 2,7 2,7

286 19 1 19 1

ViúvoDivorciadoSeparadoSolteiro 286 19,1 19,1

1499 99,9 100,01 ,1

1500 100 0

SolteiroTotalNAMissing

Total

Estatística Descritiva 14

1500 100,0Total

Quadros de FrequênciasVariáveis Quantitativas - Dados Não Agrupados em Classes

As idades seguintes obtiveram-se através de um inquérito realizado a

Idade do indivíduo (em anos)

C l ti

g qalguns alunos inscritos no 2º ano de um determinado curso da ESTG.

4 6,9 6,9 6,923 39,7 39,7 46,6

1819

ValidFrequency Percent Valid Percent

CumulativePercent

18 31,0 31,0 77,67 12,1 12,1 89,75 8,6 8,6 98,31 1 7 1 7 100 0

20212223

Interpretação:

1 1,7 1,7 100,058 100,0 100,0

23Total

• 23 alunos dos 58 inquiridos têm 19 anos;• 31% dos alunos inquiridos têm 20 anos;

%Estatística Descritiva 15

• 89,7% dos alunos têm 21 anos ou menos.

Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes

Notas:

Para o caso em que as variáveis são quantitativasdiscretas e o número de modalidades é relativamente elevado, os dados são agrupados em classes.

Para o caso em que as variáveis são quantitativascontínuas os dados são agrupados em classes.

Estatística Descritiva 16

Quadros de Frequências

Quantas classes deverão ser utilizadas?

Variáveis Quantitativas - Dados Agrupados em Classes

Quantas classes deverão ser utilizadas?O número de classes, p, a utilizar é o menor inteiro tal que n2p ≥tal que .

Nota: Sempre que possível o número de classes d á t 5 20 i l i

n2 ≥

Seja xi, (i = 1, ..., n) cada uma das observações da variável.

deverá ser entre 5 e 20 inclusive.

• Amplitude total dos dados: IT = max(xi) – min(xi)

P l tê lit dPara o caso em que as classes têm a mesma amplitude:

• Amplitude de cada classe: II TC =

Estatística Descritiva 17

Amplitude de cada classe: p

IC

Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes

No ficheiro SegSocial.sav, considere-se a variável quantitativa discreta horas1 (Número de horas trabalhadas na semana passada) cujo número de modalidades é relativamente elevado, pelo que as observações foram agrupadas em classes e apresentadas no seguinte quadro de frequências:

Notas:

agrupadas em classes e apresentadas no seguinte quadro de frequências:Número de horas trabalhadas na semana passada (Binned)

20 2,2 2,2<10Validni fi (%) Fi (%)

• n = 900 (válidos)• p = 10 classes

44 4,9 7,178 8,7 15,880 8,9 24,7

378 42,0 66,7134 14 9 81 6

10 - 1819 - 2728 - 3637 - 4546 - 54

• max(xi) = 89• min(xi) = 2

134 14,9 81,6107 11,9 93,437 4,1 97,620 2,2 99,82 ,2 100,0

46 5455 - 6364 - 7273 - 8182+

• IT = 89 – 2 = 87• IC = 87 / 10 = 8.7 ≈ 9

900 100,0592

26

600

TotalNAPDKNATotal

Missing

Estatística Descritiva 181500Total

Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes

Notas:

Se ao agrupar os dados em classes, existir alguma classe que não contenha observações então não faz sentido usar classes de igual amplitude!!!....

Neste caso usam-se classes de diferentes amplitudes!

Estatística Descritiva 19

Representação Gráfica de Frequências

Variáveis Qualitativas

Diagrama de Barras (“Bar Chart”)

Formado porFormado por rectângulos separados com a mesma largura ecom a mesma largura e com altura igual à frequência (quer sejafrequência (quer seja absoluta ou relativa) correspondente a cada pmodalidade ou categoria.

Estatística Descritiva 20

Representação Gráfica de Frequências Variáveis Qualitativas

Diagrama de Sectores ou Circular (“Pie Chart”)

Círculo constituídoCírculo constituído por sectores, cuja área de cada sectorárea de cada sector é proporcional à frequência (quer sejafrequência (quer seja absoluta ou relativa) de cada uma das modalidades ou categorias.

Estatística Descritiva 21

Representação Gráfica de Frequências Variáveis Quantitativas - Dados Não Agrupados em Classes

Diagrama de Barras (“Bar Chart”)Diagrama de Sectores ou Circular (“Pie Chart”)g ( )

Estatística Descritiva 22

Representação Gráfica de Frequências

Histograma (“Histogram”)

Variáveis Quantitativas - Dados Agrupados em Classes

Histograma ( Histogram )

Formado por 10 classesprectângulos adjacentes com

1 → <102 → 10 - 183 → 19 - 274 28 36largura igual à

amplitude da classe

4 → 28 - 365 → 37 - 456 → 46 - 547 → 55 63correspondente e

área proporcional à f ê i d

7 → 55 - 638 → 64 - 729 → 73 - 8110 → 82+frequência da

respectiva classe.

10 → 82+

Estatística Descritiva 23

Representação Gráfica de Frequências V iá i Q tit ti

Polígono de Frequências

Variáveis Quantitativas

g qÉ a linha poligonal que une os pontos médios superiores de cada rectângulo do diagrama de barras ou do histograma.g g g

Estatística Descritiva 24

Representação Gráfica de Frequências

Variáveis Quantitativas

P iá i ã di t

Notas:Para o caso em que as variáveis são discretas e o número de modalidades é relativamente elevado, os dados são agrupados em classes e consequentemente representados em histogramas.

Para o caso em que as variáveis são contínuas, os dados também podem ser representados em diagramasdados também podem ser representados em diagramas de sectores.

Estatística Descritiva 25

Redução dos DadosA redução dos dados tem por objectivo resumir a informação neles contida, isto é, representar as

observações através de alguns resultados numéricos que analisam as características mais importantes.

Medidas de tendência central

Medidas de dispersão

M did d i iMedidas de assimetria

Medidas de achatamentoMedidas de achatamento

Medidas de concentração

Estatística Descritiva 26

Medidas de Tendência CentralAs medidas de tendência

central representam a Média Aritmética

Medianap

localização do centro das observações.

Mediana

Modaoda

Média Aritmética (“Mean”)

p

Indica o valor em torno do qual se distribuem as observações.Sejam xi, i = 1, 2, …, p, as diferentes modalidades do atributo.

Interpretação:. xnx

p

1iiin

1 Então, ∑=

=

Interpretação:A média indica o valor que cada observação deveria ter para que a soma de todas as observações fosse igual à verificada.

Estatística Descritiva 27

que a soma de todas as observações fosse igual à verificada.

Medidas de Tendência Central

É o alor q e di ide as obser ações em d as partes ig ais

Mediana (“Median”)

É o valor que divide as observações em duas partes iguais. Consideremos as observações ordenadas por ordem

t

⎪⎧ ⎞⎛ + ímpar é n se,nx 1

crescente: .xx...xxx )n()n()()()( ≤≤≤≤≤ −1321

⎪⎪

⎪⎪⎨ +=

⎟⎠⎞

⎜⎝⎛ +⎟

⎠⎞

⎜⎝⎛

⎟⎠⎞

⎜⎝⎛ +

parénse

p

,Então n2n

n

xxMe 1

2

21

Interpretação:⎪⎪⎩

⎠⎝⎠⎝ par é n se,2

50% das observações têm valor superior ou igual à mediana e 50% das observações têm valor inferior ou igual à mediana.

Estatística Descritiva 28

50% das obse ações tê a o e o ou gua à ed a a

Medidas de Tendência Central

É a modalidade ou categoria mais frequente na amostra

Moda (“Mode”)

É a modalidade ou categoria mais frequente na amostra e representa-se por Mo.

A moda não tem de ser única, pois pode haver mais do que uma modalidade com igual frequência, sendo essa frequência máxima. Nesse caso, o SPSS devolve o menor valor da moda.

Observação:P iá i lit ti ú i did d t dê iPara variáveis qualitativas a única medida de tendência central que faz sentido determinar é a moda.

Estatística Descritiva 29

Medidas de Tendência CentralE lExemplo:

Idade do indivíduo (em anos)

Cumulative

Statistics

4 6,9 6,9 6,923 39,7 39,7 46,618 31,0 31,0 77,6

181920

ValidFrequency Percent Valid Percent

CumulativePercent

Idade do indivíduo (em anos)580

19 81

ValidMissing

N

Mean, , ,7 12,1 12,1 89,75 8,6 8,6 98,31 1,7 1,7 100,0

58 100,0 100,0

212223Total

19,8120,00

191149

MeanMedianModeSum

Se todos os indivíduos tivessem a mesma idade, para que a soma de todas as idades fosse igual p q g

a 1149, essa idade teria que ser 19,81 anos.

50% dos indivíduos têm idade inferior A idade mais ou igual a 20 anos e os restantes 50% dos indivíduos têm idade superior ou

igual a 20 anos

frequente entre os indivíduos é 19

anosEstatística Descritiva 30

igual a 20 anos. anos.

Medidas de Dispersão As medidas de dispersão analisam o grau de

variabilidade das observações de um conjunto de dados em torno das medidas de tendência central.em torno das medidas de tendência central.

Amplitude Total (“Range”)É a diferença entre o valor observado mais elevado e o valor observado mais baixo: IT = max (xi) – min (xi).

Quartis (“Quartiles”):O t ê ti ( ) ã l di id d dOs três quartis (q1, q2 e q3) são os valores que dividem os dados em 4 partes iguais em termos de percentagem de observações.

q1 q2 q3min (xi) max (xi)

25 % obs.25 % obs.25 % obs. 25 % obs.

Estatística Descritiva 31

q2( i)

Medidas de Dispersão Consideremos as observações ordenadas por ordem crescente: Os valores dos 1º, 2º e . xx...xx )n()n()()( ≤≤≤≤ −121

3º quartis com r = 1, 2 e 3, respectivamente, são dados por: xx

nrnr

⎪⎪⎧ +

⎟⎞

⎜⎛ +×⎟

⎞⎜⎛ × 1

( ) natural énão n4r se,

natural é n4r se ,

rq

x m

nn4

×

×

⎪⎪⎩

⎪⎪⎨=

⎟⎠

⎜⎝

+×⎟⎠

⎜⎝

×

2

14

( )

n.4r

4,

a superior inteiro número menor o é m

m

×

⎪⎩

Nota:Existem diferentes formas de definir os quartis podendo surgirExistem diferentes formas de definir os quartis, podendo surgir valores ligeiramente diferentes para o mesmo quartil. Uma possível definição é a apresentada anteriormente.

Estatística Descritiva 32

p ç p

Medidas de Dispersão Q (” ”)Percentis ou Quantis (”Percentiles”):

São os valores Qp tais que p% das observações da amostra são inferiores ou iguais a Qp.

q1 - percentil 25 (Q25)q2 - percentil 50 (Q50) - Medianaq3 - percentil 75 (Q75)q3 p ( 75)

Amplitude InterquartisÉÉ a amplitude do intervalo que contém 50% das observações centrais: Iq = q3 – q1.

50 % de observações

q1 q2 q3min (xi) max (xi)

Estatística Descritiva 33

Medidas de Dispersão “Outliers”:“Outliers”:Se alguma observação ficar fora do intervalo

[ 1 5 * I 1 5 * I ][q1 – 1,5 * Iq ; q3 + 1,5 * Iq] considera-se uma observação “suspeita” e denomina-se por

li i é fi f d l d di ib i doutlier, isto é, fica fora do suporte usual da distribuição dos dados, afastando-se portanto do padrão geral dos mesmos.

“Outliers” moderados:Observações pertencentes ao intervalo ç p[q1 – 3 * Iq ; q1 - 1,5 * Iq] ou [q3 + 1,5 * Iq ; q3 + 3 * Iq].

“Outliers” severos ou valores extremos:Outliers severos ou valores extremos:Observações inferiores a q1 – 3 * Iq ou superiores

3 * IEstatística Descritiva 34

a q3 + 3 * Iq.

Medidas de Dispersão Diagrama de Extremos e Quartis ou Caixa de Bigodes (“Boxplot”)

max (xi)

Sem outliers Com outliersOutlier severo

q3Outlier

moderado

max (xi)

Me

qmax (xi) não outlier

q1

min (xi)min (xi) não outlier

Quanto menor for a distância entre 2 destas medidas em relação às restantes, menor é a dispersão das observações nesse intervalo e vice versa

Estatística Descritiva 35

observações nesse intervalo e vice-versa.

Medidas de Dispersão

A variância é a média dos quadrados dos desvios das

Variância (“Variance”)q

observações em relação à média aritmética e é dada por:

( ) p21

p1 2

22 ⎟

⎞⎜⎛ ∑∑ ( ) .xxnxxns

1i

2iin

1

1iiin

12 −⎟⎟⎠

⎞⎜⎜⎝

⎛=−= ∑∑

==

Alguns autores (e o SPSS) utilizam a variância corrigidag ( ) gem vez da variância usual, que é dada por:

( )p 2

Quanto maior for o valor da variância mais afastadas

( ) .xx ns 1i

ii1-n1

c2 ∑

=

−=

Quanto maior for o valor da variância mais afastadas estão as observações da média e logo existe uma maior dispersão das observações e vice-versa

Estatística Descritiva 36

dispersão das observações, e vice-versa.

Medidas de Dispersão Desvio Padrão (“Standard Deviation”)O desvio padrão é a raiz quadrada da variância e é dado por:p q p

.ss 2=

ss 2=

E o desvio padrão corrigido é dado por:

Quanto maior for o valor do desvio padrão mais

.ss cc =

afastadas estão as observações da média e logo existe uma maior dispersão das observações, e vice-versa.

Nota: . s s ss 1-nn

c1-nn

c e == 22

Estatística Descritiva 37

Medidas de Assimetria A did d i t i liAs medidas de assimetria servem para analisar se as

frequências estão ou não distribuídas simetricamente em torno das medidas de tendência central.torno das medidas de tendência central.

Comparação das medidas de

tendência central

Coeficiente de assimetria (“Skewness”)

Tipo de assimetria Exemplos

Simétrica

tendência central ( Skewness )

xMeMo == 0=sC40

60

80E

QU

EN

CY

AssimétricaMoMex <<

0

20FR

60

80

NC

Y 0<CAssimétricanegativa

MoMex

MoMex

=<

<=

MM

0

20

40

FREQ

UEN

80

0<sC

xMeMo

xMeMo

xMeMo

=<

<=

<<

0

20

40

60

80

FRE

QU

EN

CY

Assimétricapositiva

0>sC

Estatística Descritiva 38

xMeMo =<0

Medidas de Achatamento A did d h t t liAs medidas de achatamento servem para analisar a

intensidade das frequências em torno das medidas de tendência central.tendência central.

Exemplos

Tipo de Achatamento

Menos achatada que a distribuição Normal

(Leptocúrtica)

Tão achatada como a distribuição

Normal (M ú ti )

Mais achatada que a distribuição Normal

(Platicúrtica)(Leptocúrtica) (Mesocúrtica) (Platicúrtica)

Coeficiente de achatamento (“K t i ”)

0>kC 0=kC 0<kC

Estatística Descritiva 39

(“Kurtosis”)

Medidas de Concentração As medidas de concentração analisam o modo como o

atributo está distribuído pelos indivíduos.

Curva de Lorenz Índice de Gini

Notas:

Curva de Lorenz Índice de Gini

Notas:Só faz sentido analisar a concentração desde que possam

d it õ i tocorrer as duas situações seguintes:

• concentração máxima do atributo num só indivíduo;

• concentração mínima de igual distribuição do atributo por todos os indivíduos.

Estatística Descritiva 40

Medidas de Concentração Curva de Lorenz

É a linha poligonal que une os pontos da forma (Fi , F’i)É a linha poligonal que une os pontos da forma (Fi , F i) com i = 0, 1, …, p, onde:

Fi – frequências relativas acumuladas das observaçõesF’i – frequências relativas acumuladas do atributo.

100100 100

40

60

80

F ' i

40

60

80

F ' i

40

60

80

F ' i

0

20

0 20 40 60 80 100

F i

0

20

0 20 40 60 80 100

F i

0

20

0 20 40 60 80 100

F i

Interpretação: Quanto mais afastada estiver a curva de Lorenz da recta de ig al distrib ição maior será a concentração do atrib to

Concentração fraca Concentração intermédia Concentração forte

Estatística Descritiva 41

recta de igual distribuição maior será a concentração do atributo.

Medidas de Concentração E l Cl i fi Fi i i* i f ' i F ' iExemplo:Os dados referentes aos salários líquidos mensais, em

Classes ni fi Fi xi ni*xi f ' i F ' i[400 ; 600[ 50 10 10 500 25000 4,31 4,31[600 ; 800[ 80 16 26 700 56000 9,66 13,97[800 ; 1000[ 80 16 42 900 72000 12,41 26,38

[1000 ; 1200[ 65 13 55 1100 71500 12 33 38 71sa á os qu dos e sa s, eeuros, dos trabalhadores de uma empresa encontram-se resumidos na tabela

[1000 ; 1200[ 65 13 55 1100 71500 12,33 38,71[1200 ; 1400[ 60 12 67 1300 78000 13,45 52,16[1400 ; 1600[ 55 11 78 1500 82500 14,22 66,38[1600 ; 1800[ 70 14 92 1700 119000 20,52 86,90[1800 ; 2000] 40 8 100 1900 76000 13,10 100,00

Vencimentos mensais (em euros) líquidos dos trabalhadores de uma empresa

resumidos na tabela.Total 500 100 580000 100

Interpretação:A curva está pouco 80

100

Curva deL

pafastada da recta de igual distribuição, 40

60

F ' i

Lorenz

Recta deigual

logo a concentração do atributo é fraca.0

20

0 20 40 60 80 100

igualdistribuição

Estatística Descritiva 42

F i

Medidas de Concentração Índice de Gini

Mede o grau de concentração do atributo num conjuntoMede o grau de concentração do atributo num conjunto de dados e é dado por:

p−1 Concentração mínima

1IG0 ; i' F

IG p

p

i ≤≤−=∑−=

1

1

11

Concentração mínima (Fi = F’i)

Fip

i∑−

=

1

1Concentração máxima(F’i = 0, i = 1, …, p-1)(F i 0, i 1, …, p 1)

Exemplo:Para os dados dos salários do exemplo anterior mostre que o valor do Índice de Gini é aproximadamente igual a 0,22.

Estatística Descritiva 43