BOLETIM DE ANÁLISE ESTATÍSTICO · amostragem dos dados, análise multivariada, análise de...

BA STA BOLETIM DE ANLISE ESTATSTICO

Pesquisas Relacionadas a Indicadores Municipais no Brasil

ISDM/FGV, IFDM e IFGF/FIRJAN

BASTA 2013 V2

Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, trabalho, sade e muito particularmente EDUCAO. Clarice Santiago Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, educao, sade e muito particularmente TRABALHO. Diego Conti Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, educao, trabalho e muito particularmente SAUDE. Elaine Palmeira Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a trabalho, educao, sade e muito particularmente HABITAO. Hannah de Carvalho Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, educao, trabalho e muito particularmente EMPREGO e RENDA. Jos Felipe de Souza

Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, educao, trabalho e muito particularmente o referente a GESTAO FISCAL. Mauricio Camargo

Pgina | 1

PONTIFCIA UNIVERSIDADE CATLICA DE SO PAULO

FEA - Faculdade de Economia e Administrao

Programa de Estudos Ps-Graduados em Administrao

PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores relacionados a habitao, trabalho,

sade e muito particularmente EDUCAO

MTODOS QUANTITATIVOS DA PESQUISA EMPRICA

Professor Dr. Arnoldo Jose de Hoyos

Clarice Santiago

Pgina | 2

1 INTRODUO

O presente trabalho tem por objetivo efetuar diversas anlises dos dados da Pesquisa

Firjan/FGV sobre o Desenvolvimento dos Municpios nos perodos de 2000 e 2010.

Iniciamos com o entendimento dos dados, incluindo a definio dos indivduos e das

variveis, suas classificaes em variveis categricas ou quantitativas, os significados e

unidades de medida, alm da apresentao da tabela de dados.

Na seqncia, analisamos cada uma das variveis separadamente quanto a sua forma de

distribuio, os valores atpicos, medidas de centro e disperso. Para tal contamos com

o auxlio de grficos (pie chart, barras, histogramas, grficos de ramos, box-plot, dot-

plot e curvas de densidade) e de medidas numricas (mdia, mediana, quartis, desvio-

padro, varincia, intervalo de confiana e teste de normalidade de Anderson-Darling).

Em seguida faremos comparaes entre as diversas variveis analticas, utilizando

tcnicas como relaes entre as variveis, regresses mltiplas, comparaes,

amostragem dos dados, anlise multivariada, anlise de conglomerados, anlise

discriminante, regresso logstica, anlise de correspondncia e arvores de classificao.

No ser possvel, a partir destes dados, efetuarmos a anlise de tendncia pois no

existem sries temporais de dados, requisitos para esta tcnica.

O software estatstico utilizado o MINITAB 16. Este trabalho se concentrar nas

diversas variveis que compem a pesquisa Firjan/FGV.

2 OS DADOS

2.1 OS INDIVDUOS

Os indivduos deste trabalho so compostos pelas mdias ponderadas dos indicadores

das dimenses Habitao (H6), Renda (R1), Trabalho (T1_2), Sade (S1_1) e

Educao (E2_4, E2_5, E2_6), padronizados pela mdia do Brasil para os diferentes

municpios. Ao todo so 5565 municpios considerados brasileiros, incluindo o Distrito

federal. Os dados analticos foram extrados do IBGE, e possibilitam uma comparao

Pgina | 3

entre os dados colhidos em 2000 com 2010. Neste trabalho concentraremos nossas

anlise apenas dos dados referentes 2010.

O Brasil encontra-se poltica e geograficamente dividido em cinco regies distintas, que

possuem traos comuns referentes aos aspectos fsicos, humanos, econmicos e

culturais. Os limites de cada regio - Norte, Nordeste, Sudeste, Sul e Centro-Oeste -

coincidem sempre com as fronteiras dos Estados que as compem.

2.2 AS VARIVEIS

As variveis desta pesquisa incluem os 3 principais ndices sintticos que so ISDM,

IFDM e IFGF, que so mdias ponderadas dos dados analticos globais da pesquisa, e

variveis analticas, referente educao, sade, renda, emprego e habitao.

Tabela 1. Comparativo entre as Variveis ISDM e IFDM

Tabela 2. A definio das Variveis

Varivel Significado Tipo Unidade de Medida

REGIO Nome da Regio do Brasil Texto Na

UF Unidade da Federao Texto Na

MUNICPIO Nome do Municpio Texto Na

Pgina | 4

ndice Social de Desenvolvimento Municipal: Mdia ponderada dos indicadores das dimenses Habitao, Renda, Trabalho, Sade e Segurana e Educao (H, R, T, S e E) padronizada pela mdia do Brasil.

Numrico

Escala convertida para intervalo entre 0 e 1.

EDUCAO

Mdia ponderada dos indicadores da dimenso Educao (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela mdia do Brasil.

Numrico

EMPREGO E RENDA

Gerao, estoque e salrios mdios dos empregos formais (IFDM). Numrico

LIQUIDEZ ndice de liquidez dos municpios. Numrico

H6 Percentual de pessoas que vivem em domiclio que tem densidade de moradores por dormitrio inferior a 2.

Numrico

T1_2 Taxa de formalizao entre os empregados Numrico

Taxa de sobrevivncia infantil no primeiro ano de vida, representada pela diferena entre o nmero de nascidos vivos e o nmero de bitos at um ano de idade.

Numrico

E2_4 Percentual de crianas de 7 a 14 anos que esto na srie correta segundo a idade

Numrico

Pgina | 5

ndice transformado na escala Ideb de proficincia Portugus e Matemtica Agregado para a quarta srie do Ensino Fundamental (5 ano EF)

Numrico

ndice transformado na escala Ideb de proficincia em Portugus e Matemtica Agregado oitava srie do Ensino Fundamental (9 ano EF).

Numrico

3. ANLISE DAS VARIVEIS

3.1 VARIVEIS CATEGRICAS

Para este tipo de varivel, as pesquisas concentram-se nas anlises de grficos do tipo

pie chart e barras.

3.1.1 Varivel: ESTADO

Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O grfico abaixo

exibe o nmero de cidades por estado.

A variao no nmero de cidades por estado acentuada. Considerando que o Distrito

Federal um estado brasileiro, o estado com o menor nmero de cidades (1), enquanto

o Mato Grosso o estado que possui o maior nmero de cidades (852).

3.1.2 Varivel: REGIO

Pgina | 6

Figura 3. Nmero de Cidades por Estado e Regio do Brasil

Podemos verificar no grfico acima que a Regio Nordeste a que possui o maior

nmero de cidades do Brasil (1790) e seguido pela Regio Sudeste (1669). A Regio

que possui o menor nmero de cidades a Norte, com 447 cidades, muito prxima da

Regio Centro-Oeste (468). A Regio Sul possui 1191 cidades.

Figura 4. Cidades por Regio do Brasil

3.2 ANLISE EXPLORATRIA DAS VARIVEIS ANALTICAS

Sero analisadas as variveis separadamente quanto a sua forma de distribuio, os

valores atpicos, medidas de centro e disperso. Para tal contamos com o auxlio de

grficos ( histogramas, grficos de ramos, box-plot, dot-plot e curvas de densidade) e de

medidas numricas (mdia, mediana, quartis, desvio-padro, varincia, intervalo de

confiana e teste de normalidade de Anderson-Darling).

Pgina | 7

3.2.1 VARIVEL ISDM

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiana da mdia e mediana, alm das medidas numricas como mdia, desvio-

padro, varincia, quantidade de observaes, valores mnimos, mximos, informaes

dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a

varivel ISDM.

0,980,840,700,560,420,280,140,00

Median

0,730,720,710,700,690,680,67

1st Q uartile 0,53221Median 0,714973rd Q uartile 0,83728Maximum 1,00000

0,67294 0,68297

0,70542 0,72544

0,18725 0,19434

A -Squared 75,76P-V alue < 0,005

Mean 0,67795StDev 0,19073V ariance 0,03638Skewness -0,541209Kurtosis -0,522196N 5565

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev95% Confidence Intervals

Summary for ISDMc

As principais observaes que podemos fazer so:

- Forma: O Histograma nos permite verificar que trata-se de uma distribuio

visivelmente assimtrica para a direita, o que comum para variveis que indiquem

ganhos, receitas, salrios, etc. Esta concluso est comprovada pelo teste de

normalidade de Anderson-Darling que indica que a distribuio no pode ser

considerada uma Normal. Muitas cidades possuem um baixo nvel de desenvolvimento,

muitas cidades possuem um nvel mdio de desenvolvimento e poucas possuem um

nvel alto de desenvolvimento. Existem duas corcovas no grfico que nos mostra que

existem duas realidades diferentes dentro dos dados analisados, ou seja, existem

tipicamente dois tipos de municpios dentro do Brasil, e cada tipo est em um estgio

diferente de desenvolvimento.

Medidas Numricas

Histograma e Curva de Densidade

BOXPLOT

Intervalo de confiana

Pgina | 8

- Valores Atpicos: H 3 valores de ISDM atpicos, que apresentam resultados abaixo de

0,05767, que so os municpios de Chaves, PA; Amajari, RR e Melgao, PA.

- Centro e Disperso: A mediana nos indica que aproximadamente metade dos

municpios tem ISDM menor do que 0,71497. O ISDM mdio de 0,67795, e o desvio-

padro (medida de disperso) de 0,19073, que implica em uma disperso grande da

populao e uma variao grande entre os diversos municpios do Brasil.

3.2.2 VARIVEL EDUCAO

0,980,840,700,560,420,280,140,00

Median

0,6050,6000,5950,5900,5850,580

0,58205 0,59152

0,58906 0,60242

0,17656 0,18325

Minimum 0,00000

Summary for EDUCc

- Forma: O Histograma nos permite verificar que trata-se de uma distribuio que tende

a ser simtrica cujo pico concentra-se no centro, o que comum para variveis que

indiquem desempenho regular. A curva apresenta vrias corcovas, o que indica que

temos diversas realidades sobre a questo da variabilidade sobre Educao nos

municpios do Brasil. Os dados se dispersam muito, no existe um padro na questo e

pode-se concluir que existe muita diversidade entre os dados.

- Valores Atpicos: H muitos valores atpicos de Educao, que apresentam resultados

abaixo de 0,07636. O desempenho Educao considerado mdio nos municpios do

Brasil.

Pgina | 9

municpios tem Educao menor do que 0,59467. A Educao mdia 0,58679 e o

desvio-padro (medida de disperso) de 0,17984, que implica em uma disperso

mdia para a questo.

3.2.3 VARIVEL EMPREGO E RENDA

0,980,840,700,560,420,280,140,00

Median

0,410,400,390,380,37

0,40005 0,40823

0,37243 0,38024

0,15259 0,15838

Mean 0,40414StDev 0,15543V ariance 0,02416Skewness 0,88240Kurtosis 1,30951N 5543

Minimum 0,00000

Summary for EMP&RENDAc

fortemente assimtrica tendendo para a esquerda, o que comum para variveis que

indiquem desempenho baixo e menores nmeros dentro de toda a distribuio dos

dados. Esta concluso est comprovada pelo teste de normalidade de Anderson-Darling

que indica que a distribuio no pode ser considerada uma Normal. A maior parte das

cidades possui valores baixos de EMPREGO E RENDA. Muitas cidades possuem um

nvel mdio de EMPREGO E RENDA e poucas possuem um nvel alto de EMPREGO

E RENDA. Existe apenas uma corcova no grfico.

- Valores Atpicos: H alguns valores atpicos de EMPREGO E RENDA atpicos, que

apresentam resultados abaixo de 0,4742, e muitos valores atpicos acima da curva

(0,72208). Esta informao nos diz que existem municpios no Brasil que apresentam

Taxas de EMPREGO E RENDA acima da curva e alguns abaixo da curva.

Pgina | 10

municpios tem EMPREGO E RENDA menor do que 0.37608. O EMPREGO E

RENDA mdio de 0,40414 e o desvio-padro (medida de disperso) de 0,15543, que

implica em uma disperso alta do ndice de EMPREGO E RENDA.

3.2.4 VARIVEL LIQUIDEZ

O indicador demonstra se o municpio possui recursos financeiros suficientes para fazer

frente ao montante de restos a pagar. Se o municpio apresentar mais restos a pagar do

que ativos financeiros disponveis a pontuao ser zero. Na leitura dos resultados,

quanto mais prximo de 1,00, menos o municpio est postergando pagamentos para o

exerccio seguinte sem a devida cobertura

0,980,840,700,560,420,280,140,00

Median

0,6750,6500,6250,6000,5750,550

0,54165 0,56127

0,63410 0,67418

0,36648 0,38035

Minimum 0,00000

Summary for LIQc

- Forma: O Histograma nos permite verificar que trata-se de uma distribuio totalmente

assimtrica tendendo levemente para a direita, o que comum para variveis que

que indica que a distribuio no pode ser considerada uma Normal. Os valores de

LIQUIDEZ se espalham por todo o grfico, no tendo um pico dos dados.

Pgina | 11

- Valores Atpicos: No existem valores atpicos de LIQUIDEZ visto que a

variabilidade dos dados to alta que se distribui uniformemente por todo o grfico.

No existe um padro nesta varivel.

municpios tem LIQUIDEZ menor do que 0.65578. O LIQUIDEZ mdio de 0,55146 e

o desvio-padro (medida de disperso) de 0,37328, que implica em uma disperso

absoluta do ndice de LIQUIDEZ.

3.2.5 VARIVEL H6 - Pessoas que vivem em domiclio que tem densidade de

moradores por dormitrio inferior a 2

0,980,840,700,560,420,280,140,00

Median

0,6050,6000,5950,5900,5850,580

0,58189 0,59031

0,59273 0,60358

0,15728 0,16323

Minimum 0,00000

Summary for H6c

a ser levemente assimtrica cujo pico concentra-se direita, o que comum para

variveis que indiquem desempenho mdio para alto. A curva apresenta algumas

corcovas, o que indica que temos um comportamento atpico da variabilidade sobre os

dados de H6. Os dados se dispersam bastante, e podemos afirmar que a varivel H6 tem

alta disperso em relao aos municpios do Brasil.

- Valores Atpicos: H muitos valores atpicos de H6, que apresentam resultados abaixo

de 0,12234.

Pgina | 12

municpios tem H6 menor do que 0.59765. O H6 mdio de 0.58610 e o desvio-padro

(medida de disperso) de 0.16020, que implica em uma disperso mdia para H6.

3.2.6 VARIVEL R1 - Pessoas com renda domiciliar per capita abaixo da linha de

pobreza (R$ 140,00)

0,980,840,700,560,420,280,140,00

Median

0,320,300,280,260,24

0,30468 0,31649

0,24120 0,26571

0,22070 0,22905

Mean 0,31059StDev 0,22480V ariance 0,05053Skewness 0,512744Kurtosis -0,931901N 5565

Minimum 0,00000

Summary for R1c

a ser levemente assimtrica cujo pico concentra-se esquerda, o que comum para

variveis que indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo

duas altamente acentuadas, a primeira com maior pico e localizada fortemente

esquerda do grfico. Indica que o comportamento atpico da variabilidade sobre os

dados de R1. Os dados se dispersam bastante, e podemos afirmar que a varivel R1 tem

alta disperso em relao aos municpios do Brasil.

- Valores Atpicos: No existem valores atpicos de R1.

municpios tem R1 menor do que 0.25299. O R1 mdio de 0.31059 e o desvio-padro

(medida de disperso) de 0.22480, que implica em uma disperso alta para R1.

Pgina | 13

3.2.7 VARIVEL T1_2 - Taxa de formalizao entre os empregados

0,980,840,700,560,420,280,140,00

Median

0,5850,5800,5750,5700,5650,560

0,55838 0,56921

0,56691 0,58531

0,20224 0,20990

Minimum 0,00000

Summary for T12c

- Forma: O Histograma nos permite verificar que trata-se de uma distribuio simtrica,

embora o grfico apresente vrias corcovas na sua distribui. Indica que trata-se de um

desempenho regular. Esta concluso est comprovada pelo teste de normalidade de

Anderson-Darling que indica que a distribuio pode ser considerada uma Normal.

Muitas cidades possuem um baixo nvel de desenvolvimento, muitas cidades possuem

um nvel mdio de desenvolvimento e muitas possuem um nvel alto de

desenvolvimento. Existem vrias corcovas no grfico que nos mostra que existem N

realidades nos dados analisados, ou seja, existem vrios tipos de municpios dentro do

Brasil em relao a formalizao dos empregos.

- Valores Atpicos: No existem valores atpicos de T1_2.

municpios tem T1_2 menor do que 0.57642. O T1_2 mdio de 0.56380, e o desvio-

padro (medida de disperso) de 0.20600, que implica em uma disperso grande da

populao de T1_2.

Pgina | 14

3.2.8 VARIVEL S1_1 - Taxa de mortalidade infantil, por mil nascidos vivos

0,980,840,700,560,420,280,140,00

Median

0,0440,0420,0400,0380,036

0,04166 0,04391

0,03688 0,03873

0,04206 0,04366

Minimum 0,00000

Summary for S11c

que indica que a distribuio no pode ser considerada uma Normal. A maior parte das

cidades possui valores baixos de S1_1. Pouca cidades possuem um nvel mdio de

S1_1 e quase nenhuma possuem um nvel alto de S1_1. Existem duas corcovas visveis

no grfico. Como trata-se de nascido vivos, o nmero baixo bom porque a maioria dos

nascidos vivos sobrevivem aps um ano de vida.

- Valores Atpicos: H alguns valores atpicos de S1_1, que apresentam resultados

acima de 0,13514. Esta informao nos diz que existem municpios no Brasil que

apresentam Taxas de S1_1 acima da curva , ou seja, que o ndice de mortalidade alto.

municpios tem S1_1 menor do que 0.03774. O S1_1 mdio de 0.04278 e o desvio-

padro (medida de disperso) de 0.04285, que implica em uma disperso baixa do

ndice de S1_1.

Pgina | 15

3.2.9 VARIVEL E2_4 Crianas entre 7 e 14 anos que estudam na srie correta

segundo sua idade

0,980,840,700,560,420,280,140,00

Median

0,780,770,760,750,740,73

0,72820 0,73680

0,76353 0,77676

0,16065 0,16673

Mean 0,73250StDev 0,16363V ariance 0,02677Skewness -0,835199Kurtosis 0,263592N 5565

Minimum 0,00000

Summary for E24c

fortemente assimtrica tendendo para a direita, o que comum para variveis que

indiquem desempenho alto e taxas elevadas. Esta concluso est comprovada pelo teste

de normalidade de Anderson-Darling que indica que a distribuio no pode ser

considerada uma Normal. A curva apresenta vrias corcovas, o que indica que temos

diversas realidades sobre a questo da srie correta dos alunos. Os dados se dispersam

muito, no existe um padro na questo e pode-se concluir que existe muita diversidade

entre a questo do grau correto de idade e escolaridade nos municpios.

- Valores Atpicos: H muitos valores atpicos de E2_4 atpicos, que apresentam

resultados abaixo de 0,25933 que so as cidades cujas crianas que esto na srie

correta

municpios tem E2_4 menor do que 0.76989. O E2_4 mdio de 0.73250 e o desvio-

padro (medida de disperso) de 0.16363, que implica em uma disperso grande para

a questo.

Pgina | 16

3.2.10 VARIVEL E2_5 ndice transformado na escala Ideb de proficincia

Portugus e Matemtica Agregado para a quarta srie do Ensino Fundamental (5

ano EF)

0,980,840,700,560,420,280,140,00

Median

0,36500,36250,36000,35750,3550

0,35694 0,36402

0,35423 0,36342

0,13225 0,13725

Minimum 0,00000

Summary for E25c

indiquem desempenho baixo e taxas pequenas. Esta concluso est comprovada pelo

teste de normalidade de Anderson-Darling que indica que a distribuio no pode ser

considerada uma Normal. A curva apresenta vrias corcovas, o que indica que temos

diversas realidades sobre a questo da variabilidade sobre a Nota dos alunos em

portugus e matemtica para 5 srie do ensino fundamental . Os dados se dispersam

entre a questo da proficincia em portugus e matemtica dos alunos da 5 srie EF nos

municpios.

- Valores Atpicos: H muitos valores atpicos de E2_5 atpicos, que apresentam

resultados acima de 0,76773.

padro (medida de disperso) de 0.13470, que implica em uma disperso mdia para a

questo.

Pgina | 17

3.2.10 VARIVEL E2_6 ndice transformado na escala Ideb de proficincia em

Portugus e Matemtica Agregado oitava srie do Ensino Fundamental (9 ano

0,980,840,700,560,420,280,140,00

Median

0,5040,5020,5000,4980,4960,494

0,49644 0,50331

0,49365 0,50340

0,12833 0,13319

Minimum 0,00000

Summary for E26c

a ser simtrica cujo pico concentra-se no centro, o que comum para variveis que

indiquem desempenho regular. A curva apresenta vrias corcovas, o que indica que

temos diversas realidades sobre a questo da variabilidade sobre a Nota dos alunos em

portugus e matemtica para 9 srie do ensino fundamental . Os dados se dispersam

entre a questo da proficincia em portugus e matemtica dos alunos da 9 srie EF nos

municpios.

- Valores Atpicos: H muitos valores atpicos de E2_6 atpicos, sendo poucos que

apresentam resultados abaixo de 0.10652 e muitos acima de 0.87197. O desempenho de

proficincia em portugus e matemtica possui um desempenho mdio nos municpios

do Brasil.

padro (medida de disperso) de 0.13072, que implica em uma disperso mdia para a

questo.

Pgina | 18

3.3 RELAO ENTRE VARIVEIS: CORRELAO, REGRES-SO E TESTE QUI-QUADRADO

Grficos de disperso devem ser inicialmente analisados quanto a seu padro geral e

seus desvios relativos ao padro. A descrio do padro geral pode ser feita pela

verificao de sua forma, direo e intensidade.

3.3.1 GRFICOS DE DISPERSO entre variveis Educao e Emprego e Renda

GRAFH >> SCATTERPLOT >> SIMPLE

A quantidade de dados analisados muito grande, so 5565 municpios, o que causa

uma mancha no grfico e dificulta a visualizao. Uma forma de contornar esta

situao seria selecionar os dados por amostragem, mas neste caso no aplicado, pois

no existem critrios especficos que garantiriam a fidelidade da amostra em relao

populao.

1,00,80,60,40,20,0

EMP&RENDAc

Scatterplot of EDUCc vs EMP&RENDAc

Grficos de disperso devem ser inicialmente analisados quanto a seu padro geral e

seus desvios relativos ao padro. A descrio do padro geral pode ser feita pela

verificao de sua forma, direo e intensidade.

Pgina | 19

Direo: Da anlise das correlaes acima percebemos que quase todas possuem

associaes positivas, ou seja, o crescimento de uma varivel acompanhado do

crescimento da outra. O que nos parece que no h nenhuma associao negativa, ao

menos de evidncia visual.

Intensidade: O grfico acima parece indicar a existncia de relaes lineares, embora no

ponto mais alto do grfico os pontos tendem a decair, e perde a caracterstica de uma

Forma: O grfico apresenta conglomerados que sugerem relaes lineares, embora

prejudicado pelo excesso de dados da populao (5565 linhas).

Valores Atpicos: Todos os grficos indicam a existncia de valores atpicos, ou seja,

indivduos ou municpios que possuem seus indicadores de Educao e Emprego e

Renda fora da curva.

3.3.2 LINHAS DE TENDNCIAS entre Educao e Emprego e Renda

GRAFH >> SCATTERPLOT >> WITH REGRESSION

1,00,80,60,40,20,0

EMP&RENDAc

Scatterplot of EDUCc vs EMP&RENDAc

Pgina | 20

Para se verificar qual o tipo de relao (linear, quadrtica, cbica, exponencial, etc.)

existente entre as variveis, adicionamos em cada grfico de disperso uma linha de

tendncia.

O grfico analisado neste caso contm a varivel Educao em relao Emprego e

Renda. Podemos afirmar que os pontos esto muito prximos da linha e so

ascendentes, o que nos aponta que o tipo de relao entre as variveis linear, embora

existam valores atpicos distribudos por toda a extenso da reta.

3.3.3 LINHAS DE TENDNCIAS entre Educao e H6 (Proporo de pessoas que

vivem em domiclio que tem densidade de moradores por dormitrio inferior a 2)

1,00,80,60,40,20,0

Scatterplot of EDUCc vs H6c

O segundo grfico compara a tendncia entre as variveis Educao com H6. Se

compararmos com o grfico anterior, podemos constatar que a nuvem de pontos est

mais concentrada na parte superior que o grfico anterior. As duas linhas so crescentes,

e conclu-se que quando aumenta o ndice de Educao melhora a questo da habitao.

Pgina | 21

3.3.4 CORRELAO LINEAR

A matriz de correlao inclu o teste de significncia p-value. Para a correlao foi

utilizado o ndice de Pearson. Vale ressaltar que o ndice de correlao entre as

variveis no requer que exista uma relao de causa-efeito entre ambas.

Esta primeira viso exibe a correlao entre todas as variveis utilizadas no trabalho.

STAT >> BASIC STATISTICS >> CORRELATION

Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; ...

ISDMc EDUCc EMP&RENDAc LIQc H6cEDUCc 0,783

EMP&RENDAc 0,526 0,3760,000 0,000

LIQc 0,276 0,233 0,1970,000 0,000 0,000

H6c 0,695 0,552 0,210 0,2600,000 0,000 0,000 0,000

R1c -0,951 -0,754 -0,510 -0,308 -0,7090,000 0,000 0,000 0,000 0,000

T12c 0,806 0,610 0,587 0,302 0,4490,000 0,000 0,000 0,000 0,000

S11c -0,147 -0,122 -0,076 -0,049 -0,1150,000 0,000 0,000 0,000 0,000

E24c 0,764 0,767 0,364 0,263 0,6130,000 0,000 0,000 0,000 0,000

E25c 0,708 0,712 0,316 0,232 0,5830,000 0,000 0,000 0,000 0,000

E26c 0,643 0,614 0,308 0,248 0,5640,000 0,000 0,000 0,000 0,000

Pgina | 22

R1c T12c S11c E24c E25cT12c -0,782

S11c 0,140 -0,1120,000 0,000

E24c -0,768 0,599 -0,1280,000 0,000 0,000

E25c -0,693 0,505 -0,096 0,5770,000 0,000 0,000 0,000

E26c -0,643 0,474 -0,074 0,490 0,7500,000 0,000 0,000 0,000 0,000

Cell Contents: Pearson correlationP-Value

A correlao sempre um nmero entre zero e um e mede a intensidade de relaes

lineares. A correlao entre as variveis analisadas positiva em alguns casos e

negativa em outros, mas de fraca intensidade. Os valores mais representativos esto

marcado com verde quando positivos e vermelhos quando negativos. Indica que a

correlao entre estas variveis mais intensa. Portanto, podemos afirmar que estas

variveis possuem relaes lineares.

3.3.5 REGRESSO DE MNIMOS QUADRADOS A correlao mede a direo e a intensidade da relao linear (linha reta) entre duas

variveis quantitativas. Se um diagrama de disperso mostra uma relao linear,

interessante resumirmos esse padro geral traando uma reta no diagrama de disperso.

Uma reta de regresso resume a relao entre duas variveis, mas somente em um

contexto especfico: quando uma das variveis ajuda a explicar ou a predizer a outra, ou

seja, a regresso descreve uma relao entre uma varivel explanatria e uma varivel

resposta.

A regresso linear assume sempre a forma de uma equao linear:

Y = a + bx, sendo:

Pgina | 23

Y= Varivel dependente;

a = uma constante, o intercepto;

b = a inclinao na reta;

x = varivel independente ou explicativa.

O b, ou seja, a declividade dada pela multiplicao do ndice de correlao pela

diviso dos desvios-padro entre as variveis x e y. E a dado pela mdia de Y

menos a multiplicao de b pela mdia de x. Assim, percebe-se muito claramente

que a regresso depende da correlao entre as variveis, alm de medidas de centro de

cada uma das variveis.

Segue abaixo o resultado da regresso entre as variveis Educao e H6.

Regression Analysis: EDUCc versus H6c

The regression equation isEDUCc = 0,224 + 0,619 H6c

5543 cases used, 22 cases contain missing values

Predictor Coef SE Coef T PConstant 0,223961 0,007637 29,33 0,000H6c 0,61886 0,01256 49,25 0,000

S = 0,149997 R-Sq = 30,4% R-Sq(adj) = 30,4%

Analysis of Variance

Source DF SS MS F PRegression 1 54,579 54,579 2425,81 0,000Residual Error 5541 124,668 0,022Total 5542 179,247

A tabela acima exibe o resultado da frmula entre as variveis Educao e H6. Se

substitusse o valor de Educao se chegaria ao valor de H6 esperado. A a expresso

numrica da reta de tendncia que vimos nos itens acima. Esta equao tem um poder

explicativo de 76,4%, que o R-Quadrado. O valor da constante 0,224 significa que, se

o H6 fosse zero, o valor do Educao seria 0,224.

Pgina | 24

3.3.6 DENDROGRAMA

Um Dendrograma (dendr(o) = rvore) um tipo especfico de diagrama ou

representao icnica que organiza determinados fatores e variveis. um diagrama de

similaridade.

A interpretao de um dendrograma de similaridade entre amostras fundamenta-se na

intuio: duas amostras prximas devem ter tambm valores semelhantes para as

variveis medidas. Ou seja, elas devem ser prximas matematicamente no espao

multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas s

amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade

de modo que podemos ter uma viso bidimensional da similaridade ou dissimilaridade

de todo o conjunto de amostras utilizado no estudo.

Segue abaixo o Dendrograma das variveis analisadas:

STAT >> MULTIVARIATE >> CLUSTER VARIABLE

S11cR1

100,00

Variables

DendrogramSingle Linkage; Correlation Coefficient Distance

As variveis ISDM e T1_2 so as que possuem o maior nvel de similaridade, por volta

de 90%. As demais variv eis (Educao, E2_4, E2_5, E2_6 e H6) tambm so muito

similares, variando at 85%. J as variveis Emprego e Renda, Liquidez, R1 e S1_1

encontram-se com baixo nvel de similaridade.

Pgina | 25

3.3.7 RELAES ENTRE AS VARIVEIS CATEGRICAS

Para correlacionarmos duas variveis categricas, criamos duas colunas categorizadas

com informaes sobre dados de S1_1 por quartil, tendo valores que variam de 1 a 4, e

repetimos o processo para a varivel R1, com os mesmos valores categricos.

Os grficos acima foram gerados a partir das informaes dos quartis utilizando a

funo Data >> Code >> Numeric to Numeric e colocando os intervalos para gerao

das variveis categricas. Em seguida foi gerado um Pie Chart atravs da funo Grafh

>> Pie Chart.

Podemos observar que existe um nvel de similaridade entre as variveis categrica de

quartis das variveis S1_1 e R1. O que difere so os primeiros quartis, pois a varivel

S1_1 possui apenas 0,4% dos dados no primeiro quartil, tornando quase imperceptvel

no grfico. O terceiro e quarto quartis das variveis so bastante semelhantes.

Para analizar a semelhana entre as variveis categricas ser executada a tabulao

cruzada entre elas.

STAT >> TABLES >> CROSS TABULATION AND CHI SQUARE

Pgina | 26

Tabulated statistics: S11 Q; R1 Q

Rows: S11 Q Columns: R1 Q

1 2 3 4 All

1 467 434 313 177 13912 428 303 308 356 13953 276 343 369 400 13884 223 308 402 458 1391All 1394 1388 1392 1391 5565

Cell Contents: Count

Pearson Chi-Square = 295,138; DF = 9; P-Value = 0,000Likelihood Ratio Chi-Square = 311,515; DF = 9; P-Value = 0,000

As linhas so representadas por S1_1 e as colunas por R1. Os dados aparecem

distribudos uniformemente entre cada quartil de uma varivel.

Pgina | 27

3.4 MODELOS DE REGRESSO LINEAR MULTIPLOS

3. 4.1 CORRELAO LINEAR, ANLISE DE REGRAO E STEPWISE

Para o estudo em questo, queremos entender quais variveis explicam melhor a

varivel especfica. Para tanto utilizaremos o grupo das variveis analticas e sinttica,

comparando com a varivel Educao.

Inicialmente sero analisadas as correlaes lineares entre a varivel EDUCAO com

as variveis analticas e sintticas, relacionadas a este estudo, para verificar quais

variveis melhor explicam a EDUCAO.

Pgina | 28

As correlaes significativas de acordo com o P-Value, para este trabalho, ser

considerada significativa quando >= 0,70). Apenas as variveis R1, E2_4 e E2_5

possuem um coeficiente de correlao satisfatoriamente forte com a varivel dependente

Educao.

3.4.2 REGRESSO: EDUCAO COM DEMAIS VARIVEIS DO ESTUDO

Regression Analysis: EDUCc versus EMP&RENDAc; LIQc; ...

The regression equation is

EDUCc = 0,106 - 0,0151 EMP&RENDAc - 0,0115 LIQc - 0,0969 H6c - 0,137 R1c+ 0,0642 T12c - 0,0409 S11c + 0,482 E24c + 0,391 E25c + 0,127 E26c

5543 cases used, 22 cases contain missing values

Predictor Coef SE Coef T PConstant 0,10618 0,01844 5,76 0,000EMP&RENDAc -0,01513 0,01043 -1,45 0,147LIQc -0,011503 0,003654 -3,15 0,002H6c -0,09691 0,01229 -7,88 0,000R1c -0,13665 0,01431 -9,55 0,000T12c 0,06421 0,01089 5,90 0,000S11c -0,04094 0,03034 -1,35 0,177E24c 0,48233 0,01249 38,60 0,000E25c 0,39061 0,01598 24,45 0,000E26c 0,12733 0,01556 8,18 0,000

S = 0,0954390 R-Sq = 71,9% R-Sq(adj) = 71,8%

Analysis of Variance

Source DF SS MS F PRegression 9 128,849 14,317 1571,76 0,000Residual Error 5533 50,398 0,009Total 5542 179,247

O R-Square alto = 71,9% e todos os valores Betas da equao apresentam valores

prximos a zero, indicando baixo poder explicativo da varivel EDUCAO. Por

exemplo, a variao de Liquidez leva a uma variao de apenas -0,011503 na

EDUCAO. O P-value das variveis possui valore baixo, sendo confiveis para a

explicao da varivel EDUCAO.

Pgina | 29

3.4.3 STEPWISE DA EDUCAO COM FILTRO DOS RESULTADOS

OBTIDOS

A anlise STEPWISE demonstra o percentual de composio das variveis Predictors

na equao da Response.

Stepwise Regression: EDUCc versus ISDMc; EMP&RENDAc; ...

Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is EDUCc on 10 predictors, with N = 5543N(cases with missing observations) = 22 N(all cases) = 5565

Step 1 2 3 4 5 6Constant 0,08629 -0,04107 -0,04138 -0,02602 -0,04702 -0,14311

ISDMc 0,7382 0,4475 0,2729 0,3146 0,2990 0,3800T-Value 93,81 40,29 22,72 24,96 23,51 17,22P-Value 0,000 0,000 0,000 0,000 0,000 0,000

E24c 0,443 0,415 0,435 0,443 0,452T-Value 34,21 34,26 35,76 36,41 36,69P-Value 0,000 0,000 0,000 0,000 0,000

E25c 0,385 0,408 0,346 0,345T-Value 28,72 30,26 21,84 21,83P-Value 0,000 0,000 0,000 0,000

H6c -0,114 -0,127 -0,118T-Value -10,08 -11,16 -10,31P-Value 0,000 0,000 0,000

E26c 0,113 0,119T-Value 7,46 7,86P-Value 0,000 0,000

R1c 0,084T-Value 4,49P-Value 0,000

S 0,112 0,102 0,0948 0,0939 0,0935 0,0933R-Sq 61,36 68,10 72,24 72,74 73,01 73,11R-Sq(adj) 61,36 68,09 72,22 72,72 72,98 73,08Mallows Cp 2425,5 1038,5 188,3 87,2 33,2 15,0

O Prximo passo calcular a formula utilizando as vaiveis demonstradas pela funo

Stepwise como sendo as que mais explicam a Educao.

Pgina | 30

STAT >> REGRESSION >> REGRESSION

A frmula resultante :

Nesta equao foram utilizadas as variveis analticas e sintticas. Uma outra forma de

se fazer este estudo oseria isolar um primeiro grupo de clculo utilizando apenas as

variveis analticas e um segundo grupo com as variveis sintticas.

3.5 COMPARAES

A estimao e os testes de hipteses esto relacionados a inferncia estatstica. A

estimao refere-se a utilizar os dados da amostra para estimar os parmetros

populacionais desconhecidos, enquanto os testes de hipteses so utilizados para

verificar a validade destes parmetros obtidos da amostra em relao aos parmetros da

populao, dado um certo grau de confiana. O teste de hiptese tambm nos permite

comparar parmetros de populaes distintas de forma a fazermos inferncias

estatsticas sobre estas populaes. Essencialmente as comparaes realizadas nos testes

de hipteses se valem de testar uma hiptese nula (H0)e uma hiptese alternativa (H1)

estabelecendo-se um grau de confiana em relao a se aceitar ou rejeitar as hipteses

estabelecidas.

Para realizao dos testes de hipteses pode-se utilizar dois tipos de abordagem:

A do intervalo de confiana na qual se faz o teste objetivando verificar a pertinncia de

um parmetro em um intervalo de valores com certa probabilidade de acerto.

A do teste de significncia leva em considerao a probabilidade de cometer-se um erro

do tipo I (rejeitar a hiptese nula quando ela verdadeira). Para procurar evitar que este

erro acontea deve-se arbitrar para o teste uma baixa probabilidade de sua ocorrncia e

depois comparar com o p-value determinado pelo teste. Assim quando dito que um

teste estatisticamente significativo implica rejeitar a hiptese nula.

O presente trabalho prope a comparao das mdias entre as diversas regies do Brasil,

de acordo com as variveis deste estudo.

Pgina | 31

O objetivo comparar a mdia dos indicadores e realizar testes de hipteses das cidades

com maiores ndices de desenvolvimento.

3.5.1 Varivel ISDM por Regio

SulSudesteNorteNordesteCentro-Oeste

Boxplot of ISDMc

A Regio Sudeste possui o maior ISDM do pas, o que indica que esta a Regio mais

desenvolvida do Brasil, segundo a pesquisa. A regio Sul encontra-se prxima a Regio

Sudeste, e ocupa o segundo lugar.

A Regio que apresenta o ISDM mdio mais baixo do Pas a Norte, seguida da

Nordeste. Pelo tamanho da caixa do BloxPlot podemo visualizar a amplitude da

variana. Podemos afirmar que os dados da Regio Norte possuem maior variabilidade

que os dados das demais regies. As Regies que possuem menor variabilidade dos

dados so Centro-Oest e Sul.

Pgina | 32

One-way ANOVA: ISDMc versus Regio

Source DF SS MS F PRegio 4 127,5568 31,8892 2369,00 0,000Error 5560 74,8433 0,0135Total 5564 202,4002

S = 0,1160 R-Sq = 63,02% R-Sq(adj) = 63,00%

Individual 95% CIs For Mean Based onPooled StDev

Level N Mean StDev ---+---------+---------+---------+------Centro-Oeste 468 0,7239 0,0917 (*)Nordeste 1790 0,4997 0,1245 (*)Norte 447 0,4809 0,1709 (*)Sudeste 1669 0,8225 0,1123 *)Sul 1191 0,7992 0,0875 (*)

---+---------+---------+---------+------

0,50 0,60 0,70 0,80

Pooled StDev = 0,1160

O grau de variao entre as Regies muito alto (2369), e o P-value nos indica que a

informao confivel e no existe chance deste valor ser diferente.

Pgina | 33

3.5.2 Varivel EDUCAO por Regio

Boxplot of EDUCc

One-way ANOVA: EDUCc versus Regio

S = 0,1256 R-Sq = 51,27% R-Sq(adj) = 51,23%

Level N Mean StDev ---------+---------+---------+---------+Centro-Oeste 464 0,6063 0,1142 (-*)Nordeste 1783 0,4418 0,1302 (*)Norte 445 0,4200 0,1378 (*)Sudeste 1663 0,7360 0,1293 (*)Sul 1188 0,6504 0,1120 (*)

---------+---------+---------+---------+0,50 0,60 0,70 0,80

No indicador de Educao, podemos verificar que a Regio Sudeste possui o maior

ndice de Educao Mdio (0,7360), e seguida da Regio Sul, e o menor ndice o da

Regio Norte (0,4200). A variao entre a mdia da Regio Norte e da Nordeste

(0,4418) bem pequena.

Pgina | 34

3.5.3 Varivel EMPREGO E RENDA por Regio

Boxplot of EMP&RENDAc

One-way ANOVA: EMP&RENDAc versus Regio

S = 0,1448 R-Sq = 13,32% R-Sq(adj) = 13,26%

Level N Mean StDev --------+---------+---------+---------+-Centro-Oeste 464 0,4183 0,1391 (---*--)Nordeste 1783 0,3349 0,1290 (-*)Norte 445 0,3416 0,1422 (--*---)Sudeste 1663 0,4496 0,1682 (*-)Sul 1188 0,4624 0,1344 (-*-)

--------+---------+---------+---------+-0,360 0,400 0,440 0,480

No indicador de Emprego e Renda, podemos verificar que a Regio Sul possui o maior

ndice Mdio (0,4624), e seguida da Regio Sudeste, e o menor ndice o da Regio

Nordeste (0,3349). A variao entre a mdia da Regio Norte e da Norte (0,3416) bem

pequena.

O grau de variao entre as Regies baixo (F = 212,84) e o P-value nos indica que a informao confivel e no existe chance deste valor ser diferente.

Pgina | 35

3.5.4 Varivel LIQUIDEZ por Regio

Boxplot of LIQc

One-way ANOVA: LIQc versus Regio

S = 0,3487 R-Sq = 12,79% R-Sq(adj) = 12,73%

Level N Mean StDev ---+---------+---------+---------+------Centro-Oeste 468 0,6541 0,3415 (--*---)Nordeste 1790 0,3825 0,3591 (*-)Norte 447 0,5411 0,3846 (--*--)Sudeste 1669 0,5719 0,3564 (*-)Sul 1191 0,7402 0,3084 (-*-)

---+---------+---------+---------+------0,40 0,50 0,60 0,70

No indicador de Liquidez, podemos verificar que a Regio Sudeste possui o maior

ndice Mdio (0,5719), e seguida da Regio Sul, e o menor ndice o da Regio

Nordeste (0,3825).

O grau de variao entre as Regies baixo (F = 203,94) e o P-value nos indica que a

Pgina | 36

3.5.5 Varivel H6 por Regio

Boxplot of H6c

One-way ANOVA: H6c versus Regio

S = 0,1117 R-Sq = 51,44% R-Sq(adj) = 51,40%

Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 468 0,6321 0,1147 (*)Nordeste 1790 0,4774 0,1044 (*)Norte 447 0,3725 0,1728 (*)Sudeste 1669 0,6421 0,1065 (*)Sul 1191 0,7330 0,0983 (*)

----+---------+---------+---------+-----0,40 0,50 0,60 0,70

No indicador H6, podemos verificar que a Regio Sul possui o maior ndice Mdio

(0,7330), e seguida da Regio Sudeste, e o menor ndice o da Regio Norte (0,3725).

O grau de variao entre as Regies alto (F = 1472,35) e o P-value nos indica que a

Pgina | 37

3.5.6 Varivel R1 por Regio

Boxplot of R1c

One-way ANOVA: R1c versus Regio

S = 0,1313 R-Sq = 65,92% R-Sq(adj) = 65,89%

Level N Mean StDevCentro-Oeste 468 0,1925 0,1171Nordeste 1790 0,5388 0,1346Norte 447 0,5026 0,1928Sudeste 1669 0,1777 0,1339Sul 1191 0,1281 0,0940

Individual 95% CIs For Mean Based on Pooled StDevLevel +---------+---------+---------+---------Centro-Oeste (*)Nordeste (*)Norte (*)Sudeste (*)Sul (*)

+---------+---------+---------+---------0,12 0,24 0,36 0,48

No indicador de R1, podemos verificar que a Regio Sul possui o menor ndice Mdio

(0,1281), e seguida da Regio Sudeste, e o maior ndice o da Regio Nordeste

(0,5388). Neste caso a informao diz que a Renda abaixo da linha da pobreza, ento

quanto menor melhor. O grau de variao entre as Regies baixo (F = 203,94) e o P-

value nos indica que a informao confivel e no existe chance deste valor ser

diferente.

Pgina | 38

3.5.7 Varivel T1_2 por Regio

Boxplot of T12c

One-way ANOVA: T12c versus Regio

S = 0,1549 R-Sq = 43,49% R-Sq(adj) = 43,45%

Level N Mean StDev -+---------+---------+---------+--------Centro-Oeste 468 0,5930 0,1337 (*-)Nordeste 1790 0,3928 0,1510 (*)Norte 447 0,4486 0,1542 (-*)Sudeste 1669 0,6581 0,1782 (*)Sul 1191 0,7203 0,1321 (*)

-+---------+---------+---------+--------0,40 0,50 0,60 0,70

No indicador T1_2, podemos verificar que a Regio Sul possui o maior ndice Mdio

(0,7203), e seguida da Regio Sudeste, e o menor ndice o da Regio Nordeste

(0,3928). O grau de variao entre as Regies alto (F = 1069,67) e o P-value nos

indica que a informao confivel e no existe chance deste valor ser diferente.

Pgina | 39

3.5.8 Varivel S1_1 por Regio

Boxplot of S11c

One-way ANOVA: S11c versus Regio

S = 0,04249 R-Sq = 1,71% R-Sq(adj) = 1,64%

Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 468 0,04258 0,05074 (-----*----)Nordeste 1790 0,04741 0,03271 (--*--)Norte 447 0,05346 0,04539 (----*-----)Sudeste 1669 0,04080 0,04173 (--*--)Sul 1191 0,03467 0,05104 (---*--)

----+---------+---------+---------+-----0,0350 0,0420 0,0490 0,0560

No indicador de S1_1, podemos verificar que a Regio Sul possui o menor ndice

Mdio (0,03467), e seguida da Regio Sudeste, e o maior ndice o da Regio Norte

(0,5346). Neste caso a informao diz que a mortalidade infantil, ento quanto menor

melhor. O grau de variao entre as Regies baixo (F = 24,14) e o P-value nos indica

que a informao confivel e no existe chance deste valor ser diferente.

Pgina | 40

3.5.9 Varivel E2_4 por Regio

Boxplot of E24c

One-way ANOVA: E24c versus Regio

S = 0,1139 R-Sq = 51,55% R-Sq(adj) = 51,51%

Level N Mean StDev -------+---------+---------+---------+--Centro-Oeste 468 0,8011 0,0887 (*-)Nordeste 1790 0,5881 0,1298 (*)Norte 447 0,5969 0,1841 (*-)Sudeste 1669 0,8245 0,1017 (*)Sul 1191 0,8444 0,0711 (*)

-------+---------+---------+---------+--0,630 0,700 0,770 0,840

As maiores variaes de dados encontram-se na Regio Norte, seguida da Nordeste, e a

Regio que apresenta o mais alto grau de E2_4 a Sul, Seguida da Sudeste. A regio

Sul possui baixa variabilidade dos dados de E2_4. A regio com o menor ndice de

E2_4 a Nordeste (0,5881).

Pgina | 41

Boxplot of E25c

S = 0,08796 R-Sq = 57,39% R-Sq(adj) = 57,36%

Level N Mean StDev -------+---------+---------+---------+--Centro-Oeste 468 0,36291 0,07557 (*)Nordeste 1790 0,23474 0,07661 (*Norte 447 0,27622 0,07793 (*-)Sudeste 1669 0,47709 0,10320 *)Sul 1191 0,41670 0,08878 (*

-------+---------+---------+---------+--0,280 0,350 0,420 0,490

VO ndice Brasil de proficincia Portugus e Matemtica (5 ano EF), por Regio,

aparece baixo em todo o territrio nacional, sendo a Regio Sudeste a que apresenta o

maior percentual (0,47709), seguida da Regio Sul. Este valor demonstra que a

qualidade do ensino no Brasil baixa e precisa ser melhorada nos prximos anos. Este

dado muito importante para a Educao nos municpios. A Regio que apresenta a

menor nota a Nordeste (0,23474), seguida da Norte.

Pgina | 42

Boxplot of E26c

S = 0,09533 R-Sq = 46,85% R-Sq(adj) = 46,81%

Level N Mean StDev ------+---------+---------+---------+---Centro-Oeste 468 0,49470 0,08210 (*-)Nordeste 1790 0,38674 0,08935 (*)Norte 447 0,43068 0,08755 (-*)Sudeste 1669 0,58496 0,10269 (*)Sul 1191 0,57868 0,10079 (*)

------+---------+---------+---------+---0,420 0,480 0,540 0,600

O ndice Brasil de proficincia Portugus e Matemtica (9 ano EF), por Regio aparece

baixo em todo o territrio nacional, sendo a Regio Sudeste a que apresenta o maior

percentual (0,58496), seguida da Regio Sul. Este valor demonstra que a qualidade do

ensino no Brasil baixa e precisa ser melhorada nos prximos anos. Este dado muito

importante para a Educao nos municpios. As Regies que apresentam as menores

notas so a Nordeste (0,38674) seguida da Norte.

Pgina | 43

3.6 AMOSTRAGEM

Em Estatstica, amostra o conjunto de elementos extrados de um conjunto maior,

chamado Populao. um conjunto constitudo de indivduos (famlias ou outras

organizaes), acontecimentos ou outros objetos de estudo que o investigador pretende

descrever ou para os quais pretende generalizar as suas concluses ou resultados.

Principais razes para se trabalhar com uma amostra:

- A populao infinita, ou considerada como tal, no podendo portanto ser analisada

na ntegra;

- Custo excessivo do processo de recolha e tratamento dos dados, como resultado da

grande dimenso da populao ou da complexidade do processo de caracterizao de

todos os elementos da populao;

- Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo

obteno de informao desatualizada;

- As populaes so dinmicas, de onde resulta que os elementos ou objetos da

populao esto em constante renovao, de onde resulta a impossibilidade de analisar

todos os elementos desta populao;

- Inacessibilidade a alguns elementos da populao, por diversas causas.

Se a constituio da amostra obedecer a determinadas condies, a anlise das

caractersticas da amostra pode servir para se fazerem inferncias sobre a populao.

O objetivo deste estudo gerar as estatsticas com dois tipos de amostras diferentes,

uma contendo 50 linhas e outra contendo 100 linhas, e realizar comparaes de

resultados entre as amostras, e com a populao (5565 municpios).

A seguir sero apresentadas duas amostras, uma de 50 indivduos, ou municpios, e

outra composta por 100 indivduos. Para cada amostra foram efetuadas uma anlises

exploratria de dados, as correlaes e os dendogramas. As variveis utilizadas neste

estudo so H6, R1 e S1_1.

Pgina | 44

3.6.1 VARIAVEL H6

O comando do Minitab para gerar as amostra :

Calc >> Random Data >> Sample form columns

0,80,60,40,2

Median

0,620,600,580,560,540,520,50

0,50639 0,60616

0,51863 0,61927

0,14662 0,21873

A -Squared 0,34P-V alue 0,472

Minimum 0,06240

Summary for H6 smp 50

0,80,60,40,2

Median

0,620,600,580,560,540,520,50

0,50639 0,60616

0,51863 0,61927

0,14662 0,21873

Minimum 0,06240

0,900,750,600,450,300,15

Median

0,6500,6250,6000,5750,550

0,56014 0,62461

0,54093 0,65180

0,14264 0,18872

Minimum 0,11251

0,900,750,600,450,300,15

Median

0,6500,6250,6000,5750,550

0,56014 0,62461

0,54093 0,65180

0,14264 0,18872

Minimum 0,11251

0,980,840,700,560,420,280,140,00

Median

0,6050,6000,5950,5900,5850,580

0,58189 0,59031

0,59273 0,60358

0,15728 0,16323

Minimum 0,00000

Summary for H6c

0,980,840,700,560,420,280,140,00

Median

0,6050,6000,5950,5900,5850,580

0,58189 0,59031

0,59273 0,60358

0,15728 0,16323

Minimum 0,00000

Summary for H6c

Os grficos acima demonstram a curva de densidade, o primeiro contendo amostragem

de 50 indivduos, o segundo contendo 100 e o terceiro com toda a populao, 5565

municpios. A amostragem com 50 perde um pouco das informaes sobre as diversas

corcovas da populao, j a de 100 consegue ilustrar este fato. Podemos tambm

comparar as mdias dos 3 grficos, o primeiro com 0,55628, o segundo com 0,59238 e

o terceiro com 0,58610.

Podemos concluir que o trabalho com amostras muito til quando a populao muito

grande e no se tem tempo ou recursos financeiros para investir. Existe variabilidade

entre os grficos, mas no impede na chegada das mesmas concluses.

Pgina | 45

3.6.2 VARIAVEL R1

0,80,60,40,20,0

Median

0,500,450,400,350,30

0,31043 0,43946

0,30093 0,48231

0,18964 0,28289

Minimum 0,01503

Summary for R1 smp 50

0,80,60,40,20,0

Median

0,500,450,400,350,30

0,31043 0,43946

0,30093 0,48231

0,18964 0,28289

Minimum 0,01503

0,750,600,450,300,150,00

Median

0,350,300,250,200,15

0,26055 0,35651

0,14063 0,32504

0,21231 0,28091

Minimum 0,01503

0,750,600,450,300,150,00

Median

0,350,300,250,200,15

0,26055 0,35651

0,14063 0,32504

0,21231 0,28091

Minimum 0,01503

0,980,840,700,560,420,280,140,00

Median

0,320,300,280,260,24

0,30468 0,31649

0,24120 0,26571

0,22070 0,22905

Minimum 0,00000

Summary for R1c

0,980,840,700,560,420,280,140,00

Median

0,320,300,280,260,24

0,30468 0,31649

0,24120 0,26571

0,22070 0,22905

Minimum 0,00000

Summary for R1c

municpios. Todos os 3 grficos demonstram o mesmo comportamento da curva, que

contm N corcovas e indica que existe muitas realidades diferentes nos municpios do

Brasil em relao a renda abaixo da pobreza.

Podemos tambm comparar as mdias dos 3 grficos, o primeiro com 0,37494, o

segundo com 0,30853 e o terceiro com 0,31059. A variao muito pequena entre as

mdias das diversas amostras, o que confirma a sua utilidade e praticidade.

Pgina | 46

3.6.3 VARIAVEL S1_1

0,080,060,040,020,00

Median

0,0550,0500,0450,0400,0350,030

0,033201 0,047505

0,029194 0,052019

0,021021 0,031359

Minimum 0,000000

Summary for S11 smp 50

0,080,060,040,020,00

Median

0,0550,0500,0450,0400,0350,030

0,033201 0,047505

0,029194 0,052019

0,021021 0,031359

Minimum 0,000000

0,180,150,120,090,060,030,00

Median

0,05000,04750,04500,04250,04000,03750,0350

0,037350 0,051141

0,034586 0,047411

0,030512 0,040369

Minimum 0,000000

0,180,150,120,090,060,030,00

Median

0,05000,04750,04500,04250,04000,03750,0350

0,037350 0,051141

0,034586 0,047411

0,030512 0,040369

Minimum 0,000000

0,980,840,700,560,420,280,140,00

Median

0,0440,0420,0400,0380,036

0,04166 0,04391

0,03688 0,03873

0,04206 0,04366

Minimum 0,00000

Summary for S11c

0,980,840,700,560,420,280,140,00

Median

0,0440,0420,0400,0380,036

0,04166 0,04391

0,03688 0,03873

0,04206 0,04366

Minimum 0,00000

Summary for S11c

municpios. Dos trs casos apresentados neste estudo, este exemplo o que mais perde

em comparao das amostras com a populao. A populao tende a se concentrar

totalmente esquerda, o que no ocorreu com a amostra de 50. J a amostra de 100

ficou mais prxima da populao.

Todos os 3 grficos demonstram o mesmo comportamento da curva, que contm N

corcovas e indica que existe muitas realidades diferentes nos municpios do Brasil em

relao motalidade infantil

Podemos tambm comparar as mdias dos 3 grficos, o primeiro com 0,040353, o

segundo com 0,044245 e o terceiro com 0,04278. A variao muito pequena entre as

mdias das diversas amostras, o que confirma a sua utilidade e praticidade.

Pgina | 47

3.7 ANLISE MULTIVARIADA COMPONENTES PRINCIPAIS

Este estudo efetuar uma anlise das correlaes e dos componentes principais (anlise

multivariada) de dados quantitativos sobre os dados de desenvolvimento dos

Municpios do Brasil. Para tal, iniciamos com anlise da estatstica descritiva. Em

seguida passamos para a anlise das correlaes e dendrogramas. Na terceira parte

utilizamos a anlise dos componentes principais.

3.7.1 CORRELAO LINEAR

Segue abaixo a matriz de correlao incluindo o teste de significncia p-value. Para a

correlao foi utilizado o ndice de Pearson. Vale ressaltar que o ndice de correlao

entre as variveis no requer que exista uma relao de causa-efeito entre ambas.

ISDMc EDUCc EMP&RENDAc LIQc H6cEDUCc 0,783

EMP&RENDAc 0,526 0,3760,000 0,000

LIQc 0,276 0,233 0,1970,000 0,000 0,000

H6c 0,695 0,552 0,210 0,2600,000 0,000 0,000 0,000

R1c -0,951 -0,754 -0,510 -0,308 -0,7090,000 0,000 0,000 0,000 0,000

T12c 0,806 0,610 0,587 0,302 0,4490,000 0,000 0,000 0,000 0,000

S11c -0,147 -0,122 -0,076 -0,049 -0,1150,000 0,000 0,000 0,000 0,000

E24c 0,764 0,767 0,364 0,263 0,6130,000 0,000 0,000 0,000 0,000

E25c 0,708 0,712 0,316 0,232 0,5830,000 0,000 0,000 0,000 0,000

E26c 0,643 0,614 0,308 0,248 0,5640,000 0,000 0,000 0,000 0,000

Pgina | 48

(continuao)R1c T12c S11c E24c E25c

T12c -0,7820,000

S11c 0,140 -0,1120,000 0,000

E24c -0,768 0,599 -0,1280,000 0,000 0,000

E25c -0,693 0,505 -0,096 0,5770,000 0,000 0,000 0,000

E26c -0,643 0,474 -0,074 0,490 0,7500,000 0,000 0,000 0,000 0,000

Cell Contents: Pearson correlationP-Value

As correlaes significativas de acordo com o P-Value, para este trabalho, ser

considerada significativa quando >= 0,70). Apenas as variveis R1, E2_4 e E2_5

possuem um coeficiente de correlao satisfatoriamente forte com a varivel dependente

Educao.

3.7.2 DENDROGRAMA

A interpretao de um dendrograma de similaridade entre amostras fundamenta-se na

intuio: duas amostras prximas devem ter tambm valores semelhantes para as

variveis medidas. Ou seja, elas devem ser prximas matematicamente no espao

multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas s

amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade

de modo que podemos ter uma viso bidimensional da similaridade ou dissimilaridade

de todo o conjunto de amostras utilizado no estudo.

Pgina | 49

S11cR1

100,00

Variables

tyDendrogram

Single Linkage; Correlation Coefficient Distance

As variveis ISDM e T1_2 so as que possuem o maior nvel de similaridade, por volta

de 90%. As demais variv eis (Educao, E2_4, E2_5, E2_6 e H6) tambm so muito

similares, variando at 85%. J as variveis Emprego e Renda, Liquidez, R1 e S1_1

encontram-se com baixo nvel de similaridade.

S11cR1

100,00

Variables

DendrogramSingle Linkage; Correlation Coefficient Distance

Pgina | 50

O Dendrograma acima demonstra um primeiro grupo de dados composto pelas variveis

ISDM, T!@, Educao, E2_4, E2_5, E2_6 e H6.

As demais variveis no apresentam similaridade segundo este mtodo, e so

consideradas em diferentes cluster de dados. As variveis que apresentam menor nvel

de similaridade so R1 e S1_1.

3.8.3. PRINCIPAIS COMPONENTES >> STAT >> MULTIVARIATE >> Principal Components Principal Component Analysis: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S

Eigenanalysis of the Correlation Matrix5543 cases used, 22 cases contain missing values

Eigenvalue 6,0847 1,0073 0,9778 0,8799 0,6198 0,4627 0,3533 0,2379Proportion 0,553 0,092 0,089 0,080 0,056 0,042 0,032 0,022Cumulative 0,553 0,645 0,734 0,814 0,870 0,912 0,944 0,966

Eigenvalue 0,1843 0,1473 0,0451Proportion 0,017 0,013 0,004Cumulative 0,983 0,996 1,000

Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8ISDMc 0,385 -0,050 0,015 -0,109 -0,125 -0,092 -0,193 -0,082EDUCc 0,346 0,125 -0,038 -0,097 -0,080 0,548 0,144 -0,051EMP&RENDAc 0,223 -0,619 0,275 -0,247 0,326 -0,173 0,539 -0,028LIQc 0,151 -0,237 0,172 0,935 0,016 0,108 0,032 -0,037H6c 0,302 0,301 -0,128 0,134 -0,280 -0,696 0,253 -0,103R1c -0,382 0,040 -0,019 0,061 0,148 0,141 0,165 0,028T12c 0,325 -0,350 0,155 -0,112 -0,090 -0,030 -0,656 0,020S11c -0,068 0,361 0,921 -0,065 -0,112 -0,009 0,008 -0,009E24c 0,335 0,047 -0,046 -0,042 -0,465 0,331 0,347 0,331E25c 0,326 0,310 -0,049 -0,002 0,418 0,169 0,027 -0,661E26c 0,305 0,314 -0,017 0,061 0,600 -0,082 -0,084 0,656

Variable PC9 PC10 PC11ISDMc -0,026 -0,445 0,755EDUCc -0,716 0,072 -0,078EMP&RENDAc -0,035 0,036 -0,009LIQc -0,022 -0,048 0,030H6c -0,223 0,311 -0,014R1c -0,072 0,599 0,644T12c 0,019 0,538 -0,074S11c -0,003 -0,010 0,006E24c 0,544 0,169 0,033E25c 0,367 0,138 -0,026E26c 0,001 0,010 0,020

Existe um peso muito grande da primeira varivel e as demais esto mais distantes. As

varivel 2 possuem peso maior que 1, e as variveis 2 e 3 prximo de 1, as demais

possuem um peso ABAIXO DE 0.6.

A concluso que podemos resumir as 11 variveis em 3 principais variveis para

efeito de simplificao do trabalho com dados contendo muitas colunas.

Pgina | 51

1110987654321

Component Number

ueScree Plot of ISDMc; ...; E26c

O grfico acima demonstra a representatividade das variveis para o componente, ou o

grau de equivalncia. Existe um peso muito grande da primeira varivel e as demais

esto bem distantes. As variveis 2 e 3 possuem peso prximo de 1, e as demais no d

para aproveitar pois esto abaixo de 1.

0,40,30,20,10,0-0,1-0,2-0,3-0,4

First Component

E26cE25c

EMP&RENDAc

Loading Plot of ISDMc; ...; E26c

Podemos observar que as variveis R1 e S1_1 encontram-se isoladas. As demais

variveis tem certa proximidade. Um grupo bastante visvel composto pelas variveis

Pgina | 52

Educao, E2_4, ISDM. J T1_1, Liquidez e Emprego e Renda apresentam um a certa

distncia. O grupo mais prximo est sobreposto. Por eliminao conclumos que

composto por E2_5, E2_6 e H6.

10 -520

Centro-OesteNordesteNorteSudesteSul

3D Scatterplot of PC1 vs PC2 vs PC3

O grfico acima uma viso multidimensional das variveis PC1, PC2 e PC3 agrupadas

por regio.

10 -520

MaranhoMato GrossoMato Grosso do SulMinas GeraisParParabaParanPernambucoP iauRio de Janeiro

Rio Grande do NorteRio Grande do SulRondniaRoraimaSanta C atarinaSo PauloSergipe

A lagoasA mapA mazonasBahiaC earDistrito F ederalEsprito SantoGois

3D Scatterplot of PC1 vs PC2 vs PC3

Pgina | 53

O grfico acima repete a viso multidimensional das variveis PC1, PC2 e PC3, agora

agrupadas por estado. Nos dois grficos a dificuldade de visualizao dos dados ocorre

pelo nmero elevado de indivduos que compem a populao (5565 municpios).

Pelo resultado das anlises da correlao linear, dendograma e principais componentes,

os dados podem ser reduzidos para trs variveis, o que torna o trabalho com os

nmeros mais fceis e de prtico manuseamento.

3.8 ANLISE DE CONGLOMERADOS

3.8.1. DENDROGRAMA DA MDIA DE DESENVOLVIMENTO POR ESTADO

O Dendrograma permite uma anlise do grau de similaridade dos dados para uma

determinada varivel. Em seguida geramos o Dendrograma da mdia de

desenvolvimento dos municpios, agrupado por Estado.

SPSCPRRSGOMT

ROMSTOCERJPAP

IAMRRRNP

PPBALSEBAAC

100,00

Observations

DendrogramSingle Linkage; Euclidean Distance

Podemos observar no grfico acima que existem 2 grandes grupos por similaridade, e

tambm alguns estados com baixo grau de similaridade (abaixo de 90%).

Pgina | 54

possvel gerar o grfico solicitando um nmero especfico de cluster, no caso abaixo

foi solicitado que se gerasse 5 clusters.

SPSCPRRSGOMT

ROMSTOCERJPAP

IAMRRRNP

PPBALSEBAAC

100,00

Observations

Neste caso, os destaques ficaram para os estados AM, PI, PA e RJ, que possuem baixo

nvel de similaridade com os demais estados.Podemos concluir que o nvel de

desenvolvimento do Brasil pode ser dividido em 2,5 Brasis, sendo o primeiro grupo

composto pelos estados em vermelho e o segundo grupo pelos estados em azul e o

terceiro pelos estados com baixa similaridade sobre as mdias de desenvolvimento dos

municpios.

Pgina | 55

Brasil Poltico Representao dos 3 Brasis, segundo o ndice mdio de

desenvolvimento dos municpios.

3.8.2. DENDROGRAMA DA DESIGUALDADE DE DESENVOLVIMENTO

POR ESTADO (-DF)

Neste exemplo ser demonstrado o ndice de desigualdade de desenvolvimento dos

municpios do Brasil agrupados por estados. Utilizaremos para isso o desvio padro

dos ndices de desenvolvimento.

AMRRPISPMABASCPRR

JMSGORSESMGRNP

BMTTOPECEAPROSEALPAAC

100,00

Observations

Foram considerados 2 cluster neste primeiro agrupamento, sendo o primeiro composto

pelos estados do AC e PA, e o segundo pelos demais estados.

Vamos executar novamente com 5 clusters:

Pgina | 56

AMRRPISPMABAS

BOLETIM DE ANÁLISE ESTATÍSTICO · amostragem dos dados, análise multivariada, análise de...

Documents

Transcript of BOLETIM DE ANÁLISE ESTATÍSTICO · amostragem dos dados, análise multivariada, análise de...

Cap 06 - Análise de Conglomerados

EMENTAS DAS DISCIPLINAS DO PROGRAMA DE PÓS … · canônicas. Análise discriminante. Análise de agrupamento. Análise fatorial. Recursos ... em disciplinas dos cursos de graduação

Determinantes da qualidade da governança corporativa com ...dvl.ccn.ufsc.br/congresso/anais/7CCF/20170701155804.pdf · A metodologia consiste na análise discriminante em que o ...

Tema 2: CONGLOMERANTES Y CONGLOMERADOS

ANÁLISE DISCRIMINANTE CLÁSSICA E DE NÚCLEO: AVALIAÇÕES … · três métodos de classiﬁcação. Também apresenta algumas contribuições relacionadas aos métodos boosting

Amostragem por Conglomerados - IME-USP

ANÁLISE DISCRIMINANTE

Grava y conglomerados christian romero

UNIVERSIDADE FEDERAL DE PERNAMBUCO Centro de … · indicadores, e calculado o Termômetro de Kanitz, modelo de análise discriminante, cujos procedimentos de análise multivariada

Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

Conglomerados: unidades de amostragem que contém vários elementos Múltiplos estágios sorteio de unidades dentro de unidades sorteadas anteriormente conglomerados.

ANÁLISE DISCRIMINANTE E OTIMIZAÇÃO APLICADAS AO … · Esta pesquisa trata da aplicação de técnicas de análise ... K4, nível de energia do envelope ... x LISTA DE FIGURAS

UNIVERSIDADE FEDERAL DO PARÁ ANÁLISE DE …peritocontador.com.br/wp-content/uploads/2015/03/Udson-Pacheco-da... · A análise discriminante paramétrica linear é uma técnica estatística

regressão logística e análise discriminante

ANÁLISIS DISCRIMINANTE Y COMPARATIVO USANDO …

Análise Factorial, de Clusters, e Discriminante sobre uma amostra que pretende estudar os Hábitos de Consumo de Caracóis

Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

Mestrado em Finanças Empresariaisrecipp.ipp.pt/bitstream/10400.22/9294/1/DM_CristianaAdegas_2016.… · Cristiana Sofia Duro Adegas A análise discriminante como instrumento preditivo

Análise de agrupamentos e Análise das componentes principais · 2015-06-25 · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as

Diagramas Geoquimicos Discriminante de Ambientes Tectónicos 2013