Post on 15-Dec-2018
BA STA BOLETIM DE ANLISE ESTATSTICO
Pesquisas Relacionadas a Indicadores Municipais no Brasil
ISDM/FGV, IFDM e IFGF/FIRJAN
BASTA 2013 V2
Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, trabalho, sade e muito particularmente EDUCAO. Clarice Santiago Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, educao, sade e muito particularmente TRABALHO. Diego Conti Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, educao, trabalho e muito particularmente SAUDE. Elaine Palmeira Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a trabalho, educao, sade e muito particularmente HABITAO. Hannah de Carvalho Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, educao, trabalho e muito particularmente EMPREGO e RENDA. Jos Felipe de Souza
Pesquisa socio-economica ao nvel municipal no Brasil focando principalmente indicadores relacionados a habitao, educao, trabalho e muito particularmente o referente a GESTAO FISCAL. Mauricio Camargo
Pgina | 1
PONTIFCIA UNIVERSIDADE CATLICA DE SO PAULO
FEA - Faculdade de Economia e Administrao
Programa de Estudos Ps-Graduados em Administrao
PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores relacionados a habitao, trabalho,
sade e muito particularmente EDUCAO
MTODOS QUANTITATIVOS DA PESQUISA EMPRICA
Professor Dr. Arnoldo Jose de Hoyos
Clarice Santiago
Pgina | 2
1 INTRODUO
O presente trabalho tem por objetivo efetuar diversas anlises dos dados da Pesquisa
Firjan/FGV sobre o Desenvolvimento dos Municpios nos perodos de 2000 e 2010.
Iniciamos com o entendimento dos dados, incluindo a definio dos indivduos e das
variveis, suas classificaes em variveis categricas ou quantitativas, os significados e
unidades de medida, alm da apresentao da tabela de dados.
Na seqncia, analisamos cada uma das variveis separadamente quanto a sua forma de
distribuio, os valores atpicos, medidas de centro e disperso. Para tal contamos com
o auxlio de grficos (pie chart, barras, histogramas, grficos de ramos, box-plot, dot-
plot e curvas de densidade) e de medidas numricas (mdia, mediana, quartis, desvio-
padro, varincia, intervalo de confiana e teste de normalidade de Anderson-Darling).
Em seguida faremos comparaes entre as diversas variveis analticas, utilizando
tcnicas como relaes entre as variveis, regresses mltiplas, comparaes,
amostragem dos dados, anlise multivariada, anlise de conglomerados, anlise
discriminante, regresso logstica, anlise de correspondncia e arvores de classificao.
No ser possvel, a partir destes dados, efetuarmos a anlise de tendncia pois no
existem sries temporais de dados, requisitos para esta tcnica.
O software estatstico utilizado o MINITAB 16. Este trabalho se concentrar nas
diversas variveis que compem a pesquisa Firjan/FGV.
2 OS DADOS
2.1 OS INDIVDUOS
Os indivduos deste trabalho so compostos pelas mdias ponderadas dos indicadores
das dimenses Habitao (H6), Renda (R1), Trabalho (T1_2), Sade (S1_1) e
Educao (E2_4, E2_5, E2_6), padronizados pela mdia do Brasil para os diferentes
municpios. Ao todo so 5565 municpios considerados brasileiros, incluindo o Distrito
federal. Os dados analticos foram extrados do IBGE, e possibilitam uma comparao
Pgina | 3
entre os dados colhidos em 2000 com 2010. Neste trabalho concentraremos nossas
anlise apenas dos dados referentes 2010.
O Brasil encontra-se poltica e geograficamente dividido em cinco regies distintas, que
possuem traos comuns referentes aos aspectos fsicos, humanos, econmicos e
culturais. Os limites de cada regio - Norte, Nordeste, Sudeste, Sul e Centro-Oeste -
coincidem sempre com as fronteiras dos Estados que as compem.
2.2 AS VARIVEIS
As variveis desta pesquisa incluem os 3 principais ndices sintticos que so ISDM,
IFDM e IFGF, que so mdias ponderadas dos dados analticos globais da pesquisa, e
variveis analticas, referente educao, sade, renda, emprego e habitao.
Tabela 1. Comparativo entre as Variveis ISDM e IFDM
Tabela 2. A definio das Variveis
Varivel Significado Tipo Unidade de Medida
REGIO Nome da Regio do Brasil Texto Na
UF Unidade da Federao Texto Na
MUNICPIO Nome do Municpio Texto Na
Pgina | 4
ISDM
ndice Social de Desenvolvimento Municipal: Mdia ponderada dos indicadores das dimenses Habitao, Renda, Trabalho, Sade e Segurana e Educao (H, R, T, S e E) padronizada pela mdia do Brasil.
Numrico
Escala convertida para intervalo entre 0 e 1.
EDUCAO
Mdia ponderada dos indicadores da dimenso Educao (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela mdia do Brasil.
Numrico
Escala convertida para intervalo entre 0 e 1.
EMPREGO E RENDA
Gerao, estoque e salrios mdios dos empregos formais (IFDM). Numrico
Escala convertida para intervalo entre 0 e 1.
LIQUIDEZ ndice de liquidez dos municpios. Numrico
Escala convertida para intervalo entre 0 e 1.
H6 Percentual de pessoas que vivem em domiclio que tem densidade de moradores por dormitrio inferior a 2.
Numrico
Escala convertida para intervalo entre 0 e 1.
R1
Numrico
Escala convertida para intervalo entre 0 e 1.
T1_2 Taxa de formalizao entre os empregados Numrico
Escala convertida para intervalo entre 0 e 1.
S1_1
Taxa de sobrevivncia infantil no primeiro ano de vida, representada pela diferena entre o nmero de nascidos vivos e o nmero de bitos at um ano de idade.
Numrico
Escala convertida para intervalo entre 0 e 1.
E2_4 Percentual de crianas de 7 a 14 anos que esto na srie correta segundo a idade
Numrico
Escala convertida para intervalo entre 0 e 1.
Pgina | 5
E2_5
ndice transformado na escala Ideb de proficincia Portugus e Matemtica Agregado para a quarta srie do Ensino Fundamental (5 ano EF)
Numrico
Escala convertida para intervalo entre 0 e 1.
E2_6
ndice transformado na escala Ideb de proficincia em Portugus e Matemtica Agregado oitava srie do Ensino Fundamental (9 ano EF).
Numrico
Escala convertida para intervalo entre 0 e 1.
3. ANLISE DAS VARIVEIS
3.1 VARIVEIS CATEGRICAS
Para este tipo de varivel, as pesquisas concentram-se nas anlises de grficos do tipo
pie chart e barras.
3.1.1 Varivel: ESTADO
Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O grfico abaixo
exibe o nmero de cidades por estado.
A variao no nmero de cidades por estado acentuada. Considerando que o Distrito
Federal um estado brasileiro, o estado com o menor nmero de cidades (1), enquanto
o Mato Grosso o estado que possui o maior nmero de cidades (852).
3.1.2 Varivel: REGIO
Pgina | 6
Figura 3. Nmero de Cidades por Estado e Regio do Brasil
Podemos verificar no grfico acima que a Regio Nordeste a que possui o maior
nmero de cidades do Brasil (1790) e seguido pela Regio Sudeste (1669). A Regio
que possui o menor nmero de cidades a Norte, com 447 cidades, muito prxima da
Regio Centro-Oeste (468). A Regio Sul possui 1191 cidades.
Figura 4. Cidades por Regio do Brasil
3.2 ANLISE EXPLORATRIA DAS VARIVEIS ANALTICAS
Sero analisadas as variveis separadamente quanto a sua forma de distribuio, os
valores atpicos, medidas de centro e disperso. Para tal contamos com o auxlio de
grficos ( histogramas, grficos de ramos, box-plot, dot-plot e curvas de densidade) e de
medidas numricas (mdia, mediana, quartis, desvio-padro, varincia, intervalo de
confiana e teste de normalidade de Anderson-Darling).
Pgina | 7
3.2.1 VARIVEL ISDM
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiana da mdia e mediana, alm das medidas numricas como mdia, desvio-
padro, varincia, quantidade de observaes, valores mnimos, mximos, informaes
dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a
varivel ISDM.
0,980,840,700,560,420,280,140,00
Median
Mean
0,730,720,710,700,690,680,67
1st Q uartile 0,53221Median 0,714973rd Q uartile 0,83728Maximum 1,00000
0,67294 0,68297
0,70542 0,72544
0,18725 0,19434
A -Squared 75,76P-V alue < 0,005
Mean 0,67795StDev 0,19073V ariance 0,03638Skewness -0,541209Kurtosis -0,522196N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for ISDMc
As principais observaes que podemos fazer so:
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio
visivelmente assimtrica para a direita, o que comum para variveis que indiquem
ganhos, receitas, salrios, etc. Esta concluso est comprovada pelo teste de
normalidade de Anderson-Darling que indica que a distribuio no pode ser
considerada uma Normal. Muitas cidades possuem um baixo nvel de desenvolvimento,
muitas cidades possuem um nvel mdio de desenvolvimento e poucas possuem um
nvel alto de desenvolvimento. Existem duas corcovas no grfico que nos mostra que
existem duas realidades diferentes dentro dos dados analisados, ou seja, existem
tipicamente dois tipos de municpios dentro do Brasil, e cada tipo est em um estgio
diferente de desenvolvimento.
Medidas Numricas
Histograma e Curva de Densidade
BOXPLOT
Intervalo de confiana
Pgina | 8
- Valores Atpicos: H 3 valores de ISDM atpicos, que apresentam resultados abaixo de
0,05767, que so os municpios de Chaves, PA; Amajari, RR e Melgao, PA.
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem ISDM menor do que 0,71497. O ISDM mdio de 0,67795, e o desvio-
padro (medida de disperso) de 0,19073, que implica em uma disperso grande da
populao e uma variao grande entre os diversos municpios do Brasil.
3.2.2 VARIVEL EDUCAO
0,980,840,700,560,420,280,140,00
Median
Mean
0,6050,6000,5950,5900,5850,580
1st Q uartile 0,46156Median 0,594673rd Q uartile 0,71782Maximum 1,00000
0,58205 0,59152
0,58906 0,60242
0,17656 0,18325
A -Squared 7,62P-V alue < 0,005
Mean 0,58679StDev 0,17984V ariance 0,03234Skewness -0,179424Kurtosis -0,488684N 5543
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for EDUCc
As principais observaes que podemos fazer so:
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio que tende
a ser simtrica cujo pico concentra-se no centro, o que comum para variveis que
indiquem desempenho regular. A curva apresenta vrias corcovas, o que indica que
temos diversas realidades sobre a questo da variabilidade sobre Educao nos
municpios do Brasil. Os dados se dispersam muito, no existe um padro na questo e
pode-se concluir que existe muita diversidade entre os dados.
- Valores Atpicos: H muitos valores atpicos de Educao, que apresentam resultados
abaixo de 0,07636. O desempenho Educao considerado mdio nos municpios do
Brasil.
Pgina | 9
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem Educao menor do que 0,59467. A Educao mdia 0,58679 e o
desvio-padro (medida de disperso) de 0,17984, que implica em uma disperso
mdia para a questo.
3.2.3 VARIVEL EMPREGO E RENDA
0,980,840,700,560,420,280,140,00
Median
Mean
0,410,400,390,380,37
1st Q uartile 0,30631Median 0,376083rd Q uartile 0,47134Maximum 1,00000
0,40005 0,40823
0,37243 0,38024
0,15259 0,15838
A -Squared 104,05P-V alue < 0,005
Mean 0,40414StDev 0,15543V ariance 0,02416Skewness 0,88240Kurtosis 1,30951N 5543
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for EMP&RENDAc
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio
fortemente assimtrica tendendo para a esquerda, o que comum para variveis que
indiquem desempenho baixo e menores nmeros dentro de toda a distribuio dos
dados. Esta concluso est comprovada pelo teste de normalidade de Anderson-Darling
que indica que a distribuio no pode ser considerada uma Normal. A maior parte das
cidades possui valores baixos de EMPREGO E RENDA. Muitas cidades possuem um
nvel mdio de EMPREGO E RENDA e poucas possuem um nvel alto de EMPREGO
E RENDA. Existe apenas uma corcova no grfico.
- Valores Atpicos: H alguns valores atpicos de EMPREGO E RENDA atpicos, que
apresentam resultados abaixo de 0,4742, e muitos valores atpicos acima da curva
(0,72208). Esta informao nos diz que existem municpios no Brasil que apresentam
Taxas de EMPREGO E RENDA acima da curva e alguns abaixo da curva.
Pgina | 10
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem EMPREGO E RENDA menor do que 0.37608. O EMPREGO E
RENDA mdio de 0,40414 e o desvio-padro (medida de disperso) de 0,15543, que
implica em uma disperso alta do ndice de EMPREGO E RENDA.
3.2.4 VARIVEL LIQUIDEZ
O indicador demonstra se o municpio possui recursos financeiros suficientes para fazer
frente ao montante de restos a pagar. Se o municpio apresentar mais restos a pagar do
que ativos financeiros disponveis a pontuao ser zero. Na leitura dos resultados,
quanto mais prximo de 1,00, menos o municpio est postergando pagamentos para o
exerccio seguinte sem a devida cobertura
0,980,840,700,560,420,280,140,00
Median
Mean
0,6750,6500,6250,6000,5750,550
1st Q uartile 0,19358Median 0,655783rd Q uartile 0,90601Maximum 1,00000
0,54165 0,56127
0,63410 0,67418
0,36648 0,38035
A -Squared 257,10P-V alue < 0,005
Mean 0,55146StDev 0,37328V ariance 0,13934Skewness -0,32363Kurtosis -1,46781N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for LIQc
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio totalmente
assimtrica tendendo levemente para a direita, o que comum para variveis que
indiquem desempenho baixo e menores nmeros dentro de toda a distribuio dos
dados. Esta concluso est comprovada pelo teste de normalidade de Anderson-Darling
que indica que a distribuio no pode ser considerada uma Normal. Os valores de
LIQUIDEZ se espalham por todo o grfico, no tendo um pico dos dados.
Pgina | 11
- Valores Atpicos: No existem valores atpicos de LIQUIDEZ visto que a
variabilidade dos dados to alta que se distribui uniformemente por todo o grfico.
No existe um padro nesta varivel.
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem LIQUIDEZ menor do que 0.65578. O LIQUIDEZ mdio de 0,55146 e
o desvio-padro (medida de disperso) de 0,37328, que implica em uma disperso
absoluta do ndice de LIQUIDEZ.
3.2.5 VARIVEL H6 - Pessoas que vivem em domiclio que tem densidade de
moradores por dormitrio inferior a 2
0,980,840,700,560,420,280,140,00
Median
Mean
0,6050,6000,5950,5900,5850,580
1st Q uartile 0,47636Median 0,597653rd Q uartile 0,70782Maximum 1,00000
0,58189 0,59031
0,59273 0,60358
0,15728 0,16323
A -Squared 15,83P-V alue < 0,005
Mean 0,58610StDev 0,16020V ariance 0,02566Skewness -0,400642Kurtosis -0,053800N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio que tende
a ser levemente assimtrica cujo pico concentra-se direita, o que comum para
variveis que indiquem desempenho mdio para alto. A curva apresenta algumas
corcovas, o que indica que temos um comportamento atpico da variabilidade sobre os
dados de H6. Os dados se dispersam bastante, e podemos afirmar que a varivel H6 tem
alta disperso em relao aos municpios do Brasil.
- Valores Atpicos: H muitos valores atpicos de H6, que apresentam resultados abaixo
de 0,12234.
Pgina | 12
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem H6 menor do que 0.59765. O H6 mdio de 0.58610 e o desvio-padro
(medida de disperso) de 0.16020, que implica em uma disperso mdia para H6.
3.2.6 VARIVEL R1 - Pessoas com renda domiciliar per capita abaixo da linha de
pobreza (R$ 140,00)
0,980,840,700,560,420,280,140,00
Median
Mean
0,320,300,280,260,24
1st Q uartile 0,10855Median 0,252993rd Q uartile 0,50054Maximum 1,00000
0,30468 0,31649
0,24120 0,26571
0,22070 0,22905
A -Squared 154,22P-V alue < 0,005
Mean 0,31059StDev 0,22480V ariance 0,05053Skewness 0,512744Kurtosis -0,931901N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio que tende
a ser levemente assimtrica cujo pico concentra-se esquerda, o que comum para
variveis que indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo
duas altamente acentuadas, a primeira com maior pico e localizada fortemente
esquerda do grfico. Indica que o comportamento atpico da variabilidade sobre os
dados de R1. Os dados se dispersam bastante, e podemos afirmar que a varivel R1 tem
alta disperso em relao aos municpios do Brasil.
- Valores Atpicos: No existem valores atpicos de R1.
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem R1 menor do que 0.25299. O R1 mdio de 0.31059 e o desvio-padro
(medida de disperso) de 0.22480, que implica em uma disperso alta para R1.
Pgina | 13
3.2.7 VARIVEL T1_2 - Taxa de formalizao entre os empregados
0,980,840,700,560,420,280,140,00
Median
Mean
0,5850,5800,5750,5700,5650,560
1st Q uartile 0,39398Median 0,576423rd Q uartile 0,73417Maximum 1,00000
0,55838 0,56921
0,56691 0,58531
0,20224 0,20990
A -Squared 41,12P-V alue < 0,005
Mean 0,56380StDev 0,20600V ariance 0,04244Skewness -0,132478Kurtosis -0,993222N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for T12c
As principais observaes que podemos fazer so:
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio simtrica,
embora o grfico apresente vrias corcovas na sua distribui. Indica que trata-se de um
desempenho regular. Esta concluso est comprovada pelo teste de normalidade de
Anderson-Darling que indica que a distribuio pode ser considerada uma Normal.
Muitas cidades possuem um baixo nvel de desenvolvimento, muitas cidades possuem
um nvel mdio de desenvolvimento e muitas possuem um nvel alto de
desenvolvimento. Existem vrias corcovas no grfico que nos mostra que existem N
realidades nos dados analisados, ou seja, existem vrios tipos de municpios dentro do
Brasil em relao a formalizao dos empregos.
- Valores Atpicos: No existem valores atpicos de T1_2.
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem T1_2 menor do que 0.57642. O T1_2 mdio de 0.56380, e o desvio-
padro (medida de disperso) de 0.20600, que implica em uma disperso grande da
populao de T1_2.
Pgina | 14
3.2.8 VARIVEL S1_1 - Taxa de mortalidade infantil, por mil nascidos vivos
0,980,840,700,560,420,280,140,00
Median
Mean
0,0440,0420,0400,0380,036
1st Q uartile 0,01286Median 0,037743rd Q uartile 0,06020Maximum 1,00000
0,04166 0,04391
0,03688 0,03873
0,04206 0,04366
A -Squared 160,61P-V alue < 0,005
Mean 0,04278StDev 0,04285V ariance 0,00184Skewness 4,2578Kurtosis 59,4287N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio
fortemente assimtrica tendendo para a esquerda, o que comum para variveis que
indiquem desempenho baixo e menores nmeros dentro de toda a distribuio dos
dados. Esta concluso est comprovada pelo teste de normalidade de Anderson-Darling
que indica que a distribuio no pode ser considerada uma Normal. A maior parte das
cidades possui valores baixos de S1_1. Pouca cidades possuem um nvel mdio de
S1_1 e quase nenhuma possuem um nvel alto de S1_1. Existem duas corcovas visveis
no grfico. Como trata-se de nascido vivos, o nmero baixo bom porque a maioria dos
nascidos vivos sobrevivem aps um ano de vida.
- Valores Atpicos: H alguns valores atpicos de S1_1, que apresentam resultados
acima de 0,13514. Esta informao nos diz que existem municpios no Brasil que
apresentam Taxas de S1_1 acima da curva , ou seja, que o ndice de mortalidade alto.
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem S1_1 menor do que 0.03774. O S1_1 mdio de 0.04278 e o desvio-
padro (medida de disperso) de 0.04285, que implica em uma disperso baixa do
ndice de S1_1.
Pgina | 15
3.2.9 VARIVEL E2_4 Crianas entre 7 e 14 anos que estudam na srie correta
segundo sua idade
0,980,840,700,560,420,280,140,00
Median
Mean
0,780,770,760,750,740,73
1st Q uartile 0,62284Median 0,769893rd Q uartile 0,86235Maximum 1,00000
0,72820 0,73680
0,76353 0,77676
0,16065 0,16673
A -Squared 95,44P-V alue < 0,005
Mean 0,73250StDev 0,16363V ariance 0,02677Skewness -0,835199Kurtosis 0,263592N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for E24c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio
fortemente assimtrica tendendo para a direita, o que comum para variveis que
indiquem desempenho alto e taxas elevadas. Esta concluso est comprovada pelo teste
de normalidade de Anderson-Darling que indica que a distribuio no pode ser
considerada uma Normal. A curva apresenta vrias corcovas, o que indica que temos
diversas realidades sobre a questo da srie correta dos alunos. Os dados se dispersam
muito, no existe um padro na questo e pode-se concluir que existe muita diversidade
entre a questo do grau correto de idade e escolaridade nos municpios.
- Valores Atpicos: H muitos valores atpicos de E2_4 atpicos, que apresentam
resultados abaixo de 0,25933 que so as cidades cujas crianas que esto na srie
correta
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem E2_4 menor do que 0.76989. O E2_4 mdio de 0.73250 e o desvio-
padro (medida de disperso) de 0.16363, que implica em uma disperso grande para
a questo.
Pgina | 16
3.2.10 VARIVEL E2_5 ndice transformado na escala Ideb de proficincia
Portugus e Matemtica Agregado para a quarta srie do Ensino Fundamental (5
ano EF)
0,980,840,700,560,420,280,140,00
Median
Mean
0,36500,36250,36000,35750,3550
1st Q uartile 0,25308Median 0,358753rd Q uartile 0,45732Maximum 1,00000
0,35694 0,36402
0,35423 0,36342
0,13225 0,13725
A -Squared 14,86P-V alue < 0,005
Mean 0,36048StDev 0,13470V ariance 0,01814Skewness 0,282656Kurtosis -0,197569N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for E25c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio
fortemente assimtrica tendendo para a esquerda, o que comum para variveis que
indiquem desempenho baixo e taxas pequenas. Esta concluso est comprovada pelo
teste de normalidade de Anderson-Darling que indica que a distribuio no pode ser
considerada uma Normal. A curva apresenta vrias corcovas, o que indica que temos
diversas realidades sobre a questo da variabilidade sobre a Nota dos alunos em
portugus e matemtica para 5 srie do ensino fundamental . Os dados se dispersam
muito, no existe um padro na questo e pode-se concluir que existe muita diversidade
entre a questo da proficincia em portugus e matemtica dos alunos da 5 srie EF nos
municpios.
- Valores Atpicos: H muitos valores atpicos de E2_5 atpicos, que apresentam
resultados acima de 0,76773.
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem E2_5 menor do que 0.35875. O E2_5 mdio de 0.36048 e o desvio-
padro (medida de disperso) de 0.13470, que implica em uma disperso mdia para a
questo.
Pgina | 17
3.2.10 VARIVEL E2_6 ndice transformado na escala Ideb de proficincia em
Portugus e Matemtica Agregado oitava srie do Ensino Fundamental (9 ano
EF).
0,980,840,700,560,420,280,140,00
Median
Mean
0,5040,5020,5000,4980,4960,494
1st Q uartile 0,40173Median 0,498553rd Q uartile 0,58982Maximum 1,00000
0,49644 0,50331
0,49365 0,50340
0,12833 0,13319
A -Squared 4,43P-V alue < 0,005
Mean 0,49988StDev 0,13072V ariance 0,01709Skewness 0,135941Kurtosis -0,190667N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for E26c
- Forma: O Histograma nos permite verificar que trata-se de uma distribuio que tende
a ser simtrica cujo pico concentra-se no centro, o que comum para variveis que
indiquem desempenho regular. A curva apresenta vrias corcovas, o que indica que
temos diversas realidades sobre a questo da variabilidade sobre a Nota dos alunos em
portugus e matemtica para 9 srie do ensino fundamental . Os dados se dispersam
muito, no existe um padro na questo e pode-se concluir que existe muita diversidade
entre a questo da proficincia em portugus e matemtica dos alunos da 9 srie EF nos
municpios.
- Valores Atpicos: H muitos valores atpicos de E2_6 atpicos, sendo poucos que
apresentam resultados abaixo de 0.10652 e muitos acima de 0.87197. O desempenho de
proficincia em portugus e matemtica possui um desempenho mdio nos municpios
do Brasil.
- Centro e Disperso: A mediana nos indica que aproximadamente metade dos
municpios tem E2_6 menor do que 0.49855. O E2_6 mdio de 0.49988 e o desvio-
padro (medida de disperso) de 0.13072, que implica em uma disperso mdia para a
questo.
Pgina | 18
3.3 RELAO ENTRE VARIVEIS: CORRELAO, REGRES-SO E TESTE QUI-QUADRADO
Grficos de disperso devem ser inicialmente analisados quanto a seu padro geral e
seus desvios relativos ao padro. A descrio do padro geral pode ser feita pela
verificao de sua forma, direo e intensidade.
3.3.1 GRFICOS DE DISPERSO entre variveis Educao e Emprego e Renda
GRAFH >> SCATTERPLOT >> SIMPLE
A quantidade de dados analisados muito grande, so 5565 municpios, o que causa
uma mancha no grfico e dificulta a visualizao. Uma forma de contornar esta
situao seria selecionar os dados por amostragem, mas neste caso no aplicado, pois
no existem critrios especficos que garantiriam a fidelidade da amostra em relao
populao.
1,00,80,60,40,20,0
1,0
0,8
0,6
0,4
0,2
0,0
EMP&RENDAc
EDUC
c
Scatterplot of EDUCc vs EMP&RENDAc
Grficos de disperso devem ser inicialmente analisados quanto a seu padro geral e
seus desvios relativos ao padro. A descrio do padro geral pode ser feita pela
verificao de sua forma, direo e intensidade.
Pgina | 19
Direo: Da anlise das correlaes acima percebemos que quase todas possuem
associaes positivas, ou seja, o crescimento de uma varivel acompanhado do
crescimento da outra. O que nos parece que no h nenhuma associao negativa, ao
menos de evidncia visual.
Intensidade: O grfico acima parece indicar a existncia de relaes lineares, embora no
ponto mais alto do grfico os pontos tendem a decair, e perde a caracterstica de uma
reta.
Forma: O grfico apresenta conglomerados que sugerem relaes lineares, embora
prejudicado pelo excesso de dados da populao (5565 linhas).
Valores Atpicos: Todos os grficos indicam a existncia de valores atpicos, ou seja,
indivduos ou municpios que possuem seus indicadores de Educao e Emprego e
Renda fora da curva.
3.3.2 LINHAS DE TENDNCIAS entre Educao e Emprego e Renda
GRAFH >> SCATTERPLOT >> WITH REGRESSION
1,00,80,60,40,20,0
1,0
0,8
0,6
0,4
0,2
0,0
EMP&RENDAc
EDUC
c
Scatterplot of EDUCc vs EMP&RENDAc
Pgina | 20
Para se verificar qual o tipo de relao (linear, quadrtica, cbica, exponencial, etc.)
existente entre as variveis, adicionamos em cada grfico de disperso uma linha de
tendncia.
O grfico analisado neste caso contm a varivel Educao em relao Emprego e
Renda. Podemos afirmar que os pontos esto muito prximos da linha e so
ascendentes, o que nos aponta que o tipo de relao entre as variveis linear, embora
existam valores atpicos distribudos por toda a extenso da reta.
3.3.3 LINHAS DE TENDNCIAS entre Educao e H6 (Proporo de pessoas que
vivem em domiclio que tem densidade de moradores por dormitrio inferior a 2)
RR
1,00,80,60,40,20,0
1,0
0,8
0,6
0,4
0,2
0,0
H6c
EDUC
c
Scatterplot of EDUCc vs H6c
O segundo grfico compara a tendncia entre as variveis Educao com H6. Se
compararmos com o grfico anterior, podemos constatar que a nuvem de pontos est
mais concentrada na parte superior que o grfico anterior. As duas linhas so crescentes,
e conclu-se que quando aumenta o ndice de Educao melhora a questo da habitao.
Pgina | 21
3.3.4 CORRELAO LINEAR
A matriz de correlao inclu o teste de significncia p-value. Para a correlao foi
utilizado o ndice de Pearson. Vale ressaltar que o ndice de correlao entre as
variveis no requer que exista uma relao de causa-efeito entre ambas.
Esta primeira viso exibe a correlao entre todas as variveis utilizadas no trabalho.
STAT >> BASIC STATISTICS >> CORRELATION
Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; ...
ISDMc EDUCc EMP&RENDAc LIQc H6cEDUCc 0,783
0,000
EMP&RENDAc 0,526 0,3760,000 0,000
LIQc 0,276 0,233 0,1970,000 0,000 0,000
H6c 0,695 0,552 0,210 0,2600,000 0,000 0,000 0,000
R1c -0,951 -0,754 -0,510 -0,308 -0,7090,000 0,000 0,000 0,000 0,000
T12c 0,806 0,610 0,587 0,302 0,4490,000 0,000 0,000 0,000 0,000
S11c -0,147 -0,122 -0,076 -0,049 -0,1150,000 0,000 0,000 0,000 0,000
E24c 0,764 0,767 0,364 0,263 0,6130,000 0,000 0,000 0,000 0,000
E25c 0,708 0,712 0,316 0,232 0,5830,000 0,000 0,000 0,000 0,000
E26c 0,643 0,614 0,308 0,248 0,5640,000 0,000 0,000 0,000 0,000
Pgina | 22
R1c T12c S11c E24c E25cT12c -0,782
0,000
S11c 0,140 -0,1120,000 0,000
E24c -0,768 0,599 -0,1280,000 0,000 0,000
E25c -0,693 0,505 -0,096 0,5770,000 0,000 0,000 0,000
E26c -0,643 0,474 -0,074 0,490 0,7500,000 0,000 0,000 0,000 0,000
Cell Contents: Pearson correlationP-Value
A correlao sempre um nmero entre zero e um e mede a intensidade de relaes
lineares. A correlao entre as variveis analisadas positiva em alguns casos e
negativa em outros, mas de fraca intensidade. Os valores mais representativos esto
marcado com verde quando positivos e vermelhos quando negativos. Indica que a
correlao entre estas variveis mais intensa. Portanto, podemos afirmar que estas
variveis possuem relaes lineares.
3.3.5 REGRESSO DE MNIMOS QUADRADOS A correlao mede a direo e a intensidade da relao linear (linha reta) entre duas
variveis quantitativas. Se um diagrama de disperso mostra uma relao linear,
interessante resumirmos esse padro geral traando uma reta no diagrama de disperso.
Uma reta de regresso resume a relao entre duas variveis, mas somente em um
contexto especfico: quando uma das variveis ajuda a explicar ou a predizer a outra, ou
seja, a regresso descreve uma relao entre uma varivel explanatria e uma varivel
resposta.
A regresso linear assume sempre a forma de uma equao linear:
Y = a + bx, sendo:
Pgina | 23
Y= Varivel dependente;
a = uma constante, o intercepto;
b = a inclinao na reta;
x = varivel independente ou explicativa.
O b, ou seja, a declividade dada pela multiplicao do ndice de correlao pela
diviso dos desvios-padro entre as variveis x e y. E a dado pela mdia de Y
menos a multiplicao de b pela mdia de x. Assim, percebe-se muito claramente
que a regresso depende da correlao entre as variveis, alm de medidas de centro de
cada uma das variveis.
Segue abaixo o resultado da regresso entre as variveis Educao e H6.
Regression Analysis: EDUCc versus H6c
The regression equation isEDUCc = 0,224 + 0,619 H6c
5543 cases used, 22 cases contain missing values
Predictor Coef SE Coef T PConstant 0,223961 0,007637 29,33 0,000H6c 0,61886 0,01256 49,25 0,000
S = 0,149997 R-Sq = 30,4% R-Sq(adj) = 30,4%
Analysis of Variance
Source DF SS MS F PRegression 1 54,579 54,579 2425,81 0,000Residual Error 5541 124,668 0,022Total 5542 179,247
A tabela acima exibe o resultado da frmula entre as variveis Educao e H6. Se
substitusse o valor de Educao se chegaria ao valor de H6 esperado. A a expresso
numrica da reta de tendncia que vimos nos itens acima. Esta equao tem um poder
explicativo de 76,4%, que o R-Quadrado. O valor da constante 0,224 significa que, se
o H6 fosse zero, o valor do Educao seria 0,224.
Pgina | 24
3.3.6 DENDROGRAMA
Um Dendrograma (dendr(o) = rvore) um tipo especfico de diagrama ou
representao icnica que organiza determinados fatores e variveis. um diagrama de
similaridade.
A interpretao de um dendrograma de similaridade entre amostras fundamenta-se na
intuio: duas amostras prximas devem ter tambm valores semelhantes para as
variveis medidas. Ou seja, elas devem ser prximas matematicamente no espao
multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas s
amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade
de modo que podemos ter uma viso bidimensional da similaridade ou dissimilaridade
de todo o conjunto de amostras utilizado no estudo.
Segue abaixo o Dendrograma das variveis analisadas:
STAT >> MULTIVARIATE >> CLUSTER VARIABLE
S11cR1
cLIQ
c
EMP&
REND
AcH6c
E26c
E25c
E24c
EDUC
cT1
2c
ISDM
c
47,56
65,04
82,52
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
As variveis ISDM e T1_2 so as que possuem o maior nvel de similaridade, por volta
de 90%. As demais variv eis (Educao, E2_4, E2_5, E2_6 e H6) tambm so muito
similares, variando at 85%. J as variveis Emprego e Renda, Liquidez, R1 e S1_1
encontram-se com baixo nvel de similaridade.
Pgina | 25
3.3.7 RELAES ENTRE AS VARIVEIS CATEGRICAS
Para correlacionarmos duas variveis categricas, criamos duas colunas categorizadas
com informaes sobre dados de S1_1 por quartil, tendo valores que variam de 1 a 4, e
repetimos o processo para a varivel R1, com os mesmos valores categricos.
Os grficos acima foram gerados a partir das informaes dos quartis utilizando a
funo Data >> Code >> Numeric to Numeric e colocando os intervalos para gerao
das variveis categricas. Em seguida foi gerado um Pie Chart atravs da funo Grafh
>> Pie Chart.
Podemos observar que existe um nvel de similaridade entre as variveis categrica de
quartis das variveis S1_1 e R1. O que difere so os primeiros quartis, pois a varivel
S1_1 possui apenas 0,4% dos dados no primeiro quartil, tornando quase imperceptvel
no grfico. O terceiro e quarto quartis das variveis so bastante semelhantes.
Para analizar a semelhana entre as variveis categricas ser executada a tabulao
cruzada entre elas.
STAT >> TABLES >> CROSS TABULATION AND CHI SQUARE
Pgina | 26
Tabulated statistics: S11 Q; R1 Q
Rows: S11 Q Columns: R1 Q
1 2 3 4 All
1 467 434 313 177 13912 428 303 308 356 13953 276 343 369 400 13884 223 308 402 458 1391All 1394 1388 1392 1391 5565
Cell Contents: Count
Pearson Chi-Square = 295,138; DF = 9; P-Value = 0,000Likelihood Ratio Chi-Square = 311,515; DF = 9; P-Value = 0,000
As linhas so representadas por S1_1 e as colunas por R1. Os dados aparecem
distribudos uniformemente entre cada quartil de uma varivel.
Pgina | 27
3.4 MODELOS DE REGRESSO LINEAR MULTIPLOS
3. 4.1 CORRELAO LINEAR, ANLISE DE REGRAO E STEPWISE
Para o estudo em questo, queremos entender quais variveis explicam melhor a
varivel especfica. Para tanto utilizaremos o grupo das variveis analticas e sinttica,
comparando com a varivel Educao.
Inicialmente sero analisadas as correlaes lineares entre a varivel EDUCAO com
as variveis analticas e sintticas, relacionadas a este estudo, para verificar quais
variveis melhor explicam a EDUCAO.
Pgina | 28
As correlaes significativas de acordo com o P-Value, para este trabalho, ser
considerada significativa quando >= 0,70). Apenas as variveis R1, E2_4 e E2_5
possuem um coeficiente de correlao satisfatoriamente forte com a varivel dependente
Educao.
3.4.2 REGRESSO: EDUCAO COM DEMAIS VARIVEIS DO ESTUDO
Regression Analysis: EDUCc versus EMP&RENDAc; LIQc; ...
The regression equation is
EDUCc = 0,106 - 0,0151 EMP&RENDAc - 0,0115 LIQc - 0,0969 H6c - 0,137 R1c+ 0,0642 T12c - 0,0409 S11c + 0,482 E24c + 0,391 E25c + 0,127 E26c
5543 cases used, 22 cases contain missing values
Predictor Coef SE Coef T PConstant 0,10618 0,01844 5,76 0,000EMP&RENDAc -0,01513 0,01043 -1,45 0,147LIQc -0,011503 0,003654 -3,15 0,002H6c -0,09691 0,01229 -7,88 0,000R1c -0,13665 0,01431 -9,55 0,000T12c 0,06421 0,01089 5,90 0,000S11c -0,04094 0,03034 -1,35 0,177E24c 0,48233 0,01249 38,60 0,000E25c 0,39061 0,01598 24,45 0,000E26c 0,12733 0,01556 8,18 0,000
S = 0,0954390 R-Sq = 71,9% R-Sq(adj) = 71,8%
Analysis of Variance
Source DF SS MS F PRegression 9 128,849 14,317 1571,76 0,000Residual Error 5533 50,398 0,009Total 5542 179,247
O R-Square alto = 71,9% e todos os valores Betas da equao apresentam valores
prximos a zero, indicando baixo poder explicativo da varivel EDUCAO. Por
exemplo, a variao de Liquidez leva a uma variao de apenas -0,011503 na
EDUCAO. O P-value das variveis possui valore baixo, sendo confiveis para a
explicao da varivel EDUCAO.
Pgina | 29
3.4.3 STEPWISE DA EDUCAO COM FILTRO DOS RESULTADOS
OBTIDOS
A anlise STEPWISE demonstra o percentual de composio das variveis Predictors
na equao da Response.
Stepwise Regression: EDUCc versus ISDMc; EMP&RENDAc; ...
Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is EDUCc on 10 predictors, with N = 5543N(cases with missing observations) = 22 N(all cases) = 5565
Step 1 2 3 4 5 6Constant 0,08629 -0,04107 -0,04138 -0,02602 -0,04702 -0,14311
ISDMc 0,7382 0,4475 0,2729 0,3146 0,2990 0,3800T-Value 93,81 40,29 22,72 24,96 23,51 17,22P-Value 0,000 0,000 0,000 0,000 0,000 0,000
E24c 0,443 0,415 0,435 0,443 0,452T-Value 34,21 34,26 35,76 36,41 36,69P-Value 0,000 0,000 0,000 0,000 0,000
E25c 0,385 0,408 0,346 0,345T-Value 28,72 30,26 21,84 21,83P-Value 0,000 0,000 0,000 0,000
H6c -0,114 -0,127 -0,118T-Value -10,08 -11,16 -10,31P-Value 0,000 0,000 0,000
E26c 0,113 0,119T-Value 7,46 7,86P-Value 0,000 0,000
R1c 0,084T-Value 4,49P-Value 0,000
S 0,112 0,102 0,0948 0,0939 0,0935 0,0933R-Sq 61,36 68,10 72,24 72,74 73,01 73,11R-Sq(adj) 61,36 68,09 72,22 72,72 72,98 73,08Mallows Cp 2425,5 1038,5 188,3 87,2 33,2 15,0
O Prximo passo calcular a formula utilizando as vaiveis demonstradas pela funo
Stepwise como sendo as que mais explicam a Educao.
Pgina | 30
STAT >> REGRESSION >> REGRESSION
A frmula resultante :
Nesta equao foram utilizadas as variveis analticas e sintticas. Uma outra forma de
se fazer este estudo oseria isolar um primeiro grupo de clculo utilizando apenas as
variveis analticas e um segundo grupo com as variveis sintticas.
3.5 COMPARAES
A estimao e os testes de hipteses esto relacionados a inferncia estatstica. A
estimao refere-se a utilizar os dados da amostra para estimar os parmetros
populacionais desconhecidos, enquanto os testes de hipteses so utilizados para
verificar a validade destes parmetros obtidos da amostra em relao aos parmetros da
populao, dado um certo grau de confiana. O teste de hiptese tambm nos permite
comparar parmetros de populaes distintas de forma a fazermos inferncias
estatsticas sobre estas populaes. Essencialmente as comparaes realizadas nos testes
de hipteses se valem de testar uma hiptese nula (H0)e uma hiptese alternativa (H1)
estabelecendo-se um grau de confiana em relao a se aceitar ou rejeitar as hipteses
estabelecidas.
Para realizao dos testes de hipteses pode-se utilizar dois tipos de abordagem:
A do intervalo de confiana na qual se faz o teste objetivando verificar a pertinncia de
um parmetro em um intervalo de valores com certa probabilidade de acerto.
A do teste de significncia leva em considerao a probabilidade de cometer-se um erro
do tipo I (rejeitar a hiptese nula quando ela verdadeira). Para procurar evitar que este
erro acontea deve-se arbitrar para o teste uma baixa probabilidade de sua ocorrncia e
depois comparar com o p-value determinado pelo teste. Assim quando dito que um
teste estatisticamente significativo implica rejeitar a hiptese nula.
O presente trabalho prope a comparao das mdias entre as diversas regies do Brasil,
de acordo com as variveis deste estudo.
Pgina | 31
O objetivo comparar a mdia dos indicadores e realizar testes de hipteses das cidades
com maiores ndices de desenvolvimento.
3.5.1 Varivel ISDM por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
ISD
Mc
Boxplot of ISDMc
A Regio Sudeste possui o maior ISDM do pas, o que indica que esta a Regio mais
desenvolvida do Brasil, segundo a pesquisa. A regio Sul encontra-se prxima a Regio
Sudeste, e ocupa o segundo lugar.
A Regio que apresenta o ISDM mdio mais baixo do Pas a Norte, seguida da
Nordeste. Pelo tamanho da caixa do BloxPlot podemo visualizar a amplitude da
variana. Podemos afirmar que os dados da Regio Norte possuem maior variabilidade
que os dados das demais regies. As Regies que possuem menor variabilidade dos
dados so Centro-Oest e Sul.
Pgina | 32
One-way ANOVA: ISDMc versus Regio
Source DF SS MS F PRegio 4 127,5568 31,8892 2369,00 0,000Error 5560 74,8433 0,0135Total 5564 202,4002
S = 0,1160 R-Sq = 63,02% R-Sq(adj) = 63,00%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ---+---------+---------+---------+------Centro-Oeste 468 0,7239 0,0917 (*)Nordeste 1790 0,4997 0,1245 (*)Norte 447 0,4809 0,1709 (*)Sudeste 1669 0,8225 0,1123 *)Sul 1191 0,7992 0,0875 (*)
---+---------+---------+---------+------
0,50 0,60 0,70 0,80
Pooled StDev = 0,1160
O grau de variao entre as Regies muito alto (2369), e o P-value nos indica que a
informao confivel e no existe chance deste valor ser diferente.
Pgina | 33
3.5.2 Varivel EDUCAO por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
EDUC
c
Boxplot of EDUCc
One-way ANOVA: EDUCc versus Regio
Source DF SS MS F PRegio 4 91,8924 22,9731 1456,43 0,000Error 5538 87,3542 0,0158Total 5542 179,2466
S = 0,1256 R-Sq = 51,27% R-Sq(adj) = 51,23%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ---------+---------+---------+---------+Centro-Oeste 464 0,6063 0,1142 (-*)Nordeste 1783 0,4418 0,1302 (*)Norte 445 0,4200 0,1378 (*)Sudeste 1663 0,7360 0,1293 (*)Sul 1188 0,6504 0,1120 (*)
---------+---------+---------+---------+0,50 0,60 0,70 0,80
Pooled StDev = 0,1256
No indicador de Educao, podemos verificar que a Regio Sudeste possui o maior
ndice de Educao Mdio (0,7360), e seguida da Regio Sul, e o menor ndice o da
Regio Norte (0,4200). A variao entre a mdia da Regio Norte e da Nordeste
(0,4418) bem pequena.
Pgina | 34
3.5.3 Varivel EMPREGO E RENDA por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
EMP&
REN
DA
c
Boxplot of EMP&RENDAc
One-way ANOVA: EMP&RENDAc versus Regio
Source DF SS MS F PRegio 4 17,8396 4,4599 212,84 0,000Error 5538 116,0456 0,0210Total 5542 133,8852
S = 0,1448 R-Sq = 13,32% R-Sq(adj) = 13,26%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev --------+---------+---------+---------+-Centro-Oeste 464 0,4183 0,1391 (---*--)Nordeste 1783 0,3349 0,1290 (-*)Norte 445 0,3416 0,1422 (--*---)Sudeste 1663 0,4496 0,1682 (*-)Sul 1188 0,4624 0,1344 (-*-)
--------+---------+---------+---------+-0,360 0,400 0,440 0,480
Pooled StDev = 0,1448
No indicador de Emprego e Renda, podemos verificar que a Regio Sul possui o maior
ndice Mdio (0,4624), e seguida da Regio Sudeste, e o menor ndice o da Regio
Nordeste (0,3349). A variao entre a mdia da Regio Norte e da Norte (0,3416) bem
pequena.
O grau de variao entre as Regies baixo (F = 212,84) e o P-value nos indica que a informao confivel e no existe chance deste valor ser diferente.
Pgina | 35
3.5.4 Varivel LIQUIDEZ por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
LIQ
c
Boxplot of LIQc
One-way ANOVA: LIQc versus Regio
Source DF SS MS F PRegio 4 99,198 24,799 203,94 0,000Error 5560 676,095 0,122Total 5564 775,293
S = 0,3487 R-Sq = 12,79% R-Sq(adj) = 12,73%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ---+---------+---------+---------+------Centro-Oeste 468 0,6541 0,3415 (--*---)Nordeste 1790 0,3825 0,3591 (*-)Norte 447 0,5411 0,3846 (--*--)Sudeste 1669 0,5719 0,3564 (*-)Sul 1191 0,7402 0,3084 (-*-)
---+---------+---------+---------+------0,40 0,50 0,60 0,70
Pooled StDev = 0,3487
No indicador de Liquidez, podemos verificar que a Regio Sudeste possui o maior
ndice Mdio (0,5719), e seguida da Regio Sul, e o menor ndice o da Regio
Nordeste (0,3825).
O grau de variao entre as Regies baixo (F = 203,94) e o P-value nos indica que a
informao confivel e no existe chance deste valor ser diferente.
Pgina | 36
3.5.5 Varivel H6 por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
H6c
Boxplot of H6c
One-way ANOVA: H6c versus Regio
Source DF SS MS F PRegio 4 73,4530 18,3633 1472,35 0,000Error 5560 69,3446 0,0125Total 5564 142,7976
S = 0,1117 R-Sq = 51,44% R-Sq(adj) = 51,40%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 468 0,6321 0,1147 (*)Nordeste 1790 0,4774 0,1044 (*)Norte 447 0,3725 0,1728 (*)Sudeste 1669 0,6421 0,1065 (*)Sul 1191 0,7330 0,0983 (*)
----+---------+---------+---------+-----0,40 0,50 0,60 0,70
Pooled StDev = 0,1117
No indicador H6, podemos verificar que a Regio Sul possui o maior ndice Mdio
(0,7330), e seguida da Regio Sudeste, e o menor ndice o da Regio Norte (0,3725).
O grau de variao entre as Regies alto (F = 1472,35) e o P-value nos indica que a
informao confivel e no existe chance deste valor ser diferente.
Pgina | 37
3.5.6 Varivel R1 por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
R1c
Boxplot of R1c
One-way ANOVA: R1c versus Regio
Source DF SS MS F PRegio 4 185,3416 46,3354 2688,34 0,000Error 5560 95,8304 0,0172Total 5564 281,1720
S = 0,1313 R-Sq = 65,92% R-Sq(adj) = 65,89%
Level N Mean StDevCentro-Oeste 468 0,1925 0,1171Nordeste 1790 0,5388 0,1346Norte 447 0,5026 0,1928Sudeste 1669 0,1777 0,1339Sul 1191 0,1281 0,0940
Individual 95% CIs For Mean Based on Pooled StDevLevel +---------+---------+---------+---------Centro-Oeste (*)Nordeste (*)Norte (*)Sudeste (*)Sul (*)
+---------+---------+---------+---------0,12 0,24 0,36 0,48
Pooled StDev = 0,1313
No indicador de R1, podemos verificar que a Regio Sul possui o menor ndice Mdio
(0,1281), e seguida da Regio Sudeste, e o maior ndice o da Regio Nordeste
(0,5388). Neste caso a informao diz que a Renda abaixo da linha da pobreza, ento
quanto menor melhor. O grau de variao entre as Regies baixo (F = 203,94) e o P-
value nos indica que a informao confivel e no existe chance deste valor ser
diferente.
Pgina | 38
3.5.7 Varivel T1_2 por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
T12c
Boxplot of T12c
One-way ANOVA: T12c versus Regio
Source DF SS MS F PRegio 4 102,6832 25,6708 1069,67 0,000Error 5560 133,4330 0,0240Total 5564 236,1162
S = 0,1549 R-Sq = 43,49% R-Sq(adj) = 43,45%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev -+---------+---------+---------+--------Centro-Oeste 468 0,5930 0,1337 (*-)Nordeste 1790 0,3928 0,1510 (*)Norte 447 0,4486 0,1542 (-*)Sudeste 1669 0,6581 0,1782 (*)Sul 1191 0,7203 0,1321 (*)
-+---------+---------+---------+--------0,40 0,50 0,60 0,70
Pooled StDev = 0,1549
No indicador T1_2, podemos verificar que a Regio Sul possui o maior ndice Mdio
(0,7203), e seguida da Regio Sudeste, e o menor ndice o da Regio Nordeste
(0,3928). O grau de variao entre as Regies alto (F = 1069,67) e o P-value nos
indica que a informao confivel e no existe chance deste valor ser diferente.
Pgina | 39
3.5.8 Varivel S1_1 por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
S11c
Boxplot of S11c
One-way ANOVA: S11c versus Regio
Source DF SS MS F PRegio 4 0,17432 0,04358 24,14 0,000Error 5560 10,03972 0,00181Total 5564 10,21404
S = 0,04249 R-Sq = 1,71% R-Sq(adj) = 1,64%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ----+---------+---------+---------+-----Centro-Oeste 468 0,04258 0,05074 (-----*----)Nordeste 1790 0,04741 0,03271 (--*--)Norte 447 0,05346 0,04539 (----*-----)Sudeste 1669 0,04080 0,04173 (--*--)Sul 1191 0,03467 0,05104 (---*--)
----+---------+---------+---------+-----0,0350 0,0420 0,0490 0,0560
Pooled StDev = 0,04249
No indicador de S1_1, podemos verificar que a Regio Sul possui o menor ndice
Mdio (0,03467), e seguida da Regio Sudeste, e o maior ndice o da Regio Norte
(0,5346). Neste caso a informao diz que a mortalidade infantil, ento quanto menor
melhor. O grau de variao entre as Regies baixo (F = 24,14) e o P-value nos indica
que a informao confivel e no existe chance deste valor ser diferente.
Pgina | 40
3.5.9 Varivel E2_4 por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
E24c
Boxplot of E24c
One-way ANOVA: E24c versus Regio
Source DF SS MS F PRegio 4 76,7930 19,1983 1478,82 0,000Error 5560 72,1806 0,0130Total 5564 148,9736
S = 0,1139 R-Sq = 51,55% R-Sq(adj) = 51,51%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev -------+---------+---------+---------+--Centro-Oeste 468 0,8011 0,0887 (*-)Nordeste 1790 0,5881 0,1298 (*)Norte 447 0,5969 0,1841 (*-)Sudeste 1669 0,8245 0,1017 (*)Sul 1191 0,8444 0,0711 (*)
-------+---------+---------+---------+--0,630 0,700 0,770 0,840
Pooled StDev = 0,1139
As maiores variaes de dados encontram-se na Regio Norte, seguida da Nordeste, e a
Regio que apresenta o mais alto grau de E2_4 a Sul, Seguida da Sudeste. A regio
Sul possui baixa variabilidade dos dados de E2_4. A regio com o menor ndice de
E2_4 a Nordeste (0,5881).
Pgina | 41
3.5.10 Varivel E2_5 por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
E25c
Boxplot of E25c
One-way ANOVA: E25c versus Regio
Source DF SS MS F PRegio 4 57,9393 14,4848 1872,08 0,000Error 5560 43,0193 0,0077Total 5564 100,9586
S = 0,08796 R-Sq = 57,39% R-Sq(adj) = 57,36%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev -------+---------+---------+---------+--Centro-Oeste 468 0,36291 0,07557 (*)Nordeste 1790 0,23474 0,07661 (*Norte 447 0,27622 0,07793 (*-)Sudeste 1669 0,47709 0,10320 *)Sul 1191 0,41670 0,08878 (*
-------+---------+---------+---------+--0,280 0,350 0,420 0,490
Pooled StDev = 0,08796
VO ndice Brasil de proficincia Portugus e Matemtica (5 ano EF), por Regio,
aparece baixo em todo o territrio nacional, sendo a Regio Sudeste a que apresenta o
maior percentual (0,47709), seguida da Regio Sul. Este valor demonstra que a
qualidade do ensino no Brasil baixa e precisa ser melhorada nos prximos anos. Este
dado muito importante para a Educao nos municpios. A Regio que apresenta a
menor nota a Nordeste (0,23474), seguida da Norte.
Pgina | 42
3.5.11 Varivel E2_6 por Regio
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Regio
E26c
Boxplot of E26c
One-way ANOVA: E26c versus Regio
Source DF SS MS F PRegio 4 44,54372 11,13593 1225,39 0,000Error 5560 50,52742 0,00909Total 5564 95,07114
S = 0,09533 R-Sq = 46,85% R-Sq(adj) = 46,81%
Individual 95% CIs For Mean Based onPooled StDev
Level N Mean StDev ------+---------+---------+---------+---Centro-Oeste 468 0,49470 0,08210 (*-)Nordeste 1790 0,38674 0,08935 (*)Norte 447 0,43068 0,08755 (-*)Sudeste 1669 0,58496 0,10269 (*)Sul 1191 0,57868 0,10079 (*)
------+---------+---------+---------+---0,420 0,480 0,540 0,600
Pooled StDev = 0,09533
O ndice Brasil de proficincia Portugus e Matemtica (9 ano EF), por Regio aparece
baixo em todo o territrio nacional, sendo a Regio Sudeste a que apresenta o maior
percentual (0,58496), seguida da Regio Sul. Este valor demonstra que a qualidade do
ensino no Brasil baixa e precisa ser melhorada nos prximos anos. Este dado muito
importante para a Educao nos municpios. As Regies que apresentam as menores
notas so a Nordeste (0,38674) seguida da Norte.
Pgina | 43
3.6 AMOSTRAGEM
Em Estatstica, amostra o conjunto de elementos extrados de um conjunto maior,
chamado Populao. um conjunto constitudo de indivduos (famlias ou outras
organizaes), acontecimentos ou outros objetos de estudo que o investigador pretende
descrever ou para os quais pretende generalizar as suas concluses ou resultados.
Principais razes para se trabalhar com uma amostra:
- A populao infinita, ou considerada como tal, no podendo portanto ser analisada
na ntegra;
- Custo excessivo do processo de recolha e tratamento dos dados, como resultado da
grande dimenso da populao ou da complexidade do processo de caracterizao de
todos os elementos da populao;
- Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo
obteno de informao desatualizada;
- As populaes so dinmicas, de onde resulta que os elementos ou objetos da
populao esto em constante renovao, de onde resulta a impossibilidade de analisar
todos os elementos desta populao;
- Inacessibilidade a alguns elementos da populao, por diversas causas.
Se a constituio da amostra obedecer a determinadas condies, a anlise das
caractersticas da amostra pode servir para se fazerem inferncias sobre a populao.
O objetivo deste estudo gerar as estatsticas com dois tipos de amostras diferentes,
uma contendo 50 linhas e outra contendo 100 linhas, e realizar comparaes de
resultados entre as amostras, e com a populao (5565 municpios).
A seguir sero apresentadas duas amostras, uma de 50 indivduos, ou municpios, e
outra composta por 100 indivduos. Para cada amostra foram efetuadas uma anlises
exploratria de dados, as correlaes e os dendogramas. As variveis utilizadas neste
estudo so H6, R1 e S1_1.
Pgina | 44
3.6.1 VARIAVEL H6
O comando do Minitab para gerar as amostra :
Calc >> Random Data >> Sample form columns
0,80,60,40,2
Median
Mean
0,620,600,580,560,540,520,50
1st Q uartile 0,42663Median 0,564803rd Q uartile 0,68513Maximum 0,88087
0,50639 0,60616
0,51863 0,61927
0,14662 0,21873
A -Squared 0,34P-V alue 0,472
Mean 0,55628StDev 0,17553V ariance 0,03081Skewness -0,554421Kurtosis 0,278991N 50
Minimum 0,06240
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6 smp 50
0,80,60,40,2
Median
Mean
0,620,600,580,560,540,520,50
1st Q uartile 0,42663Median 0,564803rd Q uartile 0,68513Maximum 0,88087
0,50639 0,60616
0,51863 0,61927
0,14662 0,21873
A -Squared 0,34P-V alue 0,472
Mean 0,55628StDev 0,17553V ariance 0,03081Skewness -0,554421Kurtosis 0,278991N 50
Minimum 0,06240
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6 smp 50
0,900,750,600,450,300,15
Median
Mean
0,6500,6250,6000,5750,550
1st Q uartile 0,48897Median 0,577503rd Q uartile 0,72555Maximum 0,93764
0,56014 0,62461
0,54093 0,65180
0,14264 0,18872
A -Squared 0,44P-V alue 0,285
Mean 0,59238StDev 0,16246V ariance 0,02639Skewness -0,279333Kurtosis -0,096683N 100
Minimum 0,11251
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6 smp 100
0,900,750,600,450,300,15
Median
Mean
0,6500,6250,6000,5750,550
1st Q uartile 0,48897Median 0,577503rd Q uartile 0,72555Maximum 0,93764
0,56014 0,62461
0,54093 0,65180
0,14264 0,18872
A -Squared 0,44P-V alue 0,285
Mean 0,59238StDev 0,16246V ariance 0,02639Skewness -0,279333Kurtosis -0,096683N 100
Minimum 0,11251
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6 smp 100
0,980,840,700,560,420,280,140,00
Median
Mean
0,6050,6000,5950,5900,5850,580
1st Q uartile 0,47636Median 0,597653rd Q uartile 0,70782Maximum 1,00000
0,58189 0,59031
0,59273 0,60358
0,15728 0,16323
A -Squared 15,83P-V alue < 0,005
Mean 0,58610StDev 0,16020V ariance 0,02566Skewness -0,400642Kurtosis -0,053800N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6c
0,980,840,700,560,420,280,140,00
Median
Mean
0,6050,6000,5950,5900,5850,580
1st Q uartile 0,47636Median 0,597653rd Q uartile 0,70782Maximum 1,00000
0,58189 0,59031
0,59273 0,60358
0,15728 0,16323
A -Squared 15,83P-V alue < 0,005
Mean 0,58610StDev 0,16020V ariance 0,02566Skewness -0,400642Kurtosis -0,053800N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for H6c
Os grficos acima demonstram a curva de densidade, o primeiro contendo amostragem
de 50 indivduos, o segundo contendo 100 e o terceiro com toda a populao, 5565
municpios. A amostragem com 50 perde um pouco das informaes sobre as diversas
corcovas da populao, j a de 100 consegue ilustrar este fato. Podemos tambm
comparar as mdias dos 3 grficos, o primeiro com 0,55628, o segundo com 0,59238 e
o terceiro com 0,58610.
Podemos concluir que o trabalho com amostras muito til quando a populao muito
grande e no se tem tempo ou recursos financeiros para investir. Existe variabilidade
entre os grficos, mas no impede na chegada das mesmas concluses.
Pgina | 45
3.6.2 VARIAVEL R1
0,80,60,40,20,0
Median
Mean
0,500,450,400,350,30
1st Q uartile 0,13743Median 0,383653rd Q uartile 0,56979Maximum 0,80558
0,31043 0,43946
0,30093 0,48231
0,18964 0,28289
A -Squared 1,02P-V alue 0,010
Mean 0,37494StDev 0,22702V ariance 0,05154Skewness 0,01457Kurtosis -1,28076N 50
Minimum 0,01503
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1 smp 50
0,80,60,40,20,0
Median
Mean
0,500,450,400,350,30
1st Q uartile 0,13743Median 0,383653rd Q uartile 0,56979Maximum 0,80558
0,31043 0,43946
0,30093 0,48231
0,18964 0,28289
A -Squared 1,02P-V alue 0,010
Mean 0,37494StDev 0,22702V ariance 0,05154Skewness 0,01457Kurtosis -1,28076N 50
Minimum 0,01503
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1 smp 50
0,750,600,450,300,150,00
Median
Mean
0,350,300,250,200,15
1st Q uartile 0,09184Median 0,216783rd Q uartile 0,56173Maximum 0,77453
0,26055 0,35651
0,14063 0,32504
0,21231 0,28091
A -Squared 5,08P-V alue < 0,005
Mean 0,30853StDev 0,24181V ariance 0,05847Skewness 0,47414Kurtosis -1,35834N 100
Minimum 0,01503
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1 smp 100
0,750,600,450,300,150,00
Median
Mean
0,350,300,250,200,15
1st Q uartile 0,09184Median 0,216783rd Q uartile 0,56173Maximum 0,77453
0,26055 0,35651
0,14063 0,32504
0,21231 0,28091
A -Squared 5,08P-V alue < 0,005
Mean 0,30853StDev 0,24181V ariance 0,05847Skewness 0,47414Kurtosis -1,35834N 100
Minimum 0,01503
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1 smp 100
0,980,840,700,560,420,280,140,00
Median
Mean
0,320,300,280,260,24
1st Q uartile 0,10855Median 0,252993rd Q uartile 0,50054Maximum 1,00000
0,30468 0,31649
0,24120 0,26571
0,22070 0,22905
A -Squared 154,22P-V alue < 0,005
Mean 0,31059StDev 0,22480V ariance 0,05053Skewness 0,512744Kurtosis -0,931901N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1c
0,980,840,700,560,420,280,140,00
Median
Mean
0,320,300,280,260,24
1st Q uartile 0,10855Median 0,252993rd Q uartile 0,50054Maximum 1,00000
0,30468 0,31649
0,24120 0,26571
0,22070 0,22905
A -Squared 154,22P-V alue < 0,005
Mean 0,31059StDev 0,22480V ariance 0,05053Skewness 0,512744Kurtosis -0,931901N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for R1c
Os grficos acima demonstram a curva de densidade, o primeiro contendo amostragem
de 50 indivduos, o segundo contendo 100 e o terceiro com toda a populao, 5565
municpios. Todos os 3 grficos demonstram o mesmo comportamento da curva, que
contm N corcovas e indica que existe muitas realidades diferentes nos municpios do
Brasil em relao a renda abaixo da pobreza.
Podemos tambm comparar as mdias dos 3 grficos, o primeiro com 0,37494, o
segundo com 0,30853 e o terceiro com 0,31059. A variao muito pequena entre as
mdias das diversas amostras, o que confirma a sua utilidade e praticidade.
Pgina | 46
3.6.3 VARIAVEL S1_1
0,080,060,040,020,00
Median
Mean
0,0550,0500,0450,0400,0350,030
1st Q uartile 0,022773Median 0,0447863rd Q uartile 0,060550Maximum 0,094488
0,033201 0,047505
0,029194 0,052019
0,021021 0,031359
A -Squared 0,54P-V alue 0,160
Mean 0,040353StDev 0,025165V ariance 0,000633Skewness -0,057793Kurtosis -0,768251N 50
Minimum 0,000000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11 smp 50
0,080,060,040,020,00
Median
Mean
0,0550,0500,0450,0400,0350,030
1st Q uartile 0,022773Median 0,0447863rd Q uartile 0,060550Maximum 0,094488
0,033201 0,047505
0,029194 0,052019
0,021021 0,031359
A -Squared 0,54P-V alue 0,160
Mean 0,040353StDev 0,025165V ariance 0,000633Skewness -0,057793Kurtosis -0,768251N 50
Minimum 0,000000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11 smp 50
0,180,150,120,090,060,030,00
Median
Mean
0,05000,04750,04500,04250,04000,03750,0350
1st Q uartile 0,022526Median 0,0422053rd Q uartile 0,060190Maximum 0,183673
0,037350 0,051141
0,034586 0,047411
0,030512 0,040369
A -Squared 1,62P-V alue < 0,005
Mean 0,044245StDev 0,034751V ariance 0,001208Skewness 1,01241Kurtosis 1,88153N 100
Minimum 0,000000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11 smp 100
0,180,150,120,090,060,030,00
Median
Mean
0,05000,04750,04500,04250,04000,03750,0350
1st Q uartile 0,022526Median 0,0422053rd Q uartile 0,060190Maximum 0,183673
0,037350 0,051141
0,034586 0,047411
0,030512 0,040369
A -Squared 1,62P-V alue < 0,005
Mean 0,044245StDev 0,034751V ariance 0,001208Skewness 1,01241Kurtosis 1,88153N 100
Minimum 0,000000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11 smp 100
0,980,840,700,560,420,280,140,00
Median
Mean
0,0440,0420,0400,0380,036
1st Q uartile 0,01286Median 0,037743rd Q uartile 0,06020Maximum 1,00000
0,04166 0,04391
0,03688 0,03873
0,04206 0,04366
A -Squared 160,61P-V alue < 0,005
Mean 0,04278StDev 0,04285V ariance 0,00184Skewness 4,2578Kurtosis 59,4287N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11c
0,980,840,700,560,420,280,140,00
Median
Mean
0,0440,0420,0400,0380,036
1st Q uartile 0,01286Median 0,037743rd Q uartile 0,06020Maximum 1,00000
0,04166 0,04391
0,03688 0,03873
0,04206 0,04366
A -Squared 160,61P-V alue < 0,005
Mean 0,04278StDev 0,04285V ariance 0,00184Skewness 4,2578Kurtosis 59,4287N 5565
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev95% Confidence Intervals
Summary for S11c
Os grficos acima demonstram a curva de densidade, o primeiro contendo amostragem
de 50 indivduos, o segundo contendo 100 e o terceiro com toda a populao, 5565
municpios. Dos trs casos apresentados neste estudo, este exemplo o que mais perde
em comparao das amostras com a populao. A populao tende a se concentrar
totalmente esquerda, o que no ocorreu com a amostra de 50. J a amostra de 100
ficou mais prxima da populao.
Todos os 3 grficos demonstram o mesmo comportamento da curva, que contm N
corcovas e indica que existe muitas realidades diferentes nos municpios do Brasil em
relao motalidade infantil
Podemos tambm comparar as mdias dos 3 grficos, o primeiro com 0,040353, o
segundo com 0,044245 e o terceiro com 0,04278. A variao muito pequena entre as
mdias das diversas amostras, o que confirma a sua utilidade e praticidade.
Pgina | 47
3.7 ANLISE MULTIVARIADA COMPONENTES PRINCIPAIS
Este estudo efetuar uma anlise das correlaes e dos componentes principais (anlise
multivariada) de dados quantitativos sobre os dados de desenvolvimento dos
Municpios do Brasil. Para tal, iniciamos com anlise da estatstica descritiva. Em
seguida passamos para a anlise das correlaes e dendrogramas. Na terceira parte
utilizamos a anlise dos componentes principais.
3.7.1 CORRELAO LINEAR
Segue abaixo a matriz de correlao incluindo o teste de significncia p-value. Para a
correlao foi utilizado o ndice de Pearson. Vale ressaltar que o ndice de correlao
entre as variveis no requer que exista uma relao de causa-efeito entre ambas.
Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; ...
ISDMc EDUCc EMP&RENDAc LIQc H6cEDUCc 0,783
0,000
EMP&RENDAc 0,526 0,3760,000 0,000
LIQc 0,276 0,233 0,1970,000 0,000 0,000
H6c 0,695 0,552 0,210 0,2600,000 0,000 0,000 0,000
R1c -0,951 -0,754 -0,510 -0,308 -0,7090,000 0,000 0,000 0,000 0,000
T12c 0,806 0,610 0,587 0,302 0,4490,000 0,000 0,000 0,000 0,000
S11c -0,147 -0,122 -0,076 -0,049 -0,1150,000 0,000 0,000 0,000 0,000
E24c 0,764 0,767 0,364 0,263 0,6130,000 0,000 0,000 0,000 0,000
E25c 0,708 0,712 0,316 0,232 0,5830,000 0,000 0,000 0,000 0,000
E26c 0,643 0,614 0,308 0,248 0,5640,000 0,000 0,000 0,000 0,000
Pgina | 48
Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; ...
(continuao)R1c T12c S11c E24c E25c
T12c -0,7820,000
S11c 0,140 -0,1120,000 0,000
E24c -0,768 0,599 -0,1280,000 0,000 0,000
E25c -0,693 0,505 -0,096 0,5770,000 0,000 0,000 0,000
E26c -0,643 0,474 -0,074 0,490 0,7500,000 0,000 0,000 0,000 0,000
Cell Contents: Pearson correlationP-Value
As correlaes significativas de acordo com o P-Value, para este trabalho, ser
considerada significativa quando >= 0,70). Apenas as variveis R1, E2_4 e E2_5
possuem um coeficiente de correlao satisfatoriamente forte com a varivel dependente
Educao.
3.7.2 DENDROGRAMA
A interpretao de um dendrograma de similaridade entre amostras fundamenta-se na
intuio: duas amostras prximas devem ter tambm valores semelhantes para as
variveis medidas. Ou seja, elas devem ser prximas matematicamente no espao
multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas s
amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade
de modo que podemos ter uma viso bidimensional da similaridade ou dissimilaridade
de todo o conjunto de amostras utilizado no estudo.
Pgina | 49
S11cR1
cLIQ
c
EMP&
REND
AcH6c
E26c
E25c
E24c
EDUC
cT1
2c
ISDM
c
47,56
65,04
82,52
100,00
Variables
Sim
ilari
tyDendrogram
Single Linkage; Correlation Coefficient Distance
As variveis ISDM e T1_2 so as que possuem o maior nvel de similaridade, por volta
de 90%. As demais variv eis (Educao, E2_4, E2_5, E2_6 e H6) tambm so muito
similares, variando at 85%. J as variveis Emprego e Renda, Liquidez, R1 e S1_1
encontram-se com baixo nvel de similaridade.
S11cR1
cLIQ
c
EMP&
REND
AcH6c
E26c
E25c
E24c
EDUC
cT1
2c
ISDM
c
47,56
65,04
82,52
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
Pgina | 50
O Dendrograma acima demonstra um primeiro grupo de dados composto pelas variveis
ISDM, T!@, Educao, E2_4, E2_5, E2_6 e H6.
As demais variveis no apresentam similaridade segundo este mtodo, e so
consideradas em diferentes cluster de dados. As variveis que apresentam menor nvel
de similaridade so R1 e S1_1.
3.8.3. PRINCIPAIS COMPONENTES >> STAT >> MULTIVARIATE >> Principal Components Principal Component Analysis: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S
Eigenanalysis of the Correlation Matrix5543 cases used, 22 cases contain missing values
Eigenvalue 6,0847 1,0073 0,9778 0,8799 0,6198 0,4627 0,3533 0,2379Proportion 0,553 0,092 0,089 0,080 0,056 0,042 0,032 0,022Cumulative 0,553 0,645 0,734 0,814 0,870 0,912 0,944 0,966
Eigenvalue 0,1843 0,1473 0,0451Proportion 0,017 0,013 0,004Cumulative 0,983 0,996 1,000
Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8ISDMc 0,385 -0,050 0,015 -0,109 -0,125 -0,092 -0,193 -0,082EDUCc 0,346 0,125 -0,038 -0,097 -0,080 0,548 0,144 -0,051EMP&RENDAc 0,223 -0,619 0,275 -0,247 0,326 -0,173 0,539 -0,028LIQc 0,151 -0,237 0,172 0,935 0,016 0,108 0,032 -0,037H6c 0,302 0,301 -0,128 0,134 -0,280 -0,696 0,253 -0,103R1c -0,382 0,040 -0,019 0,061 0,148 0,141 0,165 0,028T12c 0,325 -0,350 0,155 -0,112 -0,090 -0,030 -0,656 0,020S11c -0,068 0,361 0,921 -0,065 -0,112 -0,009 0,008 -0,009E24c 0,335 0,047 -0,046 -0,042 -0,465 0,331 0,347 0,331E25c 0,326 0,310 -0,049 -0,002 0,418 0,169 0,027 -0,661E26c 0,305 0,314 -0,017 0,061 0,600 -0,082 -0,084 0,656
Variable PC9 PC10 PC11ISDMc -0,026 -0,445 0,755EDUCc -0,716 0,072 -0,078EMP&RENDAc -0,035 0,036 -0,009LIQc -0,022 -0,048 0,030H6c -0,223 0,311 -0,014R1c -0,072 0,599 0,644T12c 0,019 0,538 -0,074S11c -0,003 -0,010 0,006E24c 0,544 0,169 0,033E25c 0,367 0,138 -0,026E26c 0,001 0,010 0,020
Existe um peso muito grande da primeira varivel e as demais esto mais distantes. As
varivel 2 possuem peso maior que 1, e as variveis 2 e 3 prximo de 1, as demais
possuem um peso ABAIXO DE 0.6.
A concluso que podemos resumir as 11 variveis em 3 principais variveis para
efeito de simplificao do trabalho com dados contendo muitas colunas.
Pgina | 51
1110987654321
6
5
4
3
2
1
0
Component Number
Eige
nval
ueScree Plot of ISDMc; ...; E26c
O grfico acima demonstra a representatividade das variveis para o componente, ou o
grau de equivalncia. Existe um peso muito grande da primeira varivel e as demais
esto bem distantes. As variveis 2 e 3 possuem peso prximo de 1, e as demais no d
para aproveitar pois esto abaixo de 1.
0,40,30,20,10,0-0,1-0,2-0,3-0,4
0,50
0,25
0,00
-0,25
-0,50
-0,75
First Component
Seco
nd C
ompo
nent
E26cE25c
E24c
S11c
T12c
R1c
H6c
LIQc
EMP&RENDAc
EDUCc
ISDMc
Loading Plot of ISDMc; ...; E26c
Podemos observar que as variveis R1 e S1_1 encontram-se isoladas. As demais
variveis tem certa proximidade. Um grupo bastante visvel composto pelas variveis
Pgina | 52
Educao, E2_4, ISDM. J T1_1, Liquidez e Emprego e Renda apresentam um a certa
distncia. O grupo mais prximo est sobreposto. Por eliminao conclumos que
composto por E2_5, E2_6 e H6.
5-5
0
00
5
10 -520
PC1
PC2
PC3
Centro-OesteNordesteNorteSudesteSul
Regio
3D Scatterplot of PC1 vs PC2 vs PC3
O grfico acima uma viso multidimensional das variveis PC1, PC2 e PC3 agrupadas
por regio.
5-5
0
00
5
10 -520
PC1
PC2
PC3
MaranhoMato GrossoMato Grosso do SulMinas GeraisParParabaParanPernambucoP iauRio de Janeiro
A cre
Rio Grande do NorteRio Grande do SulRondniaRoraimaSanta C atarinaSo PauloSergipe
A lagoasA mapA mazonasBahiaC earDistrito F ederalEsprito SantoGois
UF
3D Scatterplot of PC1 vs PC2 vs PC3
Pgina | 53
O grfico acima repete a viso multidimensional das variveis PC1, PC2 e PC3, agora
agrupadas por estado. Nos dois grficos a dificuldade de visualizao dos dados ocorre
pelo nmero elevado de indivduos que compem a populao (5565 municpios).
Pelo resultado das anlises da correlao linear, dendograma e principais componentes,
os dados podem ser reduzidos para trs variveis, o que torna o trabalho com os
nmeros mais fceis e de prtico manuseamento.
3.8 ANLISE DE CONGLOMERADOS
3.8.1. DENDROGRAMA DA MDIA DE DESENVOLVIMENTO POR ESTADO
(-DF)
O Dendrograma permite uma anlise do grau de similaridade dos dados para uma
determinada varivel. Em seguida geramos o Dendrograma da mdia de
desenvolvimento dos municpios, agrupado por Estado.
SPSCPRRSGOMT
MGES
ROMSTOCERJPAP
IAMRRRNP
EMAA
PPBALSEBAAC
82,93
88,62
94,31
100,00
Observations
Sim
ilari
ty
DendrogramSingle Linkage; Euclidean Distance
Podemos observar no grfico acima que existem 2 grandes grupos por similaridade, e
tambm alguns estados com baixo grau de similaridade (abaixo de 90%).
Pgina | 54
possvel gerar o grfico solicitando um nmero especfico de cluster, no caso abaixo
foi solicitado que se gerasse 5 clusters.
SPSCPRRSGOMT
MGES
ROMSTOCERJPAP
IAMRRRNP
EMAA
PPBALSEBAAC
82,93
88,62
94,31
100,00
Observations
Sim
ilari
ty
DendrogramSingle Linkage; Euclidean Distance
Neste caso, os destaques ficaram para os estados AM, PI, PA e RJ, que possuem baixo
nvel de similaridade com os demais estados.Podemos concluir que o nvel de
desenvolvimento do Brasil pode ser dividido em 2,5 Brasis, sendo o primeiro grupo
composto pelos estados em vermelho e o segundo grupo pelos estados em azul e o
terceiro pelos estados com baixa similaridade sobre as mdias de desenvolvimento dos
municpios.
Pgina | 55
Brasil Poltico Representao dos 3 Brasis, segundo o ndice mdio de
desenvolvimento dos municpios.
3.8.2. DENDROGRAMA DA DESIGUALDADE DE DESENVOLVIMENTO
POR ESTADO (-DF)
Neste exemplo ser demonstrado o ndice de desigualdade de desenvolvimento dos
municpios do Brasil agrupados por estados. Utilizaremos para isso o desvio padro
dos ndices de desenvolvimento.
AMRRPISPMABASCPRR
JMSGORSESMGRNP
BMTTOPECEAPROSEALPAAC
85,88
90,59
95,29
100,00
Observations
Sim
ilari
ty
DendrogramSingle Linkage; Euclidean Distance
Foram considerados 2 cluster neste primeiro agrupamento, sendo o primeiro composto
pelos estados do AC e PA, e o segundo pelos demais estados.
Vamos executar novamente com 5 clusters:
Pgina | 56
AMRRPISPMABAS