ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE...

5

Click here to load reader

description

O Rio Grande do Norte (RN) é um estado rico em recursos naturais, apresenta um desenvolvimento educacional concentrado em algumas regiões. Diante dessa realidade, este trabalho descreve a distribuição da educação na população do RN, mostrando a sua disparidade entre seus municípios. Logo, foram utilizados alguns indicadores da educação do Instituto Brasileiro de Geografia e Estatística (IBGE), juntamente com o Sistema de Informação Geográfico (SIG) TerraView para a elaboração de mapas, utilizando técnicas do geoprocessamento e da estatística. Além disto, também foram utilizadas técnicas de Mineração de Dados (MD) para identificar padrões que ajudam a caracterizar a qualidade do sistema educacional do RN, mostrando assim, a desigualdade entre seus municípios e evidenciando um desenvolvimento educacional concentrado em algumas regiões. Por fim, os resultados mostram que a maioria dos municípios do RN apresenta qualidade educacional abaixo da meta e que a situação é pior em regiões do estado que possuem pequenas atividades econômicas.

Transcript of ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE...

Page 1: ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE  COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE

COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

Fábio Abrantes Diniz1, Fabiano Rosemberg de Moura Silva

2, Roberto Douglas da Costa

3, Thiago Reis

da Silva4, Íthalo Bruno Grigório de Moura

5, Angélica Felix Castro

6

1Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, [email protected]

2Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, [email protected] 3Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, [email protected]

4Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, [email protected] 5Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, ithalobgm @gmail.com

6Professora Doutora do Departamento de Informática da UFERSA, Mossoró – RN, angelicafcastro@ gmail.com

RESUMO: O Rio Grande do Norte (RN) é um estado rico em recursos naturais, apresenta um

desenvolvimento educacional concentrado em algumas regiões. Diante dessa realidade, este trabalho

descreve a distribuição da educação na população do RN, mostrando a sua disparidade entre seus

municípios. Logo, foram utilizados alguns indicadores da educação do Instituto Brasileiro de

Geografia e Estatística (IBGE), juntamente com o Sistema de Informação Geográfico (SIG)

TerraView para a elaboração de mapas, utilizando técnicas do geoprocessamento e da estatística.

Além disto, também foram utilizadas técnicas de Mineração de Dados (MD) para identificar padrões

que ajudam a caracterizar a qualidade do sistema educacional do RN, mostrando assim, a desigualdade

entre seus municípios e evidenciando um desenvolvimento educacional concentrado em algumas

regiões. Por fim, os resultados mostram que a maioria dos municípios do RN apresenta qualidade

educacional abaixo da meta e que a situação é pior em regiões do estado que possuem pequenas

atividades econômicas.

PALAVRAS-CHAVE: Sistema de informação geográfico, Mineração de dados, Árvore de decisão.

INTRODUÇÃO: O RN é composto por 167 municípios, que se agrupam em quatro mesorregiões e

19 microrregiões (IBGE 2012). De acordo com a Secretaria de Estadual de Educação e Cultura

(SEEC), o RN possui 16 Diretorias Regionais de Educação (DIRED) que direcionam as instituições

educacionais e mantêm uma rede de 3.175 escolas do Ensino Fundamental das quais 620 são

estaduais, 2 084 são municipais, 470 são particulares e uma federal. O ensino médio foi ministrado em

420 estabelecimentos, com a matrícula de 152.326 alunos. Dos 152.326 discentes, 133.369 estavam

nas escolas públicas e 18.957 nas particulares (SEEC, 2012).

Diante dessa realidade, este artigo tem por objetivo analisar as características do sistema educacional

do RN, que enfatizam as diferenças sociais e econômicas entre as regiões mais ricas e as menos

desenvolvidas do estado. Para realizar este trabalho foram utilizados os indicadores demográficos e

educacionais do RN obtidos através do IBGE, tais como: população em idade escolar, número de

matrículas, taxa de escolaridade, aprovação, abandono, reprovação e os índices de desenvolvimento de

educação básica (IDEB). Alguns desses indicadores são utilizados na elaboração de algumas análises

espaciais, a fim de mostrar a qualidade e a equidade da educação nas redes públicas e privadas em

todo o estado do RN.

A mineração de dados é definida como um processo de descoberta de padrões nos dados (Fayyad,

1996). Desta forma, sua utilização neste trabalho visa encontrar um padrão comportamental de

variáveis que descrevem a distribuição da educação na população do RN. Portanto, para a realização

desse estudo aplicou o uso de técnicas de Mineração de Dados (MD) para estimar alguns resultados

que demonstram relações significativas entre a educação e o desenvolvimento local. Juntamente,

utilizou-se uso das técnicas e ferramentas de geoprocessamento, contida no Sistema de informação

Geográfica (SIG) TerraView. Nesta ferramenta foram utilizados os recursos de visualização dos dados

espaciais para dar subsídios em tomadas de decisões no setor educativo. A fim de ajudar o Governo

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Page 2: ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE  COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

em decisões para cumprir e otimizar as metas e objetivos na melhoria do serviço de educação do

estado do RN.

MATERIAS E MÉTODOS: A área de estudo é o Estado do Rio Grande do Norte, com uma área de

aproximadamente 53.000 km2, dividido politicamente em 167 municípios, com mais de três milhões

de habitantes (IBGE, 2012).

Foram utilizadas 167 amostras (número de municípios do RN), com seus respectivos dados de

educacionais, como o conjunto de treinamento para geração da árvore de decisão. Através da árvore

selecionada foi possível extrapolar a estimativa da distribuição da qualidade da educação. Cada

amostra possui atributos que trazem informações políticos, sociais e educacionais, referentes ao Estado

do RN.

As informações referentes ao Estado do RN tais como área, municípios, micro e mesorregiões,

população, Índice de Desenvolvimento Humano (IDH), renda domiciliar per capita, entre outras,

foram obtidas do Censo Demográfico 2010, através da página do IBGE na Internet. Os atributos

utilizados, referentes à educação, foram: as taxas de abandono escolar, aprovação, desempenho médio,

o Índice de Desenvolvimento da Educação Básica (IDEB), entre outros, todos obtidos da página da

SEEC na Internet e do Censo Escolar 2010. Também foram obtidos, da página do IBGE, os mapas nos

quais foram utilizadas técnicas de agrupamento - quantil (equipartição de amostras em 5,4 e 3

intervalos, com dos valores da amostra em cada intervalo).

Neste estudo, foram utilizadas técnicas de geoprocessamento (BRETERNITZ, 2010) através do

software TerraView 4.1.0 e dados disponibilizados pelo IBGE e pela SEEC sobre o Estado do RN

(SEEC, 2012). O TerraView é um SIG desenvolvido pelo Instituto Nacional de Pesquisas Espaciais

(INPE) sobre a biblioteca de geoprocessamento do TerraLib, também desenvolvida pelo INPE e tem

como seus principais objetivos oferecer à comunidade um fácil visualizador de dados geográficos com

recursos de consulta e análise de dados (INPE 2012).

As árvores de decisão são um dos modelos mais simples e mais usados em inferência indutiva. Estas

árvores são treinadas de acordo com um conjunto de dados de treinamento previamente classificadas e

posteriormente, usa essa árvore para classificar a exatidão do classificador num conjunto de teste.

Existem vários algoritmos de classificação que utilizam árvores de decisão. Dependendo do problema,

um algoritmo pode ser mais eficiente do que o outro. Dentre os algoritmos, os mais usados são: o ID3,

ASSISTANT, C4.5 e CART (Classification and Regression Trees) (DINIZ et. al. 2011).

Nesse trabalho foi utilizado o algoritmo C4.5, pois trabalha com valores indisponíveis, com valores

contínuos, poda árvores de decisão e não depende de suposições sobre a distribuição dos valores das

variáveis ou da independência entre si das variáveis (FAYYAD; PIATESKY-SHAPIRO; SMYTH,

1996). Características cruciais quando se usa dados de SIG juntamente com dados de imagem.

A ferramenta utilizada para aplicar a técnica de mineração de dados foi o denominado Weka (Waikato

Environment for Knowledge Analysis), da Universidade de Waikato, Nova Zelândia. O pacote Weka

possui uma suíte que contém diversas técnicas de mineração de dados, totalmente gratuito por ser um

software livre (WEKA, 2012). O Weka usa arquivos de dados de treinamento onde devem ser

explicitadas quais variáveis são permitidas para uma relação específica, bem como o tipo de dado de

cada variável (isto é, nominal ou valor numérico). O Weka pode detectar padrões em dados que podem

ser explorados mediante regras. Das técnicas disponíveis, foi utilizado o algoritmo de indução de

árvore de decisão C4.5 desenvolvido por (Quilan 1993) e implementado em sua versão para

linguagem Java, no Weka, com o nome J4.8, para gerar árvores de decisão (WEKA, 2012).

Para a utilização do conjunto de dados, foi feito um pré-processamento nos dados a fim de torná-los

compatíveis com o formato da ferramenta utilizada. O algoritmo de classificação do Weka necessita

de atributos preditivos para representar os padrões a serem classificados. Foram utilizados quatro

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Page 3: ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE  COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

atributos para a descoberta do modelo nesse trabalho, tais como: o IDH, a renda domiciliar per capita,

a taxa de abandono escolar e o IDEB. Todos são atributos preditivos que influenciam direta e

indiretamente na qualidade da educação em uma determinada região.

Além disso, o algoritmo de classificação do Weka precisa de uma variável nominal denominada

atributo-classe que classificam os dados. Portanto, foi criado, a partir dos valores dos atributos

preditivos, o atributo-classe MetaqualEd (Meta da qualidade da Educação) o qual possui três

categorias de valores (acima, media, abaixo) que classifica o nível da meta da qualidade educacional

do RN. Caracterizando as instâncias da base de dados como acima, abaixo ou na média da meta

nacional, estipulada pelo governo do RN para o nível da qualidade da educação para o ano de 2010.

RESULTADOS E DISCUSSÃO: Como mencionado, a ferramenta Weka foi utilizada como apoio

durante a execução da etapa de MD. As classificações com pequeno número de instâncias (167)

evidenciadas na base de dados, a árvore de decisão alcançou 87,5% das instâncias classificadas

corretamente. Uma estimativa válida que pode não ter sido a melhor devido ao número reduzido de

informação, além do fato de existirem poucas instâncias com prevalência muito alta em relação às

outras classes. O classificador foi testado utilizando-se o método de validação cruzada 10- Fold-Cross-

Validation para obtenção da proporção de acertos (acurácia).

Com a Mineração de Dados, foi possível analisar as diferenças no padrão do conjunto de reações das

variáveis em relação à melhora da meta da qualidade da educação nos municípios do RN. Para

avaliação das classificações foi utilizada a estatística de Kappa que é um método estatístico que serve

para medir a concordância entre diferentes medidas (LANDIS; KOCH, 1977), sendo muito usada para

avaliação da precisão, determinada por uma matriz de confusão. Sua grande vantagem é que para o seu

cálculo não se incluem somente os elementos da diagonal principal e sim todos os elementos da matriz

de erro (MOREIRA, 2001). A classificação desse trabalho gerou um índice de Kappa de

aproximadamente 73%.

O algoritmo J4.8 possui regras decisão e uma matriz de confusão. Nesse trabalho foi elaborada uma

matriz de confusão durante os treinamentos e testes das instâncias (Tabela 1). Analisando a matriz,

foram detectados possíveis problemas na classificação e também na separabilidade entre as classes.

Tabela 1. Matriz de confusão.

Classe Prevista

Classe

Real

Classe = acima Classe = media Classe = abaixo

Acima (28) 22 5 1

Media (23) 4 13 6

Abaixo (116) 1 4 111

Observa-se também na Tab. 2 que das 167 instâncias, 146 (111+22+13) são classificadas

corretamente, sendo que 21 (4+1+4+5+6+1) instâncias são classificadas incorretamente, 19 (4+4+5+6)

foram classificadas com um erro de classe e 2 (1+1) classificada com dois erros. Para um total de 28

instâncias com classe real rotulada como acima, tiveram 22 instâncias (78,9%) classificadas

corretamente, 5 instâncias (17,9%) foram classificadas como media e somente 1 (3,5%) foi

classificada como abaixo. Esse resultado pode ser considerado satisfatório, uma vez que os recursos

para o melhoramento da educação de uma região são pequenos, e com essa classificação pode

transferir boa parte dos recursos da educação destinados a municípios que tiveram uma qualidade da

educação acima da meta estipulada para municípios que estão com uma qualidade educacional abaixo

do esperado.

Já com as instâncias com classe real média, um pouco a mais da metade (56,5%) delas são

classificadas corretamente. Esse resultado mostra que mesmo que essas áreas estejam alcançando a

média de qualidade da educação, ainda precisam de atenção na melhora do seu sistema educacional,

pois podem sofrer baixas se não tiverem o investimento necessário. Já para a classe de prevalência

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Page 4: ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE  COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

abaixo, foram classificadas corretamente 111 das 116 amostras (96%), sendo que 4 amostras (3,4%)

foram classificas como media e apenas 1 amostra (0,6%) de prevalência foi classificada como acima.

Esse resultado evidencia a comprovação do padrão, mostrando que o RN precisa melhorar tanto a

qualidade do ensino e a infraestrutura da educação como a diminuição da desigualdade social,

provando que melhorando a qualidade da educação melhora a qualidade de vida.

O algoritmo J4.8 determina a variável com maior quantidade de informação e a coloca na raiz da

árvore de decisão. Em cada nó da árvore, foi feita a divisão em conjuntos cada vez mais homogêneos.

A variável colocada na raiz da árvore foi IDEBEFfin09 (Índice de Educação Básica do Ensino Funda

mental final de 2009), correspondendo à divisão em dois grupos: para valores desta variável menores

ou iguais a 3.2 e maiores que 3.2. A Figura 1 mostra a árvore de decisão (obtida a partir do algoritmo

J4.8 do Weka) para a prevalência da meta da qualidade da educação em relação a algumas variáveis

preditivas que foram selecionadas pelo Weka por conterem maior quantidade de informação. Foram

ainda selecionado outras variáveis tais como: índices de desenvolvimento humano (IDH2000), renda

domiciliar (renda) e taxa de abandono (TAbanEMed10).

Figura 1: Árvore de decisão obtida a partir do algoritmo J4.8 do Weka.

O resultado da classificação gerado pela árvore de decisão, acima, pode ser considerado coerente em

relação à realidade. Pela análise da árvore vemos a qualidade da educação do Estado do RN esta

abaixo da média estabelecida. Dos 167 municípios 115 estão com a qualidade abaixo da média.

Seguindo o ramo da árvore até a folha que apresenta o maior número de classes abaixo, os 115

municípios se caracterizam com um IDEB menor que 3.2, IDH menor que 0.7 e taxa de abandono

maior que 11.1%. Contrario as metas estabelecidas os quais são possuir um IDEB maior que 3.2, taxa

de abandono menor que 10% e IDH na média da nacional que é 0.78. É apresentado na Figura 2, os

dados classificados através das regras da árvore de decisão espacializados num mapa temático

utilizando o aplicativo TerraView.

Figura 2: Meta da qualidade da educação estimada através da árvore de decisão.

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Page 5: ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE  COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

Logo, podemos ver que as vantagens de árvore de decisão incluem a capacidade de lidar com dados

que estão em diferentes escalas de medidas, não serem necessárias suposições sobre as distribuições

de frequência dos dados em cada uma das classes, a flexibilidade e a capacidade de lidar com relações

não lineares entre variáveis e classes. E a simplicidade para encontrar os padrões torna essa técnica

muito útil nesse trabalho.

CONCLUSÕES E TRABALHOS FUTUROS: Esse trabalho demonstrou que o uso de árvore de

decisão é fundamental na descoberta de padrões, pois lida com dados de diferentes escalas de medidas

e têm a flexibilidade e a capacidade de trabalhar com relações não lineares entre variáveis e classes.

Foi possível constatar que a maioria dos municípios Estado do RN apresenta qualidade educacional

abaixo da meta e que a situação é pior em regiões do Estado que possuem pequenas atividades

econômicas, pois esses municípios apresentam as mais baixas rendas familiares e IDH, além dos

investimentos educacionais serem baixos. Como trabalho futuro propõe-se integrar as técnicas

de geoprocessamento com a exploração desta base de dados utilizando outras técnicas de mineração de

dados, tais como: Clusterização e Máquinas de Vetores de Suporte (SVM). A fim de identificar novos

padrões ou tendências de desenvolvimento e deficiências educacionais dos municípios do Estado do

RN, e melhorar a precisão dos resultados.

AGRADECIMENTOS: Os autores agradecem a CAPES pela concessão das bolsas de pesquisa.

REFERÊNCIAS: Breternitz, V. J. Sistemas de informações geográficas: uma visão para administradores e

profissionais de tecnologia da informação. 2010.

IBGE. Instituto Brasileiro de Geografia e Estatística. Disponível em:

<http://www.ibge.gov.br/home>. Acesso em: ago. 2012.

INPE. Manual do Sistema de Processamento de Informações Georreferenciados versão 4.3

(SPRING-4.3). Divisão de Processamento de Imagens, INPE- São José dos Campos. Disponível em:

<http://www.dpi.inpe.br/cursos>. Acesso em: jul. 2012.

Diniz, F. A.; Costa, R. D.; Silva, F. R. M.; Castro, A. F.; Silva, M. P. S. O Uso do Geoprocessamento

na Análise dos Índices Educacionais do Rio Grande Norte. In: Escola Potiguar de Computação e

Suas Aplicações – EPOCA 2011. Natal – RN.

Fayyad, U.; Piatesky-Shapiro, G.; Smyth, P. From Data Mining to Knowledge Discovery: An

Overview. Cambridge: AAAI Press,1996.

Landis, J. R.; Koch, G. G. The measurement of observer agreement for categorical data in

Biometrics. v. 33, p. 159 –174, 1977.

Moreira, M. A. Fundamentos de Sensoriamento Remoto. Instituto Brasileiro de Pesquisas Espaciais,

São Paulo: São José dos Campos, 2001.

Quinlan, J. R. C4.5: Programs For Machine Learning. Morgan Kaufmann, Los Altos, 1993.

SEEC. Secretaria de Estado da Educação e da Cultura. Disponível em:

<http://www.educacao.rn.gov.br/contentproducao/aplicacao/seec/principal/enviados/index.asp>,

Acesso em: jul. 2012.

WEKA. Waikato Environment for Knowledge Analysis. Disponível em:

<http://www.cs.waikato.ac.nz/ml/weka/>, Acesso em: jul. 2012.

.

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.