ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEOGRÁFICOS E A...

5

Click here to load reader

description

O uso de técnicas e ferramentas para a análise de fenômenos que variam no espaço e no tempo é indispensável. Esses fenômenos, por exemplo, poderão estar relacionados ao ordenamento territorial, distribuição da saúde, segurança pública, entre outros. Desta forma, surgem ferramentas computacionais chamadas de Sistemas de Informações Geográficas (SIG) que apoiam a modelagem desses fenômenos, permitindo o armazenamento e a visualização das informações geradas. Devido ao crescimento da quantidade de dados geográficos, surgiu um novo campo chamado de Mineração de Dados Geográficos. Nesta perspectiva, nosso objetivo é expor o uso de SIG como uma ferramenta para análise espaço-temporal. E, através do uso de Mineração de Dados Geográficos, utilizar métodos de Clusterização, para identificar padrões dispostos nos dados. Para isso, foi utilizada a ferramenta VIS-STAMP (A Visualization System for Space-Time and Multivariate Patterns) e, foi abordado um estudo de caso com base nos dados do controle acadêmico do Instituto Federal do Piauí (IFPI) – Campus de Floriano, de 1998 a 2010. Com a análise destes dados, pretende-se verificar as correlações entre a classe social, etnia e outros indicadores socioeconômicos a fim de verificar os perfis dos estudantes de tal Instituto.

Transcript of ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEOGRÁFICOS E A...

Page 1: ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP

ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE

DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP

Thiago Reis da Silva1, Diego Grosmann

1, Fábio Abrantes Diniz

1, Íthalo Bruno Grigório de Moura

1,

Angélica Félix de Castro1

1Programa de Pós-Graduação em Ciência da Computação, UERN/UFERSA, Mossoró – RN.

{trsilva.si, diegogrosmann, fabio.abrantes.diniz, ithalobgm, angelicafcastro}@gmail.com

RESUMO: O uso de técnicas e ferramentas para a análise de fenômenos que variam no espaço e no

tempo é indispensável. Esses fenômenos, por exemplo, poderão estar relacionados ao ordenamento

territorial, distribuição da saúde, segurança pública, entre outros. Desta forma, surgem ferramentas

computacionais chamadas de Sistemas de Informações Geográficas (SIG) que apoiam a modelagem

desses fenômenos, permitindo o armazenamento e a visualização das informações geradas. Devido ao

crescimento da quantidade de dados geográficos, surgiu um novo campo chamado de Mineração de

Dados Geográficos. Nesta perspectiva, nosso objetivo é expor o uso de SIG como uma ferramenta

para análise espaço-temporal. E, através do uso de Mineração de Dados Geográficos, utilizar métodos

de Clusterização, para identificar padrões dispostos nos dados. Para isso, foi utilizada a ferramenta

VIS-STAMP (A Visualization System for Space-Time and Multivariate Patterns) e, foi abordado um

estudo de caso com base nos dados do controle acadêmico do Instituto Federal do Piauí (IFPI) –

Campus de Floriano, de 1998 a 2010. Com a análise destes dados, pretende-se verificar as correlações

entre a classe social, etnia e outros indicadores socioeconômicos a fim de verificar os perfis dos

estudantes de tal Instituto.

PALAVRAS-CHAVE: Mineração de dados geográficos, Análise espaço-temporal, Sistemas de

informações geográficas.

INTRODUÇÃO: Os Institutos Federais de Educação, Ciência e Tecnologia são instituições que

produzem, disseminam e aplicam o conhecimento tecnológico e acadêmico para formação da

cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindo para o progresso

socioeconômico local, regional e nacional. A implantação do campi, no interior do Estado, atende a

meta do Programa de Expansão da Rede Federal de Educação Tecnológica e à própria natureza dos

Institutos Federais de Educação, Ciência e Tecnologia, no que diz respeito à descentralização de

qualificação profissional, levando em conta as necessidades socioeconômicas de cada região. Com

isso, pretende-se evitar o êxodo de jovens estudantes para a capital (SILVA et. al. 2012).

Neste contexto, este artigo analisa a base de dados do Instituto Federal do Piauí (IFPI – Campus

Floriano), para detectar, através de Mineração de Dados Geográficos e com utilização da ferramenta

VIS-STAMP, os perfis da comunidade acadêmica desta Instituição de Ensino, verificando se a classe

social, a etnia declarada pelos estudantes, tem impacto na escolha do curso ou realidade

socioeconômica dos mesmos.

O trabalho proposto por Oliveira et. al. (2011) apresenta uma análise da base de dados das matrículas

dos discentes do IFPI - Campus Picos, utilizando a ferramenta WEKA e três algoritmos diferentes:

Classificação, Clusterização e Associação. Em Silva et. al. (2011) é apresentada uma análise similar a

de Oliveira et. al. (2011), utilizando a ferramenta WEKA para encontrar padrões que mostrassem

relações entre a classe social, etnia e cidade de procedência dos alunos matriculados no IFPI – Campus

Floriano. Este artigo diferencia-se dos trabalhos anteriores por utilizar a ferramenta VIS-STAMP para

descobrir padrões e depois comparar com os resultados do trabalho proposto por Silva et. al. (2011).

MINERAÇÃO DE DADOS E A FERRAMENTA VIS-STAMP: A Mineração de Dados é uma das

etapas do processo de descoberta do conhecimento em banco de dados, do inglês, Knowledge

Discovery in Databases (KDD), sendo um processo, não trivial, de extração de informações

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Page 2: ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP

implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um

banco de dados (FAYYAD; SHAPIRO; SMYTH, 1996). A ferramenta VIS-STAMP é um software

para explorar dados multivariados em espaço-temporal (DIASHENG, 2006). Descobre padrões e

apresenta-os de uma forma de fácil interpretação humana, ajudando no raciocínio analítico e/ou

tomada de decisão.

A ferramenta é composta por um MapMatrix (Mapa de Matriz) para a visualização temporal dos

mapas; um Space-Time Matrix (S-T Matrix) o qual organiza os padrões multivariados no campo

espaço-temporal; um Self Organizing Map (SOM), que são Mapa Auto Organizável, possibilitando a

representação multivariada de agrupamento e de abstração (incluindo agrupamento de séries

temporais); e um Parallel Coordinate Plot (PCP), que são os Plots de coordenadas paralelas que

permitem a visualização de padrões multivariados (DIASHENG, 2006).

METODOLOGIA E ÁREA DE ESTUDO: Para o desenvolvimento deste artigo foi utilizada a base

de dados de matrícula do IFPI – Campus Floriano, que contém dados dos estudantes matriculados

entre o ano de 1998 e o ano de 2010, totalizando 4348 registros. As etapas da Mineração de dados

utilizadas foram: seleção de dados, pré-processamento, transformação dos dados,

interpretação/avaliação (SILVA et. al. 2011).

O presente artigo faz uma análise dos dados do corpo discente que estudou e estuda no IFPI – Campus

Floriano, localizado no estado do Piauí. O Piauí está localizado a noroeste da região Nordeste do

Brasil, ocupa uma área de 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes

(IBGE, 2012). Sua capital é a cidade de Teresina. A economia do estado é baseada no setor de

serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja, algodão, arroz,

cana-de-açúcar, mandioca, mel) e na pecuária extensiva. A Figura 1 ilustra a localização da área de

estudos (município de Floriano) em relação ao mapa do Brasil e ao estado do Piauí, do qual o

município de Floriano faz parte.

Figura 1 - Localização da área de estudos em relação ao território do Brasil. Fonte: (SILVA et. al.

2011).

RESULTADOS E DISCUSSÃO: Nesta seção, são apresentados os resultados da análise espaço-

temporal dos índices apresentados com o VIS-STAMP. Inicialmente, foi feita uma Mineração de

Dados usando as seguintes variáveis: renda, classe social (C, D, E e F) e cor da pele (Parda, Amarela,

Branca e Negra) e constatou-se uma correlação entre elas. Foi visto que os estudantes de etnia parda

(cluster amarelo forte) e com uma renda em média de 2 (dois) salários mínimos são maioria no

instituto, como ilustra a Figura 2 (A).

A Figura 2 (B) corresponde ao SOM (que é um Mapa Auto Organizável para processar os perfis

multivariados, onde cada nó colorido representa um cluster e nós mais próximos são mais parecidos).

O SOM é utilizado em Mineração de Dados para reduzir a dimensionalidade dos dados, apresentando-

os no formato bidimensional. É importante salientar que o cluster de cor azul, o maior cluster na

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Page 3: ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP

Figura 2 (B), representa a cidade de Floriano – PI, pois é a cidade que possui a maior quantidade de

aluno no Instituto. Assim, quanto maior a quantidade de dados presentes no cluster, maior será a área

do círculo no SOM.

Figura 2 – (A) PCP com os clusters formados pelos índices, (B) SOM mostrando os clusters formados

e suas grandezas.

As outras cidades, que possuem um número considerado de alunos no Instituto são: Guadalupe,

representado pelo cluster vermelho, Jerumenha, que corresponde ao cluster verde escuro. O cluster

roxo representa a cidade de Canto do Buriti, o cluster lilás corresponde à cidade de Amarante. Outras

cidades do Piauí também são apresentadas na Figura 2 (B), mas com um número pequeno de alunos,

como é o caso da cidade de Oeiras, representado na Figura 2 (B), pelo cluster azul claro.

Figura 3 – Matrix de Mapa representando a formação de cluster espaço-temporal com os dados do

Instituto entre os anos de 1998 a 2010.

A representação do MapMatrix (Matrix de Mapa) – Figura 3 – possibilita ao usuário visualizar os

clusters, mostrando como eles se apresentam e como as mudanças ocorrem em uma determinada linha

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Page 4: ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP

de tempo, entre os anos de 1998 a 2010. Constatando que, com o passar dos tempos, mais estudantes

das cidades circunvizinhas se deslocaram para estudar no campus de Floriano – PI. É no MapMatrix

que podemos analisar a representação espaço-temporal, analisando as diferenças que ocorrem nos

mapas em cada ano.

Posteriormente a base foi minerada, usando apenas a classe etnia (Branca, Amarela, Negra e Parda).

Notou-se, visualizando apenas um cluster (cluster roxo), uma correlação entre os índices. É possível

verificar relações esperadas e inesperadas. A relação esperada é que a grande maioria dos estudantes é

da cidade de Floriano – PI e a inesperada é que uma parte considerada dos alunos se declarou negra,

como podemos observar na Figura 4.

Figura 4 – Visão individual dos dados do clus ter selecionado.

A Figura 5 representa o SOM após a seleção do cluster, exibido na Figura 4, onde se constatou que a

dimensão do círculo é elevada, caracterizando assim, a existência de uma grande quantidade de

estudantes presentes nele.

Figura 5 – Visão em cluster da seleção de um cluster.

Analisando os padrões gerados pela ferramenta, identificou-se que a cor da pele em nada influencia a

instituição de origem: em todas as etnias, a maioria dos alunos foi proveniente de escola pública. No

entanto, na classe social C apresentou uma predominância em instituições filantrópicas. Para as

instituições públicas e privadas, a predominância continua sendo de estudantes da classe E.

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Page 5: ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP

A classe social também apresentou relação direta com o curso escolhido. Identificou-se que alunos de

classe social mais alta preferem cursos nas áreas de técnico em edificações e informática e ensino

médio subsequente em edificações. Outros padrões relevantes foram:

1. Os alunos, que ingressaram antes de 2008 e tem idade maior que 20 anos, escolheram o curso

de Matemática, são da cidade de Floriano, pertencem classe social C e são de etnia negra;

2. Os alunos que ingressaram depois de 2008 e oriundos de escolas particulares, escolheram o

curso de Análise e Desenvolvimento de Sistemas e são de etnia parda;

3. O curso de Biologia até o ano de 2005 foi preferido por mulheres da classe social C e etnia

branca.

Comparando os resultados gerados com o trabalho apresentado em Silva et. al. (2011), constatou-se

que mesmo utilizando outra ferramenta para mineração dos dados da base do IFPI, os resultados

encontrados são basicamente os mesmos, não diferenciando muito de uma ferramenta para outra.

Concluindo-se que não importa utilizar diferentes ferramentas para mineração desta base, que o

resultado encontrado será essencialmente o mesmo.

CONCLUSÕES: Verificou-se que os estudantes do IFPI – Campus Floriano são predominantes de

classe social baixa e de etnia parda. Foi constatado também que, a cada ano os estudantes de etnia

negra vêm aumentando no Instituto. Tais estudantes são oriundos de escolas públicas, verificando que

o IFPI, de fato, exerce o seu papel de inclusão social, pois não apresentou uma disparidade entre seus

alunos referentes à classe social, a etnia e a origem escolar dos mesmos.

Através desta pesquisa concluiu-se que a Mineração de Dados é um processo de fundamental

importância para a obtenção de informações de grandes bases de dados. Como trabalho futuro propõe-

se a exploração desta base de dados utilizando outros softwares de Mineração de Dados Geográficos,

fazendo uma comparação entre os resultados gerados.

AGRADECIMENTOS: Os autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao

IFPI – Campus Floriano pela disponibilização da base de dados.

REFERÊNCIAS: IBGE. Instituto Brasileiro de Geografia e Estatísticas. Disponível em: <http://ibge.gov.br>. Acesso

em: jun. 2012.

Diasheng, G., Jin, C., Maceachren, M. A., K, L. A Visual Inquiry System for Space-Time and

Multivariate Patterns (VIS-STAMP). 2006.

Fayyad, U. M.; Shapiro, G. P.; Smyth, P. From data mining to knowledge discovery: An overview.

AI Magazine pp. 37–54, 1996.

Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. Spatial analysis of the

student profile of federal techical school of Piauí. In: ISTI: Conferência Ibérica de Sistemas e

Tecnologias de Informação. Portugal, 2011. p. 368-373.

Silva, T. R.; Grosmann, D.; Oliveira, A. T; Castro, A. F.; Silva, M. P. S. Análise Espacial do Perfil

dos Alunos do IFPI – Campus Floriano usando Técnicas de Mineração de Dados. In: Encontro

Regional de Computação Ceará, Maranhão e Piauí - ERCEMAPI. Teresina, PI. 2011.

Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.