Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração...

8

Click here to load reader

description

A economia do Piauí caracteriza-se por sua fragilidade, evidenciada pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal do Piauí assume responsabilidades sociais diante da extrema necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação de valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos estudantes do IFPI - Campus Floriano. Para isso foram utilizadas técnicas de mineração de dados e sistemas de informação geográficos.

Transcript of Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração...

Page 1: Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

Análise Espacial do Perfil dos Alunos do IFPI – Campus

Floriano usando Técnicas de Mineração de Dados

Thiago Reis da Silva1, Diego Grosmann

1, Artur Luiz T de Oliveira

1, Angélica Félix

de Castro1, Marcelino Pereira dos Santos Silva

1

1Programa de Pós-Graduação em Ciência da Computação – MCC

Universidade do Estado do Rio Grande do Norte – UERN/

Universidade Federal Rural do Semi-Árido – UFERSA

BR 110 – Km 46 – Bairro Costa e Silva – Campus Central

59.625-620 Mossoró – RN, Brasil

{trsilva.si, diegogrosmann}@gmail.com, [email protected], [email protected], [email protected]

Abstract: The economy of Piauí is characterized by its fragility, as evidenced

by the behavior of some of its indicators. The IFPI - the Federal Institute of

Piauí assume social responsibilities in the face of dire need to develop

knowledge and technologies for exploitation and value adding. In this context

the present article is a study on the profile of students in the IFPI - Campus

Floriano. For this we used data mining techniques and geographic

information systems.

Resumo: A economia do Piauí caracteriza-se por sua fragilidade, evidenciada

pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal

do Piauí assume responsabilidades sociais diante da extrema necessidade de

desenvolver conhecimentos e tecnologias de aproveitamento e agregação de

valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos

estudantes do IFPI - Campus Floriano. Para isso foram utilizadas técnicas de

mineração de dados e sistemas de informação geográficos.

1. Introdução

Os Institutos Federais de Educação, Ciência e Tecnologia são instituições que

produzem, disseminam e aplicam o conhecimento tecnológico e acadêmico para

formação da cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindo

para o progresso socioeconômico local, regional e nacional. A implantação dos campi,

no interior do Estado, atende a meta do Programa de Expansão da Rede Federal de

Educação Tecnológica e à própria natureza dos Institutos Federais de Educação, Ciência

e Tecnologia, no que diz respeito à descentralização de qualificação profissional,

levando em conta as necessidades socioeconômicas de cada região. Com isso, pretende-

se evitar o êxodo de jovens estudantes para a capital.

O Instituto Federal de Educação Ciência e Tecnologia do Piauí (IFPI) é uma

instituição com atuação no Estado do Piauí, detentora de autonomia administrativa,

patrimonial, financeira, didático-pedagógica e disciplinar. É instituição pública de

Educação Superior, Básica e Profissional, pluricurricular e multicampi, está presente em

dez municípios do estado, especializada na oferta de Educação Profissional e

Page 2: Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

Tecnológica, em diferentes modalidades de ensino, conjugando os conhecimentos

humanos, técnicos e tecnológicos com as suas práticas pedagógicas, nos termos da Lei

(PDI, 2009).

Nesse contexto, o IFPI assume responsabilidades sociais, diante da extrema

necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação

de valores, de nível tecnológico, de produtos e subprodutos, oriundos das vocações do

estado, a exemplo da carnaúba, do caju, da castanha do caju e do mel, dentre outros

(PDI, 2009). Assim, o presente trabalho faz uma avaliação da base de dados do controle

acadêmico do IFPI – Campus Floriano a fim de identificar o padrão dos estudantes da

instituição.

Neste contexto, este artigo encontra-se organizado da seguinte forma: a seção 2

apresenta uma revisão de literatura, abordando em subseções os Sistemas de Informação

Geográficos, Descoberta do Conhecimento em Banco de Dados, Técnicas de Mineração

e Mineração de Dados Geográficos. É apresentada na seção 3 a Metodologia utilizada.

A seção 4 apresenta os Resultados e as Conclusões Finais e Trabalhos Futuros são

apresentados na seção 5.

2. Revisão de Literatura

A seguir apresentamos uma revisão de literatura sobre os conceitos e técnicas utilizados

para o desenvolvimento deste trabalho.

2.1. Sistema de Informação Geográfico

O Sistema de Informação Geográfico (SIG) é um tipo especial de sistema de

informações. Por definição pode-se dizer que um SIG é um sistema de informação

baseado em computador que permite capturar, modelar, manipular, recuperar, consultar,

analisar e apresentar dados geograficamente referenciados (CÂMARA; CASANOVA,

1995). A tecnologia de SIG pode trazer enormes benefícios devido à sua capacidade de

manipular a informação espacial de forma precisa, rápida e sofisticada (WRIGHT,

1997).

Um SIG integra dados espaciais com outros tipos de dados em único sistema.

Isso permite combinar dados de diferentes fontes e tipos, provenientes de muitos bancos

de dados. O processo de converter mapas e outros tipos de informações espaciais numa

forma digital via SIG, torna possíveis métodos novos e inovadores para a manipulação e

exibição de dados geográficos (BRETRNITZ, 2010).

2.2. Descoberta do Conhecimento em Banco de Dados

A Descoberta do Conhecimento em Banco de Dados, do inglês, Knowledge Discovery

in Databases (KDD) é o processo, não trivial, de extração de informações implícitas,

previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em

um banco de dados (FAYYAD et al, 1996). O termo “não trivial” torna clara a

existência de alguma técnica de busca ou inferência. “Previamente desconhecidas”

indica que a informação deve ser nova para o sistema e de preferência também para o

usuário. E, por último, “potencialmente úteis”, deixa claro que esta informação deve

trazer consigo algum benefício, em outras palavras, deverá possibilitar ao usuário algum

ganho.

Page 3: Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

O processo de KDD contém uma série de passos, tais como: Seleção, Pré-

processamento e Limpeza, Transformação, Mineração de Dados (datamining) e

Interpretação/Avaliação (MILLER; HAN, 2001). Como se pode ver, o processo

compreende, na verdade, todo o ciclo que o dado percorre até virar conhecimento ou

informação. O processo em si possui duas características relevantes: é interativo e

iterativo. Interativo, pois o usuário pode intervir e controlar o curso das atividades.

Iterativo, por ser uma sequência finita de operações onde o resultado de cada uma é

dependente dos resultados das que a precedem.

Dentre estas, a mineração de dados se destaca bastante, pois é a fase responsável

pela transformação de dados em informações. A mineração de dados está relacionada

com a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos e

não apenas consultas complexas e elaboradas com a finalidade de confirmar uma

hipótese em função dos relacionamentos existentes. A mineração de dados, portanto, é

uma descoberta eficiente de informações válidas e não óbvias de uma grande coleção de

dados (OLIVEIRA et al, 2011).

2.3. Técnicas de Mineração

Segundo Prass (2004), as técnicas de mineração consistem na especificação de métodos

que nos garantam descobrir os padrões que nos interessam. Para cada técnica utilizada,

uma série de algoritmos estão disponíveis na literatura. Nas subseções a seguir são

descritas as técnicas utilizadas neste trabalho.

2.3.1 Classificação e Predição

Segundo Amo (2004), classificação é o processo de buscar modelos (funções) que

descrevem e distinguem classes ou conceitos, com o propósito de utilizar os modelos

para predizer ou explicar o contexto. Geralmente, o modelo baseia-se em dados de

amostragem ou de treinamento. No caso da predição, o objetivo é inferir valores no

conjunto de dados.

2.3.2 Associação

As regras de associação consistem em padrões do tipo A → B, onde A e B são

conjuntos de valores antecedentes e consequentes. Consideremos um exemplo de

supermercado. O padrão “Cliente que compra pão também compra leite” representa um

padrão de comportamento dos clientes do supermercado. Essa organização pode ser

válida na organização dos produtos na prateleira visando o aumento das vendas.

3. Metodologia

Para o desenvolvimento desta pesquisa foi utilizada a base de dados de matricula do

IFPI – Campus Floriano, que contem dados dos estudantes matriculados entre o ano de

1998 e o ano de 2010, totalizando 4348 registros. Para a extração do conhecimento

foram seguidos os passos do KDD: Seleção dos dados, Pré-Processamento,

Transformação, Mineração de Dados, e interpretação/avaliação.

Os softwares utilizados para o desenvolvimento deste trabalho foram: o banco de

dados MySql Server v5.0 e sua Interface Gráfica do Usuário v1.2, o software de

Mineração de Dados Weka v3.7.4 e o SIG TerraView v5.1. Os software MySql,

TerraView e o Weka GNU possui licença GNU/GPL (General Public License).

Page 4: Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

3.1 Seleção de dados

A base de dados do IFPI é formada por 53 campos e está salva no formato de arquivo

Excel. Destes foram escolhidos 10 campos: sexo, etnia, data de nascimento, cidade do

nascimento, estado do nascimento, estado civil, renda familiar, financiamento da

instituição de origem, curso e período de ingresso.

3.2 Pré-processamento

Como citado anteriormente à base de dados estava no formato de arquivo Excel, para

facilitar esta fase todos os dados das tabelas foram exportados com o formato de arquivo

csv e posteriormente importados no banco de dados MySql. Para a importação primeiro

criou-se uma base de dados e um tabela com todos os campos existentes no arquivo csv.

Nesta fase foram utilizadas duas rotinas de limpeza de dados para suprir valores

ausentes: (a) suprir valores ausentes manualmente e (b) ignorar tuplas. A primeira

técnica (a), foi utilizada para o campo sexo, nos dados inexistentes foram inseridos

manualmente utilizando o campo nome como base, o campo estado de origem também

utilizou essa mesma técnica usando como base a cidade de origem. Para os demais

campos, foi utilizada a segunda técnica (b), realizando um processo de adequação dos

dados retirando espaços em branco antes e depois dos dados e caracteres inválidos e

como tratamento das linhas sem dados simplesmente às ignoramos.

3.3 Transformação dos dados

Nesta fase foram gerados dados a partir dos dados existentes. Tendo a data de

nascimento como base, geramos o campo idade. Já a renda foi dividida para refletir as

classes sociais, a criação das classes se deu de acordo com as regras propostas pela

consultoria Target (2011), que dividiu as classes em: A1: inclui as famílias com renda

mensal maior que R$ 14.400; A2: maior que R$ 8.100; B1: maior que R$ 4.600; B2:

maior que R$ 2.300; C1: maior que R$ 1.400; C2: maior que R$ 950; D: maior que R$

600; E: maior que R$ 400; F: menor que R$ 200.

Para simplificar a consulta, as classes proposta pela Target sofreram algumas

alterações. Os dados da classe A1 e A2 foram juntos na classe A, e os dados da classe E

e F foram juntos na classe E.

3.4 Mineração de Dados

Algumas ferramentas foram analisadas e o Weka (Waikato Environment for Knowledge

Analysis) foi à escolhida para a tarefa de Mineração de Dados. A escolha se deu pelo

fato de ser uma ferramenta robusta, bem aceita no mercado, pela facilidade de uso e pelo

poder de exposição dos resultados da mineração com clareza. Para a manipulação dos

dados pelo Weka primeiro devemos colocá-los em um formato aceito pelo mesmo, esse

formato é o ARFF (Attribute-Relation File Forma).

Para gerar o arquivo arff primeiro exportamos os dados do banco de dados

utilizando separação por vírgula, e posteriormente inserimos o cabeçalho com os meta-

dados referentes às colunas.

Com o objetivo de uma análise precisa dos dados, os mesmos foram submetidos

a duas de técnicas de mineração de dados. Eles foram submetidos à classificação através

dos algoritmos RandomTree, J48 e REPTree e associação pelo algoritmo JRIP A.

Page 5: Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

3.5 Interpretação/Avaliação

Nesta fase os dados foram analisados e os padrões e as características foram

identificados, sendo apresentados os resultados na próxima seção.

Para uma melhor apresentação dos dados em forma de mapas utilizamos o

software TerraView e as malhas digitais municipais e estaduais disponíveis no site do

IBGE (IBGE, 2011).

4. Área de Estudo

O presente trabalho faz uma avaliação dos dados dos alunos que estudam e estudaram

no IFPI – Campus Floriano. O Instituto Federal do Piauí foi criado mediante

transformação do Centro Federal de Educação Tecnológica do Piauí (CEFET/PI). Sua

Reitoria está instalada em Teresina – PI.

O Piauí está localizado a noroeste da região Nordeste do Brasil ocupa uma área

de 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes. Sua

capital é a cidade de Teresina (IBGE, 2011). A economia do estado é baseada no setor

de serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja,

algodão, arroz, cana-de-açúcar, mandioca) e na pecuária extensiva.

A Figura 1 ilustra a localização da área de estudos (município de Floriano) em

relação ao mapa do Brasil e ao estado do Piauí, do qual o município de Floriano faz

parte. O município de Floriano situa-se na Zona do Médio Parnaíba, à margem direita

desse mesmo Rio, em frente à cidade de Barão de Grajaú, Maranhão. A cidade fica a

253 km da capital do Estado do Piauí, Teresina. Tem uma população de 57.690 e ocupa

uma área de 3.409 km2 (IBGE, 2011). O município possui um IDH de 0,711 que é

considerado médio (HDR, 2011).

Figura 1 - Localização da área de estudos em relação ao território do Brasil.

4. 1. Resultados

Nesta seção serão apresentadas as informações obtidas na fase de análise de dados do

KDD. A Figura 2 apresenta a distribuição dos estudantes no território nacional e em

relação ao estado do Piauí. Notamos que das 27 unidades distritais (contando com o

Distrito Federal) o IFPI conta com alunos de 22 desses distritos, o que mostra a

importância do mesmo no contesto nacional. Já no contexto do estado do Piauí sua

Page 6: Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

atuação ficou limitada a região sul e sudoeste. A Figura 2 ainda ilustra que a maioria dos

alunos do IFPI, vem das cidades de: Floriano, Guadalupe, Jerumenha, Canto do Buriti,

Oeiras, Amarante e Teresina.

Figura 2. A esquerda temos a distribuição dos alunos em cada estado do Brasil

e a direita temos a distribuição dentro do estado do Piauí.

Com a intenção de avaliar se a renda dos estudantes tem uma influência direta na

distribuição geográfica, foi gerado o mapa apresentado na Figura 3, nesse mapa

apresentamos a classe social predominante dos discentes por estado e por cidade. Nela

podemos constatar que estudantes de regiões mais distantes do polo educacional

apresentam uma classe social mais elevada que os nascidos na microrregião de Floriano.

Isso pode se dar devido à dificuldade que pessoas de classe social mais baixa têm de se

transportar até lugares mais distantes e de sustentar-se.

Figura 3. Mapa com a distribuição das classes sociais dos alunos por estado e

por cidade.

Tendo como base o contexto social em nosso país, no qual afrodescendentes

ainda são muito discriminados, utilizamos o algoritmo de classificação RandomTree

para avaliar a influência da cor da pele na classe social e obtivemos a árvore apresentada

Page 7: Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

na Figura 4. Constatamos que alunos de pele clara e alunos de pele negra apresentam a

mesma classe social, todos enquadrados na classe E, assim não constatamos uma

desigualdade gerada pela cor da pele.

Figura 4. Árvore gerada pelo RandomTree comparando a classe social com a

cor da pele.

Avaliamos também que a classe social e a cor da pele têm influencia direta sobre

a instituição de origem dos alunos (privada, pública ou filantrópica). Identificamos que a

cor da pele em nada influência a instituição de origem sendo que para todas as etnias a

maioria dos alunos foi proveniente de escola pública. Já a classe social C1 apresentou

uma predominância em instituições filantrópicas, para as instituições públicas e privadas

a predominância continua sendo de alunos da classe E.

A classe social apresentou relação direta com o curso escolhido. Identificamos

após classificação realizada pelo algoritmo RandomTree que alunos de classe social

mais altas dão preferência a cursos na área de técnico em edificações e informática, e

concomitante em edificações. Com o algoritmo J48 identificamos também que a classe

social tem relação direta com a idade dos alunos. Alunos com idade inferior a 21

pertencem a classes sociais mais altas.

Através da análise da árvore gerada pelo algoritmo REPTree identificamos que

os alunos que ingressaram até o ano de 1999 eram provenientes de escola privada já nos

anos posteriores, o número alunos de escola pública superaram o número de alunos de

escola privada.

Com o uso do algoritmo JRIP que identifica as regras pressentes na base de

dados identificamos cinco regras predominantes. Das quais as três seguintes se

destacam.

1. Alunos que ingressaram antes de 2008 e tem idade maior que 20 anos,

escolheram o curso de Matemática, são locais, têm classe social C1 e são da

etnia negra;

2. Os alunos que ingressaram depois de 2008 vindos de escola particular

escolheram o curso de Análise e Desenvolvimento de Sistemas e tem etnia

branca;

3. O curso de Biologia até o ano de 2005 foi mais escolhido por mulheres de classe

social C1 e etnia branca;

5. Conclusões e Trabalhos Futuros

Através da pesquisa acima apresentada concluímos que a mineração de dados é um

processo de fundamental importância para a obtenção de informações de grandes bases

Page 8: Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

de dados. Constatamos que o IFPI, de fato, cumprindo o seu papel de inclusão social,

pois não apresentou uma disparidade em seus alunos referentes à classe e a etnia.

Como trabalho futuro propõe-se a exploração desta base de dados utilizando

outras técnicas de mineração de dados como a Clusterização e a utilização de outras

ferramentas de mineração.

Agradecimentos

Os autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao IFPI –

Campus Floriano pela disponibilização da base de dados.

Referências Bibliográficas

Amo, S. A. (2004) “Técnicas de Mineração de Dados”. In: Sociedade Brasileira de

Computação, UFBA. Jornadas de Atualização em Informática. Salvador – BA,

Universidade Federal da Bahia, 2004, v.2, p195-236.

Breternitz, V. J. (2010) “Sistemas de informações geográficas: uma visão para

administradores e profissionais de tecnologia da informação,” 2010.

Câmara, G.; Casanova, M. A. (1995) “Fields and objects algebras for gis operations

operations.” vol. 1, pp. 407 – 420, 1995.

Fayyad, U. M.; Shapiro, G. P.; Smyth, P. (1996) “From data mining to knowledge

discovery: An overview”, AI Magazine pp. 37–54, 1996.

HDR (2011). Human Development Report. Disponível em: <http://hdr.undp.org/en/>.

Acesso em set. 2011.

IBGE (2011). Instituto Brasileiro de Geografia e Estatísticas. Disponível em:

<http://ibge.gov.br>. Acesso em set. 2011.

Miller, H. J.; Han, J. (2001) “Geographic data mining and knowledge discovery: An

overview”. London: Taylor and Francis, in press, B., 2001.

Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. (2011)

“Spatial analysis of the student profile of federal techical school of piaui”. In: ISTI:

Conferência Ibérica de Sistemas e Tecnologias de Informação. Portugal, 2011. V II,

p. 368-373.

Prass, F. S. (2004) “Kdd: Processo de descoberta de conhecimento em bancos de dados”

vol. 1, pp. 10 – 14, 2004.

PDI (2009) “Plano de Desenvolvimento Institucional”. Disponível em: <

http://www.ifpi.edu.br/arquivos/PDI_IFPI_PROPOSTA_FINAL.pdf>. Acesso em

set. 2011.

Target (2011) Disponível em: <http://www.target.com.br/portal_new/Home.aspx>.

Acesso em set. 2011.

Wright, D. J.; Goodchild M. F.; Proctor J. D. (1997) “Demystifying the persistent

ambiguity of gis as Tool Versus Science” The Annals of the Association of American

Geographes, 87(2): 346-362, 1997.