TÉCNICAS DE MINERAÇÃO DE DADOS NA CLASSIFICAÇÃO DE ...camolesi/pub/cneg2012.pdf · tÉcnicas...

TÉCNICAS DE MINERAÇÃO DE DADOS NA

CLASSIFICAÇÃO DE ECOTOXICIDADE DE ÁGUA

PARA APLICAÇÃO NA GESTÃO DE CORPOS

HÍDRICOS

Leonardo Bertholdo (Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp); Fundação

Centro de Pesquisa e Desenvolvimento em Telecomunicações (CPqD)

Celmar Guimarães da Silva (Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp)

Gisela de Aragão Umbuzeiro (Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp)

Luiz Camolesi Júnior (Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp)

Resumo: Dentre as diversas formas de ação que promovem a sustentabilidade, a inovação

tecnológica pode ser considerada uma das mais importantes. Neste trabalho são aplicadas

técnicas de mineração de dados na descoberta de conhecimento no domínio dee dados de monitoramento de qualidade de água, para prover subsídios úteis e relevantes que auxiliem

na tomada de decisão em sistemas de gestão ambiental. No estágio atual da pesquisa, está sendo utilizada uma técnica de modelagem previsiva conhecida como classificação baseada

em regras, onde o objetivo é descobrir regras que possam, com base nos valores de

determinados parâmetros químicos, prever o nível de ecotoxicidade de uma amostra de água. Foram utilizados dados referentes a análises de água dos principais corpos hídricos

do estado de São Paulo, realizadas entre os anos de 2005 e 2010. Espera-se obter uma forma

confiável, rápida e eficaz para predizer os níveis de ecotoxicidade de água em rios, lagos e reservatórios com base em análises de parâmetros químicos, ou indicar a

complementaridade dessas medições em busca da otimização das redes de monitoramento e

consequente melhoria da gestão dos recursos naturais.

Palavras-chaves: Monitoramento de qualidade de água, Gestão de recursos hídricos,

Descoberta de conhecimento em bases de dados, Mineração de dados

08 e 09 de junho de 2012

ISSN 1984-9354

VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 08 e 09 de junho de 2012

2

1. Introdução A água é um elemento essencial para a existência e a manutenção da vida, uma vez que é o

principal componente dos organismos vivos. No contexto humano, além de possibilitar nossa

sobrevivência, a água também viabiliza um amplo espectro de atividades, tais como abastecimento

público e industrial, irrigação agrícola, produção de energia elétrica e atividades de lazer e

recreação. Não obstante a esta realidade, a expansão demográfica e industrial das últimas décadas

vem ocasionando o comprometimento de muitos corpos hídricos, como rios, lagos e reservatórios.

Vale destacar ainda que a água doce é um recurso natural limitado pelo alto custo da sua obtenção

a partir de formas menos convencionais, como as águas marinhas e subterrâneas. Sendo assim, o

uso racional e o controle de qualidade das águas doces é de fundamental relevância para

preservação deste bem (Alves et al., 2008).

Atualmente, a Companhia Ambiental do estado de São Paulo (CETESB) é responsável

pelo monitoramento e levantamento de informações sobre a qualidade das águas dos corpos

hídricos deste estado. Para isso, mantém quase 350 pontos fixos de coleta de amostras, os quais

são localizados ao longo dos corpos hídricos monitorados. Cada amostra é analisada sob aspectos

físicos, químicos e biológicos, formando um conjunto de dados rico em informações relativas às

condições ambientais destes corpos hídricos (CETESB, 2011).

A avaliação individual destes dados pode não proporcionar descobertas relevantes,

tornando indispensáveis metodologias que permitam sintetizar os números levantados em

informações compreensíveis e significativas, viabilizando a inferência da sustentabilidade

ambiental das bacias hidrográficas. Atualmente, existem diversos “índices” ou “indicadores” para

caracterizar o desempenho dos sistemas hídricos. Estes possuem diferentes enfoques e

normalmente englobam vários parâmetros em um único número como, por exemplo, o IVA

(Índice de Qualidade das Águas para Proteção da Vida Aquática), um dos índices utilizados pela

CETESB, que considera em seu cálculo variáveis especialmente impactantes para a vida aquática

como metais, oxigênio dissolvido, pH e toxicidade (CETESB, 2011).

1.1 Objetivo

Atualmente, a toxicidade de uma amostra de água é mensurada por meio de testes

ecotoxicológicos, que consistem na determinação de efeitos tóxicos em organismos aquáticos

causados por um ou mais agentes químicos. Os efeitos tóxicos agudos caracterizam-se por serem


3

mais drásticos, causados por elevadas concentrações de agentes químicos e, em geral, manifestam-

se em um curto período de exposição dos organismos. Os efeitos tóxicos crônicos são mais sutis,

causados por baixas concentrações de agentes químicos dissolvidos e são detectados em

prolongados períodos de exposição ou por respostas fisiológicas adversas na reprodução e

crescimento dos organismos vivos (CETESB, 2011).

Esta pesquisa tem como objetivo descobrir padrões de classificação de ecotoxicidade a

partir dos dados de monitoramento levantados pela CETESB entre os anos de 2005 e 2010. Uma

vez descobertos, estes padrões poderiam ser utilizados na predição da toxicidade de futuras

amostras de água, minimizando a utilização de organismos vivos nas análises ecotoxicológicas,

tornando estas análises mais rápidas e eficazes, contribuindo na aferição de indicadores de

sustentabilidade ambiental como o IVA, por exemplo, ou então descobrir que o conjunto de

parâmetros/valores adotados são insuficientes para efetuar essa predição, indicando a necessidade

de análises adicionais ou alteração dos padrões vigentes. Para isso, os dados citados serão

processados por meio de técnicas de mineração de dados, que utilizam métodos específicos para

descoberta de informações implícitas em repositórios de dados.

1.2 Metodologia

A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de

conhecimento em base de dados, conhecido como Knowledge Discovery in Databases (KDD), o

qual é dividido em cinco etapas principais: Seleção dos dados brutos, Pré-processamento dos

dados selecionados, Transformação dos dados pré-processados, Mineração dos dados

transformados e Interpretação e Avaliação dos padrões encontrados pela mineração. Nas duas

etapas iniciais e na etapa final, a pesquisa conta com a importante participação de uma especialista

da área de saneamento ambiental, visando auxiliar na escolha e preparação dos dados e na análise

dos resultados obtidos.

Na etapa de mineração dos dados, foi aplicada uma das abordagens centrais desta

disciplina, a modelagem previsiva, que busca construir um modelo para prever o valor de um dado

atributo com base nos valores de outros atributos do conjunto de dados. Esta modelagem foi

realizada por meio da técnica de classificação baseada em regras, onde os registros de uma base de

dados são classificados a partir de regras obtidas por meio de um mecanismo de aprendizagem. No

âmbito dos dados de qualidade de água, cada registro da base de dados de monitoramento é

representado pela análise de uma amostra de água coletada de um dado ponto de um corpo

hídrico, em uma data específica, e que é analisada sob diversos parâmetros químicos. Neste


4

contexto, o objetivo da técnica é descobrir regras que possam, com base nos valores destes

parâmetros, definir o nível de toxicidade de cada amostra de água.

A escolha da técnica de mineração, foi realizada a partir de uma pesquisa bibliográfica

visando levantar métodos já utilizados na área ambiental e com dados semelhantes. Vale ressaltar

que, apesar de serem relacionados à área da computação, todos os trabalhos pesquisados tinham

em comum a forte preocupação com a questão da gestão dos recursos naturais e do

desenvolvimento sustentável. Dentre as diversas abordagens aplicadas neste domínio, a técnica de

cobertura sequencial, foi considerada uma das mais apropriadas para a tarefa a ser realizada nesse

estágio da pesquisa, pois permite extrair regras de classificação diretamente dos dados, ao

contrário de outros métodos que extraem regras indiretamente, a partir de outros modelos como

árvores de decisão e redes neurais. Neste estudo, as regras de classificação extraídas são

representadas pela expressão condicional “Se <valores dos parâmetros químicos> Então <valor

da toxicidade>”, sendo a toxicidade a classe a ser atribuída aos registros de teste, que nada mais

são que as análises das amostras de água onde pretende-se prever o valor de toxicidade.

O desempenho das regras de classificação geradas por esta técnica foi avaliado pelo

método da validação cruzada de duas partes. Nesta abordagem, a base de dados é dividida em dois

subconjuntos com quantidades de registros semelhantes. Em um primeiro momento, um dos

subconjuntos é utilizado como base de treinamento, ou seja, as regras de classificação são

extraídas a partir deste subconjunto. Em seguida, as regras extraídas são aplicadas ao outro

subconjunto, que faz o papel de base de teste. Por fim, é calculada a taxa de erro das regras

aplicadas nesta base de teste. No segundo momento, os papéis são invertidos, de modo que o

subconjunto de treinamento passa a ser de teste e vice-versa. A taxa de erro total é então calculada

pela média das duas execuções. Com base nesta taxa, pode-se inferir a confiabilidade das regras

geradas e, consequentemente, saber o quanto elas podem ser úteis ao serem empregadas em

sistemas de gestão de qualidade de água.

Os resultados preliminares desta pesquisa são apresentados neste artigo, iniciando pela

Seção 2, que mostra um breve histórico da gestão e do monitoramento de recursos hídricos no

Brasil, em especial no estado de São Paulo. Em seguida, a Seção 3, descreve o processo de

descoberta de conhecimento destacando sua principal etapa, a mineração de dados. Na Seção 4 é

apresentada a aplicação da técnica de classificação baseada em regras nos dados de

monitoramento de água, bem como os resultados preliminares obtidos. Por fim, a Seção 5

apresenta as considerações finais referentes a este trabalho.


5

2. Gestão de Recursos Hídricos

A gestão de bacias hidrográficas passou a assumir crescente importância no Brasil à

medida que os efeitos da degradação ambiental sobre a disponib ilidade de recursos hídricos foram

aumentando (Jacobi et al., 2007). Com a Constituição de 1988 a participação da sociedade na

gestão dos recursos naturais e, especialmente na gestão das águas, passou a ser um preceito

fundamental para nortear todas as políticas públicas do setor. No estado de São Paulo, a

Constituição Estadual de 1989 já havia incorporado novos conceitos à questão dos recursos

hídricos: a gestão descentralizada, participativa e integrada; a divisão por bacia hidrográfica; e o

aproveitamento múltiplo dos recursos hídricos. Em 1991, o governo federal encaminhou ao

Congresso Nacional o primeiro projeto de lei que tratava da Política Nacional de Recursos

Hídricos e, neste mesmo ano, o estado de São Paulo, instituiu, por meio da Lei 7.663, o Sistema

Estadual de Recursos Hídricos. A partir deste sistema, o território paulista foi dividido em 22

regiões hidrográficas e institui-se a gestão por bacia, com participação efetiva da sociedade civil

no processo decisório. A Lei paulista reforçou preceitos do Código de Águas e da Constituição ao

contemplar instrumentos de gestão, como o Plano de Bacias, a cobrança pelo uso da água e o

Fundo Estadual de Recursos Hídricos, para utilização direta nos Comitês de Bacias – colegiados,

com poder deliberativo, que reúnem representantes dos municípios, dos órgãos de Estado e da

sociedade civil organizada para gestão integrada, descentralizada e participativa das águas (Rede

das Águas, 2012).

No estado de São Paulo, a implantação dos comitês de bacia hidrográfica e de outras

agências ambientais descentralizadas, sucedeu a criação de uma instituição que se tornou centro de

referência para questões ambientais. A Companhia Ambiental do estado de São Paulo (CETESB),

criada em 1968, é responsável pelo controle, fiscalização, monitoramento e licenciamento de

atividades geradoras de poluição, com a preocupação fundamental de preservar e recuperar a

qualidade das águas, do ar e do solo (Histórico, 2012). Desde 1974, a CETESB vem coletando

informações sobre a qualidade das águas doces do estado de São Paulo por meio de uma ampla

rede de monitoramento distribuída pelas 22 Unidades de Gerenciamento de Recursos Hídricos

(UGRHIs) delimitadas. Cada uma destas UGRHIs conta com vários pontos de amostragem, de

onde são coletadas as amostras de água que, posteriormente, serão analisadas em laboratório

(CETESB, 2011). A Figura 1 mostra esta divisão, classificando as UGRHIs em grupos conforme

suas respectivas vocações.


6

Figura 1. Classificação das 22 UGRHIs por vocação (CETESB, 2010)

Cada UGRHI possui um dado número de pontos de amostragem, sendo que em cada ponto

é analisado um conjunto de parâmetros, os quais podem estar relacionados a aspectos físicos,

químicos, microbiológicos, hidrobiológicos e ecotoxicológicos da água. Anualmente, a CETESB

publica em sua página na Internet as análises realizadas em cada ponto de amostragem por meio

de arquivos em formato PDF. Somente a rede básica, que visa especificamente a análise da água

dos corpos hídricos do estado, gera um volume de dados anual de 65.000 análises (CETESB,

2011), considerando que cada análise corresponde a uma medição de um parâmetro em um ponto

de amostragem, realizada em uma data específica.

Estas análises são realizadas sob os preceitos da Resolução CONAMA 357/2005,

legislação ambiental regulamentada pelo Conselho Nacional de Meio Ambiente (Brasil, 2005),

que dispõe sobre a classificação dos corpos hídricos, dá diretrizes ambientais para o seu

enquadramento, bem como estabelece condições e padrões de lançamento de efluentes

(Umbuzeiro et al., 2010). Esta Resolução também define cinco classes para as águas doces,

Especial, 1, 2, 3 e 4, sendo que a Classe Especial pressupõe usos mais nobres e a Classe 4 menos

nobres. Estas classes representam um conjunto de condições e padrões de água necessários ao

atendimento dos usos preponderantes, atuais ou futuros (Von Sperling, 2007).

Enfim, as análises realizadas representam importantes indicadores ambientais para a gestão

do desenvolvimento sustentável, que pode ser definido como o desenvolvimento que atende às

necessidades do presente sem comprometer a capacidade das futuras gerações atenderem às suas

necessidades (Brundtland, 1987). Os indicadores ambientais são de grande valia, sobretudo por

servirem de insumo para composição dos chamados “indicadores de sustentabilidade” que,

segundo Maranhão (2007), representam um aprofundamento dos indicadores ambientais no

sentido de integrar os territórios dos indicadores econômicos, sociais e ambientais, visto que o

desenvolvimento sustentável requer um tipo de visão integrada do mundo.


7

3. Descoberta de Conhecimento em Bases de Dados

A capacidade de uma organização de tomar decisões é frequentemente associada ao

conhecimento que esta possui sobre seu domínio de dados. Um dos problemas dos analistas de

informação é a transformação de dados em informação relevante para a tomada de decisão (Silva,

2007). Conforme pôde-se notar, as análises realizadas pela CETESB originam um conjunto

valioso de informações referentes à qualidade da água dos corpos hídricos. No entanto, se

analisadas por meio de técnicas convencionais, a descoberta de insumos que possam auxiliar na

tomada de decisão torna-se bastante improvável.

Nas últimas décadas, foram desenvolvidos processos que podem auxiliar na descoberta de

informações não triviais em grandes repositórios de dados e, assim, dar um significado mais

representativo e abrangente aos dados existentes nestes repositórios. Entre estes processos, talvez

o Knowledge Discovery in Databases (KDD), ou Descoberta de Conhecimento em Bases de

Dados, seja um dos mais conhecidos e disseminados no meio computacional. Conforme Fayyad et

al. (1996), KDD é um processo não trivial de identificar padrões válidos, novos (antes

desconhecidos), potencialmente úteis e, essencialmente, compreensíveis em bancos de dados. Este

processo é formado por uma série de etapas, que compreendem todo o ciclo percorrido pelos

dados, desde a seleção do conjunto de dados a ser estudado até a interpretação dos padrões e

regras gerados por abordagens como a mineração de dados. A Figura 2 apresenta as cinco fases

que compõem o processo de KDD.

Figura 2. Etapas que compõem o processo de KDD. Adaptado de (Fayyad et al. 1996)

Na etapa de seleção é escolhido o conjunto de dados a ser estudado, contendo todas as

variáveis que possuem chance de serem utilizadas durante o processo. No pré-processamento são

realizados ajustes no conjunto de dados selecionado como por exemplo: eliminação de dados


8

redundantes, recuperação de dados incompletos e tratamento de dados discrepantes (outliers). A

fase de transformação contempla a uniformização e a centralização dos dados selecionados e

limpos nas fases anteriores, de modo a reduzir o tempo de processamento dos mecanismos de

mineração. A etapa de mineração de dados é onde são implementados os algoritmos, mecanismos

inteligentes responsáveis pelo levantamento de padrões e regras implícitos em meio ao conjunto

de dados. Por fim, a interpretação e avaliação verificam os resultados obtidos na etapa de

mineração, visando entender o significado e a relevância das informações descobertas (Prass,

2004). Na maior parte deste processo, é essencial o acompanhamento de um especialista no

domínio tratado, cujas habilidades auxiliam decisivamente na escolha do conjunto de dados a ser

estudado, na definição do tipo de conhecimento a ser descoberto e como tal conhecimento pode

contribuir no suporte a decisões (Duarte et al., 2011).

Dentre as cinco etapas do KDD, a mineração de dados, ou data mining, pode ser

considerada a principal, pois é nessa fase em que são extraídas de fato as informações implícitas

presentes no conjunto de dados. Este conhecimento é obtido por meio da busca de padrões e

relacionamentos entre as variáveis e seus dados. Segundo Berry (2004), a mine ração de dados

consiste na exploração e análise de grandes quantidades de dados, visando a descoberta de padrões

e regras significativas. Para atingir seu objetivo, a mineração de dados utiliza-se de técnicas de

diferentes áreas do conhecimento como: estatística, banco de dados, reconhecimento de padrões,

inteligência artificial, visualização de informação, aprendizagem de máquina, entre outras.

Atualmente, esta abordagem vem sendo aplicada nos mais diversos cenários, tais como: área

acadêmica, finanças, comércio, marketing, medicina, genética, telecomunicações e meio ambiente.

Particularmente no domínio da gestão ambiental, o método de KDD tem se mostrado

bastante útil no sentido de proporcionar diretrizes para a transformação de dados brutos em

informações de valor estratégico. Conforme Silva (2007), a descoberta de conhecimento em bases

de dados de monitoramento ambiental, utilizando técnicas de mineração de dados, para avaliar a

qualidade da água pode ser uma ferramenta importante para o processo de tomada de decisão

realizado por órgãos e gestores de recursos hídricos na avaliação qualitativa destes.

Em termos de processo de descoberta de conhecimento, o estado atual deste trabalho, no

que se refere à tarefa de modelagem previsiva, encontra-se entre as etapas de mineração de dados

e interpretação e avaliação dos resultados, uma vez que foram obtidos os primeiros resultados a

partir da técnica de classificação baseada em regras, os quais vem sendo analisados sob os

aspectos de significância e relevância.


9

3.1. Trabalhos Relacionados

Existem diversos trabalhos relativos à utilização da mineração de dados na classificação de

dados de monitoramento de recursos hídricos, os quais visam basicamente trazer insumos que

possam auxiliar na tomada de decisão e a definir futuras políticas públicas para gestão sustentável

destes recursos.

Fernandes et al. (2009) apresenta um sistema de data warehousing para armazenamento

dos dados de qualidade da água de uma determinada região de Portugal, Além de organizar e

uniformizar as informações em uma base de dados, a ferramenta procura auxiliar na descoberta do

conhecimento através da aplicação das técnicas de mineração de dados, como a classificação e a

regressão linear.

Magaia (2009) aborda o papel dos sistemas de suporte à decisão na análise da qualidade da

água. O autor propõe o desenvolvimento de um sistema para este fim específico, o qual é

empregado em uma estação de tratamento de água. A ferramenta tem como objetivo coletar e

fornecer estruturas e meios para a exploração multidimensional dos dados, bem como a sua

classificação e geração de modelos através de mecanismos de data mining.

Seixas et al. (2008) investiga a correlação dos dados espaciais e temporais que compõem o

conjunto de poluentes da Lagoa Rodrigo de Freitas no Rio de Janeiro. O objetivo principal é obter

uma metodologia para a classificação da qualidade da água, que podem ser ut ilizados em outros

corpos hídricos. O trabalho inclui várias etapas de descoberta de conhecimento que são

implementadas para atingir as metas, bem como a utilização de técnicas de mineração de dados

para agrupar e classificar os dados.

Karimipour et al. (2005) investiga a mineração de dados geoespaciais para gestão de dados

ambientais e, especialmente, para gestão de qualidade de água. Um estudo de caso realizado na

região entre o Azerbaijão e o Irã apresenta a correlação entre a poluição de centros industriais e

indicadores de qualidade de água através de mineração de dados geoespaciais. Segundo o estudo,

ficam visíveis a relação entre o quantidade e a localização da poluição industrial e os indicadores

de qualidade da água.

Com relação às pesquisas citadas, este trabalho diferencia-se por buscar regras de

classificação que possibilitem especificamente a inferência da toxicidade da água dos corpos

hídricos. Além disso, a parte computacional é implementada por meio da técnica de cobertura

sequencial, visando a extração das regras diretamente do conjunto de dados.


10

4. Processo para Descoberta de Regras de Classificação de Toxicidade

A abordagem empregada neste estudo, para geração de regras de classificação de

toxicidade em corpos hídricos, foi baseada no processo de KDD, visto que este proporciona uma

eficiente diretriz para estudos voltados à descoberta de conhecimento em bases de dados, além de

ser um método bastante consolidado na área de tecnologia. Esta seção apresenta todos os passos

percorridos durante este processo, desde a seleção e preparação dos dados brutos de

monitoramento de qualidade de água, passando pela etapa de mineração dos dados pré-

processados, até a fase de análise dos resultados preliminares obtidos.

4.1. Pré-processamento dos dados

A aplicação das técnicas de mineração de dados tem como premissa que os dados a serem

pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com um nível

satisfatório de completude. Todas essas atividades de preparação dos dados visam sobretudo

otimizar a significância e a confiabilidade dos resultados gerados na etapa de mineração. Outro

importante benefício do pré-processamento dos dados é a redução de possíveis impactos no

desempenho da mineração, uma vez que, ao não se ocupar com o tratamento dos dados, esta pode

concentrar esforço computacional em seu propósito original, a busca de informações implícitas e

úteis no conjunto de dados. Nesse estudo, a etapa de pré-processamento compreendeu atividades

para seleção, transformação, centralização, imputação e discretização dos dados, as quais serão

apresentadas nas próximas seções.

4.1.1. Seleção dos Dados

No processo de KDD, a seleção dos dados está situada antes da etapa de pré-

processamento, no entanto, alguns autores como Tan et al. (2009), tratam a seleção como parte

desta etapa, abordagem também empregada neste artigo, uma vez que todas as etapas antes da

mineração de dados são fortemente relacionadas, podendo ser agrupadas em uma única etapa de

pré-processamento.

Neste trabalho, o conjunto de dados a ser analisado foi selecionado com base em critérios

gerais, relacionados a aspectos mais abrangentes dos dados, e critérios específicos, associados a

características mais peculiares dos dados. A seguir, os critérios gerais e as respectivas descrições

de como foram aplicados:


11

Critérios gerais para seleção dos dados:

Tipo de rede de monitoramento – Foram escolhidos os pontos da Rede Básica,

que abrange quase 85% dos pontos da rede de monitoramento da CETESB. Este

tipo de rede visa unicamente o avaliação da água dos rios do estado de São Paulo,

não contemplando análises de sedimentos e balneabilidade destes rios, tampouco

análises oriundas de sistemas de monitoramento automático.

Aspecto temporal – Foram contempladas as análises realizadas entre os anos de

2005 a 2010. Apesar de a CETESB publicar dados de análises a partir do ano

2000, utilizamos somente os últimos seis anos disponíveis para restringir esta

pesquisa à realidade mais recente dos corpos hídricos.

Aspecto espacial – Das 22 UGRHIs existentes no estado de São Paulo, foram

consideradas somente quatro delas, são elas: Paraíba do Sul (2), Piracicaba/

Capivari/Jundiaí (5), Alto Tietê (6), Sorocaba/Médio Tietê (10). O propósito foi

selecionar as UGRHIs mais populosas, com aproximadamente 70% dos habitantes

do estado, e fortemente industrializadas, uma vez que os rios de regiões com este

perfil normalmente são bastante impactados pela atividade industrial.

Após a aplicação dos critérios gerais, dos 317 pontos de amostragem, existentes em média

nos seis anos, permaneceram 165, todos localizados nas quatro UGRHIs selecionadas e

integrantes da Rede Básica da CETESB.

Os critérios específicos para seleção dos dados levaram em conta especialmente a questão

da completude, uma das premissas básicas para que a etapa de mineração de dados seja bem

sucedida. A seguir, são apresentados cada um dos critérios específicos empregados na seleção dos

dados, bem como a ordem em que foram aplicados:

Critérios específicos para seleção dos pontos de amostragem:

1. Somente pontos dos corpos hídricos que possuem 2 ou mais pontos de

amostragem.

2. Somente pontos que estão presentes em todos os anos.

3. Somente pontos que possuem análise de Toxicidade, visto que este parâmetro é

essencial neste estudo.

4. Somente pontos pertencentes à Classe 2. Para manter a uniformidade dos dados,

foram descartados quatro pontos, dois pertencentes à Classe 0 (Especial) e dois

pertencentes à Classe 3.


12

Após a aplicação destes critérios, dos 165 pontos de amostragem, selecionados com base

nos critérios gerais, permaneceram 44, considerados os pontos com maior riqueza e uniformidade

de dados.

Critérios específicos para seleção dos parâmetros de qualidade :

1. Parâmetros que constam em pelo menos 80% dos pontos de amostragem.

2. Parâmetros considerados mais impactantes para a vida aquática e a saúde humana

e, consequentemente, com maior possibilidade de trazer à tona informações

relevantes.

A aplicação destes critérios específicos resultaram na seleção de 10 parâmetros químicos,

que supostamente poderiam estar relacionados direta ou indiretamente, separadamente ou em

conjunto com efeitos tóxicos a biota, além da toxicidade, são eles: Cádmio Total, Chumbo Total,

Cobre Dissolvido, Níquel Total, Nitrato, Nitrito, Nitrogênio Amoniacal, Oxigênio Dissolvido,

Substância Tensoativa e Zinco Total.

Critério específico para seleção dos conjuntos de medição:

Somente conjuntos de medição dos pontos e datas de coleta que contêm o valor

medido no campo Toxicidade.

Este último critério eliminou aproximadamente 30% dos conjuntos de medição

selecionados até então. Vale esclarecer que o termo “conjunto de medição” refere-se a cada grupo

“medições de n parâmetros + medição de toxicidade”, o qual está associado a um ponto de

amostragem e uma data de coleta específicos.

4.1.2. Transformação dos Dados

Após selecionados, os dados brutos foram centralizados em um repositório criado por meio

do sistema gerenciador de banco de dados PostgreSQL. Porém, para tornar isto possível, foi

necessário converter os dados, que se encontravam em arquivos PDF, para um formato adequado à

estrutura de um banco de dados. Essa atividade foi realizada em várias etapas e consumiu a maior

parte do tempo de pré-processamento, uma vez que os arquivos originais tinham pequenas

diferenças entre si, que demandavam tratamento para que não impactassem na exatidão e na

confiabilidade dos dados recuperados. A Figura 3 ilustra o processo de conversão dos dados

originais até o armazenamento no banco de dados.


13

Figura 3. Esquema de conversão dos dados brutos

Primeiramente, os arquivos PDF foram convertidos para o formato XML (eXtenbible

Markup Language) com o auxílio da própria ferramenta Adobe© Acrobat. Em seguida, por meio

de dois conversores implementados na linguagem de programação Java, foram efetuadas as

conversões de XML para o formato texto (TXT), e deste para o formato SQL (Structured Query

Language). Por fim, os comandos SQL gerados foram executados, permitindo a inserção dos

dados no banco previamente criado no PostgreSQL.

4.1.3. Imputação de Dados Faltantes

A ausência de valores para determinados parâmetros, ou a inexatidão destes, pode causar

interferências na mineração de dados e, consequentemente, gerar resultados distorcidos. A solução

mais radical para estes casos é a remoção do registro completo, mesmo que este possua somente

um dos atributos com valor faltante. Nesse estudo, para não reduzir ainda mais a quantidade de

conjuntos válidos, foi empregada a técnica de imputação, que consiste na atribuição de valores aos

parâmetros baseada em um ou mais critérios.

Em medições com valores faltantes ou onde não foi possível detectar se o valor estava

abaixo ou acima do padrão da resolução CONAMA 357/2005 (Brasil, 2005), denominado neste


14

trabalho como Padrão CONAMA, o valor foi ignorado sendo imputado um valor médio mensal do

parâmetro nos seis anos (2005-2010). Exemplos:

Em medições abaixo do Padrão CONAMA, porém sem valor exato conhecido, foi

imputado o valor medido. Exemplo:

4.1.4. Discretização dos Dados

Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam

categorizados por meio de valores discretos, processo denominado discretização. De acordo com

Tan et al. (2009), a melhor abordagem de discretização é aquela que produz o melhor resultado

para a técnica de mineração de dados a ser utilizada. A conversão de um atributo contínuo em

discreto envolve duas tarefas: definir quantas categorias devem existir e como será feito o

mapeamento dos valores contínuos para os valores discretos.

A discretização dos dados de monitoramento de qualidade água foi realizada de forma

empírica, por meio da inspeção visual dos dados, dispensando técnicas supervisionadas mais

apuradas. Esta abordagem segundo Tan et al. (2009) às vezes pode ser eficaz. A Tabela 1 mostra

como os parâmetros químicos foram discretizados considerando o Padrão CONAMA, a

Toxicidade como parâmetro previamente discretizado conforme a resposta do organismo vivo,

bem como os mnemônicos utilizados para identificação dos valores na base de dados.

Tabela 1. Discretização dos parâmetros contínuos

Parâmetros Contínuos Mnemônico Descrição dos Valores Discretizados

Cádmio Total, Cobre Dissolvido, Nitrogênio Amoniacal, Níquel Total, Nitrato, Nitrito, Oxigênio Dissolvido, Chumbo Total, Substância Tensoativa, Zinco Total

PC Padrão CONAMA − Dentro do Padrão CONAMA.

AC Acima − Acima do Padrão CONAMA em até 3x.

MA Muito Acima − Acima do Padrão CONAMA maior que 3x.

Parâmetro Discreto Mnemônico Descrição dos Valores Discretos

Toxicidade NT Não Tóxico − Ausência de resposta fisiológica do microcrustáceo Ceriodaphnia Dubia.

CR Crônico − Resposta fisiológica do

microcrustáceo Ceriodaphnia Dubia.

AG Agudo − Forte resposta fisiológica do

microcrustáceo Ceriodaphnia Dubia.

Valor imputado = Média

Valor imputado = Média

Valor imputado = 0,02


15

4.2. Classificação de Toxicidade de Água Baseada em Regras

A técnica de classificação baseada em regras é uma abordagem da mineração de dados que

busca construir um modelo, a partir de um conjunto de registros previamente rotulados, capaz de

classificar os registros de outros conjuntos ainda não rotulados. A Figura 4 ilustra de forma

genérica a construção de um modelo de classificação baseado em regras. Na fase inicial, um

conjunto de treinamento, contendo registros cujas classes são conhecidas, é selecionado. Este

conjunto é utilizado como insumo para construção do modelo de classificação, que nada mais é

que o conjunto de regras de classificação encontrado. No momento seguinte, este modelo é

aplicado a um conjunto de testes, contendo registros cujas classes são desconhecidas. Por fim, o

desempenho do modelo é avaliado com base na taxa de erros ao classificar os registros da base de

testes.

Figura 4. Construção de um modelo de classificação baseado em regras

No contexto desta pesquisa, o algoritmo aprende um conjunto de regras condicionais a

partir da base de dados de treinamento, sendo cada regra composta por um antecedente, também

chamado de pré-condição, que contém os valores dos parâmetros químicos já mencionados, e um

consequente, que contém o valor da classe prevista, que no caso desse estudo é a toxicidade. Em

seguida, estas regras aprendidas pelo algoritmo são aplicadas à base de testes, de modo a atribuir

um valor de toxicidade à cada conjunto de medição desta base. Um exemplo de regra gerada seria:

Se Níquel=AC e Chumbo=AC e Zinco=MA Então Toxicidade=CR

Para avaliar a qualidade de uma regra de classificação existem medidas básicas como a

cobertura e a precisão. A primeira visa determinar a taxa de registros que se enquadram no

antecedente da regra e, portanto, disparam esta regra. A segunda define a taxa de registros que se

Conjunto de Treinamento

Atributo 1 Atributo 2 Atributo 3 Classe

Sim Pequeno 22 B

Não Grande 15 A

Sim Pequeno 28 B

Conjunto de Teste

Atributo 1 Atributo 2 Atributo 3 Classe

Sim Grande 32 ?

Sim Pequeno 25 ?

Não Grande 19 ?

Modelo de

Classificação

Indução Dedução

Algoritmo de aprendizagem gera as regras de classificação

Regras de classificação geradas são aplicadas no conjunto de teste


16

enquadram tanto no antecedente quanto no consequente da regra e, portanto, além de disparar esta

regra, também pertencem à classe prevista pela regra. Os cálculos destas medidas podem ser

expressos da seguinte forma:

Nessa pesquisa, o modelo de classificação foi gerado por um algoritmo de cobertura sequencial,

que faz uma busca pelas melhores regras para prever cada classe, no caso os valores de

Toxicidade: NT (Não Tóxico), CR (Crônico) e AG (Agudo). Durante a busca das regras, todos os

conjuntos de medição com classe igual a que está sendo pesquisada são considerados positivos, e

todos os outros conjuntos são considerados negativos. Uma regra é considerada satisfatória se

cobrir a maioria dos conjuntos positivos e poucos negativos.

4.3. Resultados Preliminares

Para configurar o processamento da classificação e visualizar os resultados gerados por

este processamento, foi implementado uma ferramenta em linguagem de programação Java, cuja

interface principal é apresentada na Figura 5. Esta interface pode ser dividida em duas partes: o

painel de controle, à esquerda, que destina-se às configurações de classificação e visualização,

bem como aos botões de comando; e a área de processamento, à direita, onde os resultados do

processamento podem ser visualizados.

Antes de iniciar a classificação, primeiramente é necessário selecionar a base de dados de

treinamento, que servirá de insumo para o aprendizado do algoritmo. Em seguida, é possível

configurar as taxas de cobertura e precisão mínimas que devem ser consideradas na busca de

regras, caso não sejam configuradas, são procuradas todas as regras possíveis, independentemente

de suas taxas de cobertura e precisão. Também é possível definir algumas opções de visualização,

que permitem configurar até quatro níveis de detalhamento das informações de processamento.

Por fim, o botão Buscar Regras inicia o processo de busca de regras de classificação para

toxicidade de água.


17

Figura 5. Ferramenta para busca de regras de classificação de toxicidade de água1

Após gerar as regras, pode-se visualizar o comportamento das taxas de cobertura e precisão

durante a formação de cada regra encontrada. Por meio de um gráfico de linhas, esta

funcionalidade permite avaliar de forma rápida e eficaz o desempenho de cada regra gerada,

auxiliando assim na tomada de decisão de quais regras devem ser consideradas ou descartadas

para a classificação da toxicidade da água. A Figura 6 mostra como as taxas de cobertura e

precisão tendem a seguir direções opostas conforme a regra vai sendo aumentada com novas

condições (ou parâmetros). Esse fenômeno indica que, em geral, quanto maior a precisão de uma

regra, menor será sua cobertura, e vice-versa.

Uma vez geradas as regras, estas são aplicadas na base de teste. Nesse momento, é

calculada e apresentada a quantidade de conjuntos de medição classificados incorretamente, bem

como a taxa de precisão das regras aplicadas. Vale lembrar que, esta verificação é possível porque,

as classes dos conjuntos de medição são conhecidas tanto na base de treinamento quanto na base

de teste, característica indispensável para se aplicar o método de validação cruzada de duas partes.

O passo seguinte consiste em trocar os papéis das duas bases utilizadas e repetir o mesmo

procedimento, de modo que a base que era de treinamento passe a ser a base de teste e vice-versa.

Por fim, o desempenho das regras geradas pelas duas iterações pode ser avaliado por meio do

botão Visualizar Resultado da Validação Cruzada.

1 n_amon, cu_dis, ni_tot, pb_tot, zn_tot, nitrat e sub_te referem-se respectivamente aos parâmetros: Nitrogênio

Amoniacal, Cobre Dissolvido, Níquel Total, Chumbo Total, Zinco Total, Nitrato e Substância Tensoativa.


18

Figura 6. Visualização da cobertura e precisão das regras geradas

Os resultados preliminares indicaram que a taxa máxima de precisão atingida pelas regras

de classificação geradas ficou em torno de 77%. Isto significa que para cada 100 conjuntos de

medição classificados pelas regras geradas, em 23 deles a toxicidade (não tóxico, crônico ou

agudo) foi classificada incorretamente. Além da taxa de erro considerável, os resultados não se

mostraram muito significativos pois as regras de classificação obtidas estavam majoritariamente

associadas ao valor de toxicidade “não tóxico”, quando se esperava obter regras que previssem

valores tóxicos, como “crônico” e “agudo”. Ainda que a ferramenta tenha gerado algumas regras

para a toxicidade “crônica”, não foi possível gerar regras para toxicidade “aguda”, pois todas as

possíveis regras testadas, sempre produziam mais erros do que acertos.

5. Considerações Finais

Neste artigo, foi apresentada a utilização de técnicas específicas de mineração de dados

para descoberta de conhecimento no domínio de monitoramento de qualidade de água. Durante a

pesquisa, pôde-se perceber o grau de relevância do tema abordado para a gestão da

sustentabilidade. Há um grande volume de trabalhos relacionados à aplicação da computação na

área ambiental, especialmente na gestão de recursos hídricos, fato que demonstra uma forte

preocupação da comunidade científica com o futuro de nossas bacias hidrográficas.

Quanto aos dados selecionados para o estudo, procurou-se contemplar uma amostra

significativa dos dados de qualidade de água do estado de São Paulo, porém notou-se que o


19

conjunto de dados selecionado precisou ser drasticamente reduzido com relação ao conjunto

original. Um dos motivos que se deve destacar para esta ocorrência é a grande quantidade de

medições incompletas, visto que parâmetros essenciais para esta pesquisa não possuíam valor

medido. Portanto, esta estratégia foi adotada para conservar a qualidade do conjunto de dados,

visto que o resultado da mineração está diretamente relacionado a este fator.

Outro elemento que deve ser considerado é que a descoberta de conhecimento é um

processo inerentemente exploratório e iterativo, característica que demanda muitos ajustes e,

consequentemente, novas iterações e experimentos em busca padrões em meio aos dados. Por este

motivo, será necessário reavaliar particularmente o conjunto de parâmetros selecionados, além das

questões da imputação e da discretização dos dados, uma vez que podem influenciar fortemente

nas respostas da mineração.

Apesar de as técnicas utilizadas não terem gerado regras de classificação de toxicidade de

água muito significativas, os resultados iniciais desta pesquisa demonstram o potencial que a

mineração de dados possui para auxiliar na extração de informações implícitas em dados de

monitoramento de qualidade de água. A impossibilidade de se criar regras para a toxicidade

aguda, por exemplo, denota que os parâmetros químicos utilizados, nas concentrações medidas,

podem não influenciar uma medição a ponto de ela atingir este nível de toxicidade. Enfim,

informações como esta podem representar subsídios valiosos para a tomada de decisão no que diz

respeito à gestão de recursos hídricos e da sustentabilidade ambiental.

Referências Bibliográficas

ALVES, E. C.; SILVA, C. F.; COSSICH, E. S.; TAVARES, C. R. G.; FILHO, E. E. S.; CARNIEL, A. (2008). Avaliação da qualidade da água da bacia do rio Pirapó – Maringá, Estado do Paraná, por meio de parâmetros físicos, químicos e microbiológicos. Acta Scientiarum. Technology, Maringá, v. 30, n. 1, p. 39-48.

BERRY, M. J. A.; LINOFF, G. S. (2004). Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. Indianapolis:Wiley Publishing, Inc., 672 p.

BRASIL. Conselho Nacional do Meio Ambiente. Resolução n. 357, de 17 de março de 2005. Brasília: CONAMA, 2005.

BRUNDTLAND, G.H.(chair.), “Our Common Future” – Report on the World Commission on Environment and Development. New York, United Nations Environmental Programme, 1987.

CETESB. Relatório de Qualidade das Águas Superficiais do Estado de São Paulo – 2010. São Paulo: CETESB, 2011. Disponível em: <http://www.cetesb.sp.gov.br/ agua/aguas-superficiais/35-publicacoes-/-relatorios>. Acesso em: 27 fev. 2012.


20

DUARTE, A. A. A.; BERTHOLDO, L.; UMBUZEIRO, G. A.; CAMOLESI JÚNIOR, L.; SILVA, C. G.. Processamento e Visualização de Dados para a Descoberta de Conhecimento em Sistemas de Monitoramento de Qualidade de Água. In: III Workshop de Computação Aplicada à Gestão do Meio Ambiente e Recursos Naturais, Natal, p. 1409-1418.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. (1996). From data mining to knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining , AAAI Press/The MIT Press, England, p. 37-54.

FERNANDES, J.; DUARTE, A. S.. Um Sistema de Data Warehousing para a Área da Qualidade da Água. 2009. 16p. Universidade do Minho, Portugal.

HISTÓRICO. Institucional – CETESB - Companhia Ambiental do Estado de São Paulo. Disponível em: <http://www.cetesb.sp.gov.br/institucional/institucional/52-Histórico>. Acesso em: 29 fev. 2012.

JACOBI, P. R.; BARBI, F.. Democracia e participação na gestão dos recursos hídricos no Brasil. Revista Katálysis, Florianópolis, v. 10, n. 2, p.237-244, 2007.

KARIMIPOUR, F.; DELAVAR, M. R.; KINAIE, M. (2005). Water Quality Management Using GIS Data Mining. Journal of Environmental Informatics. Canadá, v. 5, n. 2, p. 61-71.

MAGAIA, L. P. T.. O papel dos sistemas de suporte à decisão na análise da qualidade da água . 2009. Dissertação (Mestrado em Sistemas de Dados e Processamento Analítico) –Universidade do Minho, Portugal.

MARANHÃO, N.. Sistema de Indicadores para Planejamento e Gestão dos Recursos Hídricos de Bacias Hidrográficas. 2007. 422 p. Tese (Doutorado) – Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2007.

PRASS, F. S. (2004). KDD: Processo de descoberta de conhecimento em bancos de dados. Grupo de Interesse em Engenharia de Software, Florianópolis, v.1, p. 10-14.

REDE DAS ÁGUAS. Uma política pública para as águas. Disponível em: <http://www.rededasaguas.org.br/politicas-publicas/>. Acesso em: 02 mar. 2012.

SEIXAS, A. J.; NELSON, F. F. E.; BEATRIZ, S. L. P. L.. Mining spatial and temporal data to classify water quality: a case study. In: Data Mining IX: Data Mining, Protection, Detection and Other Security Technologies. Reino Unido, v. 40, p. 83-94, 2008.

SILVA, I. A. F. Descoberta de Conhecimento em Base de Dados de Monitoramento Ambiental para Avaliação da Qualidade da Água. 2007. 134 p. Dissertação (Mestrado) – Universidade Federal de Mato Grosso, Cuiabá, 2007.

TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna. 900 p.

UMBUZEIRO, G. A.; LORENZETTI, M. L.. Fundamentos da Gestão da Qualidade das Águas: Resolução CONAMA 357/2005. Limeira-SP: Biblioteca da Unicamp/CPEA, 2009.

VON SPERLING, M.. Estudos e modelagem da qualidade da água de rios. Belo Horizonte: Departamento de Engenharia Sanitária e Ambiental – Universidade Federal de Minas Gerais, 2007. 588 p. v.7.

TÉCNICAS DE MINERAÇÃO DE DADOS NA CLASSIFICAÇÃO DE ...camolesi/pub/cneg2012.pdf · tÉcnicas...

Documents

Transcript of TÉCNICAS DE MINERAÇÃO DE DADOS NA CLASSIFICAÇÃO DE ...camolesi/pub/cneg2012.pdf · tÉcnicas...