RECONHECIMENTO DE PADRÕES DE
CONSUMO DIÁRIO DE ÁGUA
Carlos Arthur Mattos Teixeira Cavalcante (UFBA )
CRISTIANO HORA DE OLIVEIRA FONTES (UFBA )
ADONIAS MAGDIEL SILVA FERREIRA (UFBA )
Pedro Icaro dos Santos Ferreira (UFBA )
Liliane dos Santos Vieira (UFBA )
O objetivo deste trabalho é obter o reconhecimento de padrões de
perfis de demanda de água potável, utilizando uma combinação das
técnicas K-Means e Fuzzy C-means. O estudo foi realizado com dados
disponibilizados por uma empresa de tratameento e distribuição de
água do nordeste brasileiro, referentes ao consumo horário de água,
registrado por uma subestação no ano de 2010. Devido à alta
diversidade de perfis de demanda de água, um reconhecimento de
padrões oriundo das próprias características dos dados, oportuniza um
conhecimento exploratório do processo gerador destes dados. O estudo
apresenta três etapas: a primeira etapa consiste no tratamento dos
dados, seguida pela definição do melhor número de agrupamentos
através do método K-means combinado com a análise do índice de
silhueta, e na terceira é feito o reconhecimento de padrões através do
método Fuzzy C-means. Assim, foi possível reconhecer padrões no
consumo de água dentro de um período de 24 horas, tanto para uma
faixa de tempo de análise mensal, quanto para uma faixa de tempo de
análise anual a partir das próprias características dos dados.
Palavras-chaves: Reconhecimento de padrões, Análise de
agrupamento, Perfis de Demannda e Abastecimento de Água.
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
2
1. Introdução
A universalização dos direitos de abastecimento de água e tratamento de rede e de esgoto,
garantindo a saúde dos brasileiros é assegurada pela Lei do Saneamento Básico, Lei nº 11445,
estabelecendo regras para o setor, definindo competências do governo federal, estados e
prefeituras para o serviço de saneamento e água, e também a regulamentação da participação
de empresas privadas no saneamento básico. O governo federal estabelece diretrizes gerais,
formula e apoia programas de saneamento em âmbito nacional; os estados operam e mantém
sistemas de saneamento, e estabelecem as regras tarifárias e de subsídios nos sistemas
estatais; às prefeituras, compete à prestação - diretamente, ou via concessão a empresas
privadas - os serviços de saneamento básico, coleta, tratamento e disposição final de esgotos
sanitários. Além disso, as prefeituras também elaboram Planos Municipais de Saneamento
Básico (PMSB), que são estudos financeiros para prestação do serviço, definição das tarifas e
outros, podendo o município que não faz o plano impedido de contar com recursos federais
disponíveis para os projetos de água e esgoto.
O abastecimento de água é formado pelas atividades e instalações necessárias ao
abastecimento público de água potável, desde a captação até as ligações prediais e respectivos
instrumentos de medição. A empresa em questão é responsável pela prestação dos serviços de
água e esgotamento sanitário da capital e interior de um estado do Nordeste, e faz parte de
uma das entidades da administração descentralizada da Secretaria do Saneamento e Recursos
Hídricos do perante estado. Esta Secretaria tem, como uma de suas funções, a finalidade de
executar a política governamental de abastecimento de água e esgotamento sanitário e de
aproveitamento global dos recursos hídricos no âmbito estadual.
Devido à alta diversidade de perfis de demanda de água, um reconhecimento de padrões
oriundo das próprias características dos dados, oportuniza um conhecimento exploratório do
processo gerador destes dados. Para Marambio et al. (2003), é possível fazer um
reconhecimento de padrões das suas séries históricas baseada em técnicas de agrupamentos
como um meio para a obtenção de uma classificação mais representativa. Neste caso, os
padrões resultantes são curvas típicas de tendência central de um grupo reconhecido. O
propósito principal das técnicas de agrupamento é reunir objetos em grupos que maximizem a
homogeneidade dos seus objetos e maximize a heterogeneidade entre os outros grupos. A
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
3
aplicação desses métodos requer antecipadamente o número de grupos que se pretende obter
(JAIN et al., 1999; MARAMBIO et al., 2003).
Segundo Johnson (2007), os métodos de agrupamento podem ser aplicados em várias áreas do
conhecimento quando se reconhece a necessidade de identificar grupos semelhantes de casos
ou variáveis. Witten (2005) e Jain et al. (1999) concordam que seu uso tem crescido ao longo
dos anos, em uma vasta miríade de tópicos e áreas.
Para Johnson (2007), os métodos clássicos de agrupamentos podem ser divididos em dois
campos: os agrupamentos hierárquicos e os não hierárquicos, sendo que para este último
destaca-se duas abordagens: formação de grupos mutuamente excludentes e formação de
grupos com níveis de pertinência para cada objetos (agrupamento fuzzy). Ambos baseiam-se
nos conceitos de medidas de similaridade e sofrem influência da subjetividade na
determinação da quantidade de agrupamentos.
Por seu turno, em relação aos agrupamentos não hierárquicos mutuamente excludentes,
segundo Hair et al (2006) o K-means tem tido um uso mais frequente. O objetivo da sua
heurística é minimizar a distância dos elementos a um conjunto de K centros dado por C =
{x1,x2,...,xk} de forma iterativa. A distância entre um ponto pi e um conjunto de clusters, dada
por d(pi,C), é definida como sendo a distância do ponto ao centro mais próximo dele. O
algoritmo busca dentro do possível a partição em que os padrões de cada agrupamento estão
mais próximos entre si e mais distantes dos padrões de outros agrupamentos. De acordo com
Fung (2001), este é um dos métodos mais populares das técnicas particionais. Diferente dos
métodos hierárquicos, este não cria uma estrutura em árvore para descrever o agrupamento
dos dados, sendo mais adequado para uma grande quantidade de dados. O problema desse
algoritmo é a necessidade um número k de clusters definidos a priori pelo usuário (LINDEN,
2009).
A análise de dados por agrupamento remete ao processo de organizar e separar certo número
de dados, de forma que a similaridade entre os dados de um grupo é maximizada, enquanto
que a similaridade entre dados de grupos diferentes é minimizada. Porém na prática separar
dados em grupos pode exigir a consideração de fatores de incerteza e imprecisão, o que abre a
possibilidade de um dado ser caracterizado como similar a diversos grupos. Esta situação
pode ser abreviada por meio da Teoria dos Conjuntos Fuzzy, transformando o processo de
agrupamento clássico em um processo fuzzy. Seguindo esta vertente de estudo, é encontrado
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
4
o algoritmo Fuzzy C-means (FCM), utilizado para a realização de agrupamentos fuzzy, como
alternativa ao algoritmo de agrupamento clássico C-means (ROCHA et al., 2012).
Um aspecto importante a mencionar que a qualidade dos grupos formados é sensível à
definição do número final de grupos. Como Rokach (2007) afirma, muitos dos algoritmos que
processam o agrupamento de dados necessitam como argumento inicial o número final de
grupos. Um grupo de métodos que utilizam propostas heurísticas bastante simples para esse
problema é conhecido como “rule of thumbs”. (MARDIA, 1979 apud WANG J. & WANG
X., 2012).
Por sua vez, o método de Elbow faz uso de artifício gráfico para definir este número.
Aldenderfer (1984) e Goutte (1999) explicam que deve ser criado um gráfico relacionando o
número de clusters e a percentagem de variação interna dos grupos. A partir de determinado
momento, percebe-se que a variação interna reduz de magnitude, definindo assim como este o
ponto a ser tomado como o número de grupos finais.
Destaca-se ainda outro tipo de procedimento que se baseia no índice de silhueta para a
determinação do número ideal de grupos. Rousseeuw (1986) explica que o índice de silhueta
indica numa faixa entre -1 e 1 qual a compatibilidade de cada dado com seu respectivo grupo.
Valores próximos de 1 indicam que o dado possui uma pertinência muito boa ao seu grupo,
enquanto que valores próximos de -1 indicam que o dado possivelmente foi alocado no grupo
errado. O valor zero indica que o dado está no meio de dois grupos. Obtendo-se o índice de
silhueta de todos os dados presentes na amostra, pode-se tirar uma média de todos esses
valores, e assim encontrar em qual número de clusters se obtém a média mais alta, o que
determina o número de clusters a ser usado.
No presente trabalho, o método para a determinação do número de grupos a ser usado é o que
é baseado no índice de silhueta, com as devidas adaptações para o caso em questão. Isso
decorre do fato de essa ferramenta permitir tanto a escolha do número de grupos, como
apresentado acima, quanto a sua validação (ROUSSEEUW, 1986).
O objetivo deste trabalho é obter o reconhecimento de padrões de perfis de demanda de água
potável, adotando uma combinação dos métodos K-Means e Fuzzy C-means. O estudo foi
realizado com dados disponibilizados por uma empresa de tratamento e distribuição de água
do nordeste brasileiro, referentes ao consumo horário de água, registrado por uma subestação
no ano de 2010.
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
5
O artigo está estruturado em quatro partes, incluindo esta introdução. Segue-se uma discussão
da metodologia. Em seguida, expõem-se os resultados apresentado as discussões pertinentes,
culminando com as conclusões.
2. Metodologia
As curvas de consumo de água são trabalhadas de modo a buscar os pontos de sazonalidade
comuns ao longo de um dia. A metodologia aplicada busca realizar o agrupamento das curvas
de consumo de água, de modo a obter uma configuração em que as curvas tidas como padrão
possam representar com certo nível de confiança todas as curvas que se encontram dentro do
grupo.
O estudo apresenta três etapas: a primeira etapa consiste no tratamento dos dados, seguida
pela definição do melhor número de agrupamentos através do método K-means combinado
com a análise do índice de silhueta, e na terceira é feito o reconhecimento de padrões através
do método Fuzzy C-means. Se a homogeneidade e heterogeneidade dos grupos não for
satisfatória, pode-se retornar à etapa do tratamento de dados e aumentar o rigor dos critérios
de expurgos dos dados que apresentarem discrepância em relação ao geral e segue-se às
etapas seguintes até se obter um resultado a contento.
O tratamento de dados é feito em primeira instância buscando encontrar as curvas padrões
para consumo dentro de cada mês, para posteriormente encontrar as curvas padrão relativas ao
ano completo. Buscou-se ainda descobrir se as curvas que refletem um comportamento
anormal dentro de um mês poderiam acarretar em uma grande influência para o agrupamento
anual.
Quanto à definição do número de grupos, foram calculados índices de silhueta médios para
diferentes números de grupos obtidos a partir da definição deste parâmetro de entrada do
método K-means. Este procedimento foi adotado porque cada curva de um grupo possuía seu
índice de silhueta. Com isso, selecionou-se a quantidade de grupos que apresentou o valor
mais alto do índice de silhueta médio. Com este número identificado, aplicou-se o Fuzzy C-
means, para então obter as curvas características dos meses, assim como a do ano.
Nas obras dos autores já mencionados, o K-means é aplicado sobre os dados, utilizando-se
como métrica o quadrado da distância euclidiana. Como o K-means inicia de um ponto
aleatório, são feitas repetições deste teste sobre a base, de modo a obter um determinado
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
6
agrupamento. Um objeto é consignado ao grupo que apresentar a menor soma de distâncias
em relação ao seu o ponto de referência central (centróide). O número de grupos é variado
iterativamente, fazendo com que sejam encontrados os centróides para diversas
configurações.
Por fim, depois de identificado o número de grupos é utilizado o método Fuzzy C-means, que
então reconhece os perfis de curvas como padrões em cada agrupamento. De acordo com Xu
& Wunsch (2005), o método FCM funciona visando minimizar uma função que corresponde
às distâncias entre os dados e os centros dos grupos aos quais tais dados pertencem com
algum grau de pertinência. A minimização dessa função produz melhores agrupamentos do
que aqueles produzidos pelo algoritmo C-means clássico (ROCHA et al., 2012).
3. Resultados e discussão
A programação para a análise dos dados foi feita na plataforma computacional MATLAB
(Matrix Laboratory). Os dados utilizados foram oriundos de uma estação de tratamento e
distribuição de água e, referem-se ao consumo total de água de uma cidade baiana ao longo do
ano de 2010. As medições permitiram observar e caracterizar a demanda de água ao longo do
dia.
Feito o tratamento prévio dos dados, estes foram submetidos ao programa desenvolvido, e foi
obtido como resultado dois grupos de curvas, que forneceram perfis de curvas típicas que
representam o comportamento exibido para todo o ano (Figura 1). De um modo geral,
percebe-se que há um pico de consumo em torno das 13h, observando-se ainda outro pico
menos destacado na faixa entre 20h e 21h, havendo certa continuidade no consumo ao longo
das horas (Figura 2).
Figura 1 - Representação do gráfico do índice de silhueta com 2 grupos de curvas
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
7
Fonte: Próprio autor
Figura 2 - Curvas padrão obtidas para o consumo durante o ano
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
8
Fonte: Próprio autor
Na análise feita para cada mês em isolado, encontrou-se em alguns meses uma característica
semelhante à encontrada na análise feita para a base completa, enquanto que em alguns outros
meses foram encontradas características próprias. Na Figura 3 é possível visualizar os padrões
de curvas de cada mês.
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
9
Figura 3 - Curvas-padrão mensais
Fonte: Próprio Autor
4. Conclusões
Com aplicação dos métodos de reconhecimento de padrões via agrupamento de dados foi
possível identificar influências sazonais horárias e sazonais mensais. Particularmente, foram
reconhecidos padrões de demanda de água dentro de um período de 24 horas, tanto para uma
faixa de tempo de análise mensal, quanto para uma faixa de tempo de análise anual a partir
das próprias características dos dados. Esse resultado permite um melhor entendimento na
gerência da rede de distribuição de água potável, podendo ser útil para a tomada de decisões
com relação ao abastecimento de água das unidades consumidoras.
Os padrões obtidos a partir do consumo real de água oportuniza uma caracterização mais
verossímil dos hábitos de consumo dos clientes. Isto favorece a definições de plano de ações
com maiores de chances de sucesso ao combate ao desperdício da água.
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
10
No âmbito do uso dos métodos, o K-Means possibilitou, através do critério de validação do
índice de silhueta, a determinação da quantidade ótima de agrupamento. Mas, por outro lado,
foi considerado o método FCM para a obtenção dos padrões de curvas de cada grupo
reconhecido.
O desenvolvimento de metodologias que combinem métodos já consolidas na literatura,
incorporando parâmetros usuais do ambiente do problema sob análise, pode permitir
avaliações customizadas e mais pertinentes que possam balizar a tomada de decisão de modo
mais eficiente e eficaz.
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
11
REFERÊNCIAS
FERREIRA, A.M.S.; CAVALCANTE, C.A.M.T.; FONTES, C.H. & MARAMBIO, J.E.S.
Um novo método de tipificação de demanda horária de energia elétrica. Belo Horizonte,
XXXI Encontro Nacional de Engenharia de Produção, 2011.
WITTEN, I.H. & FRANK, Eibe. Data mining: practice machine learning tools and
techniques, 2nd edition. Elsevier: San Francisco. 2005. p. 2-5.
JAIN, A.K.; MURTY, M.N. & FLYNN, P.J. Data Clustering: A review. Columbus. ACM
Computing Surveys, Vol. 31, n° 3, Setembro 1999.
JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 6th
edition. Pearson, New Jersey, 2007.
PAN, Tan-Ning; STEINBACH, M. & KUMAR, V. Introduction to Data Mining. Addison-
Wesley, Michigan. 2005. p. 487-496.
HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. & BLACK, W.C. Análise Multivariada de
Dados, 5. ed. Porto Alegre, Bookman. 2006.
ROKACH, L.; MAIMON, O. The Data Mining and Knowledge Discovery Handbook, 1.
ed. Springer-Verlag. New York, 2005. p. 321-352
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
12
MARDIA, K.V.; KENT, J.T. & BIBBY, J.M. Multivariate Analysis, 1. ed. Michigan. 1979.
WANG, J. & WANG, X. Structural Equation Modeling: Applications Using Mplus, 3. ed.
John Wiley & Sons, 2012.
ALDENDERFER, M.S. & BLASHFIELD, R.K. Cluster Analysis. SAGE Publications.
Califórnia. 1984.
GOUTTE, C; TOFT, P.; ROSTRUP, E.; NIELSEN, F.A. & HANSEN, L.K. On Clustering
fMRI Time Series. Neuroimage, vol. 9, ed. 3. Março, 1999.
FUNG,Glenn. A Comprehensive Overview of Basic Clustering Algorithms. 2001.
LINDEN, Ricardo. Técnicas de Agrupamento. Revista de Sistemas de Informação da
FSMA, n. 4, p. 18-36. 2009.
ROUSSEEUW, Peter J. Silhouette: A Graphical Aid to the Interpretation and Validation
of cluster analysis. Journal of Computational and Applied Mathematics, n. 20. p. 53-65.
1986.
ROCHA, T.; PERES, S.E.; BÍSCARO, H.H.; MADEO, R.C.B.& BOSCARIOLLI, C.
Tutorial sobre Fuzzy C-means e Fuzzy Learning Vector Quantization: Abordagens
Híbridas para Tarefas de Agrupamento e Classificação. UFRGS. Revista de Informática
Teórica e Aplicada, v. 19, n. 1. 2012.
XXXIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO A Gestão dos Processos de Produção e as Parcerias Globais para o Desenvolvimento Sustentável dos Sistemas Produtivos
Salvador, BA, Brasil, 08 a 11 de outubro de 2013.
13
XU, R. & WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on Neural
Networks. v. 16, n. 3. May 2005, p. 645–678.
MARAMBIO, J.E.S.; LUZ, A.D.; FERREIRA, A.M.S.; CHAGAS, E.H.C; C.MUCCINI,
M.J.; SOARES JR, F.A. & SANTOS, S.O. Metodologia para Planejamento e
Acompanhamento de Programas de GLD em Mercado com Crescimento não
Tradicional. II Congresso de Inovação Tecnológica em Energia Elétrica, 2003.
PORTAL BRASIL: Serviços a População. Disponível em:
<http://www.brasil.gov.br/sobre/cidadania/servicos-a-populacao>. Acesso em: 23/04/2013, as
22h.
EMPRESA BAIANA DE ÁGUA E SANEAMENTO S.A. - EMBASA: Apresentação.
Disponível em: <http://www.embasa.ba.gov.br/institucional/embasa/apresentacao>. Acesso
em 24/04/2013, as 08h.
MINISTÉRIO PÚBLICO DO ESTADO DA BAHIA. Disponível em:
<http://www.mp.ba.gov.br/atuacao/ceacon/legislacao/agua/lei_ba_2929_1971.pdf> Acesso
em: 24/04/2013, as 09h.
Top Related