Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o...

12
XVIII Seminário Nacional de Distribuição de Energia Elétrica SENDI 2008 - 06 a 10 de outubro Olinda - Pernambuco - Brasil Uso de Ferramentas de Aprendizado de Máquina para Prospecção de Perdas Comerciais em Distribuição de Energia Elétrica Hamilton Melo Ferreira Christiano Lyra Filho Fernando J. Von Zuben Unicamp Unicamp Unicamp [email protected] [email protected] [email protected] Palavras-chave Aprendizado de Máquina Mineração de Dados Perdas Comerciais Sistema de Apoio à Decisão Resumo As concessionárias de energia elétrica deixam de faturar anualmente expressivos valores devido às perdas comerciais, as quais são originadas principalmente por fraudes cometidas pelos consumidores e também pela presença de medidores defeituosos. A detecção automática dos pontos específicos onde ocorrem tais perdas é uma tarefa complexa, dada a grande quantidade de consumidores, a grande variedade de perfis de consumo de energia elétrica e o alto custo de cada inspeção. Este trabalho propõe o uso de técnicas de aprendizado de máquina para a incorporação de processamento inteligente na identificação das fontes de perdas comerciais, usando os dados reais fornecidos pela concessionária de energia elétrica AES Eletropaulo. 1. Introdução O controle das perdas das distribuidoras de energia elétrica é, sem dúvida, hoje, um dos principais elementos responsáveis pela eficiência da corporação. Pode-se definir perda como a diferença entre a quantidade de energia distribuída e a quantidade de energia paga pelos consumidores. As perdas, no entanto, são classificadas em perdas técnicas e comerciais. As perdas técnicas são dominadas pela energia perdida no aquecimento dos equipamentos e fios utilizados no processo de distribuição. Já as perdas comerciais são estimadas com base na diferença entre o total de perdas e as perdas técnicas. As perdas comerciais saem do âmbito do "fio" (da rede elétrica) e fixam-se principalmente no âmbito dos consumidores, dos medidores, do cadastro e do faturamento. Como exemplo, pode-se citar o popular “gato na rede elétrica”, onde os clientes da distribuidora de energia elétrica fazem ligações elétricas diretamente na rede de distribuição, sem passar pelo medidor. No lado das perdas técnicas, muito já se fez em pesquisa e desenvolvimento de metodologias e algoritmos para sua mensuração e otimização, sendo que nos últimos anos foram desenvolvidos reconfiguradores de redes e estratégias de alocação de capacitores, visando atender as especificações das áreas de planejamento e operação dos sistemas de distribuição. Já no âmbito das perdas 1/12

Transcript of Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o...

Page 1: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

XVIII Seminário Nacional de Distribuição de Energia Elétrica

SENDI 2008 - 06 a 10 de outubro

Olinda - Pernambuco - Brasil

Uso de Ferramentas de Aprendizado de Máquina para Prospecção de Perdas

Comerciais em Distribuição de Energia Elétrica

Hamilton Melo Ferreira Christiano Lyra Filho Fernando J. Von Zuben Unicamp Unicamp Unicamp

[email protected] [email protected] [email protected]

Palavras-chave Aprendizado de Máquina Mineração de Dados Perdas Comerciais Sistema de Apoio à Decisão Resumo As concessionárias de energia elétrica deixam de faturar anualmente expressivos valores devido às perdas comerciais, as quais são originadas principalmente por fraudes cometidas pelos consumidores e também pela presença de medidores defeituosos. A detecção automática dos pontos específicos onde ocorrem tais perdas é uma tarefa complexa, dada a grande quantidade de consumidores, a grande variedade de perfis de consumo de energia elétrica e o alto custo de cada inspeção. Este trabalho propõe o uso de técnicas de aprendizado de máquina para a incorporação de processamento inteligente na identificação das fontes de perdas comerciais, usando os dados reais fornecidos pela concessionária de energia elétrica AES Eletropaulo. 1. Introdução

O controle das perdas das distribuidoras de energia elétrica é, sem dúvida, hoje, um dos principais elementos responsáveis pela eficiência da corporação. Pode-se definir perda como a diferença entre a quantidade de energia distribuída e a quantidade de energia paga pelos consumidores. As perdas, no entanto, são classificadas em perdas técnicas e comerciais.

As perdas técnicas são dominadas pela energia perdida no aquecimento dos equipamentos e fios utilizados no processo de distribuição. Já as perdas comerciais são estimadas com base na diferença entre o total de perdas e as perdas técnicas. As perdas comerciais saem do âmbito do "fio" (da rede elétrica) e fixam-se principalmente no âmbito dos consumidores, dos medidores, do cadastro e do faturamento. Como exemplo, pode-se citar o popular “gato na rede elétrica”, onde os clientes da distribuidora de energia elétrica fazem ligações elétricas diretamente na rede de distribuição, sem passar pelo medidor.

No lado das perdas técnicas, muito já se fez em pesquisa e desenvolvimento de metodologias e algoritmos para sua mensuração e otimização, sendo que nos últimos anos foram desenvolvidos reconfiguradores de redes e estratégias de alocação de capacitores, visando atender as especificações das áreas de planejamento e operação dos sistemas de distribuição. Já no âmbito das perdas

1/12

Page 2: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

comerciais, os estudos ainda são recentes, motivados por estimativas que relatam uma perda comercial anual do setor brasileiro de distribuição de energia elétrica em torno de R$ 5,1 bilhões em 2005 (Francisco, 2006).

Diferentemente da área de perdas técnicas, em que é possível saber, com boa precisão, onde ocorre a perda de energia e seu valor, em perdas comerciais não se consegue precisar qual consumidor está fraudando a distribuidora ou qual medidor está com problema, ou seja, as perdas comerciais são caracterizadas como pontuais e dispersas e apenas sabe-se que existe perda comercial pela diferença entre a energia distribuída e a faturada, descontando-se as perdas técnicas.

Basicamente, as perdas comerciais são agrupadas nos seguintes segmentos, em relação à sua causa:

a) Causas internas às distribuidoras, como erros de procedimento, tanto de leitura, como de faturamento, de cadastramento de consumidores, de equipamentos obsoletos ou com fadigas.

b) Causas externas às distribuidoras, as quais estão relacionadas aos hábitos de classes de consumidores, como fraudes em equipamentos e ligações clandestinas feitas por clientes das distribuidoras, além de falta de informações necessárias no processo de ligação.

c) causas sociais e governamentais, como invasões e crescimento de áreas de baixa renda, como favelas.

Não é escopo deste trabalho detectar as áreas em que o fraudador não é cliente da empresa, isto é, quando ele não tem nem cadastro, nem medidor, como, por exemplo, as favelas e invasões. Nessas áreas, a fonte de perdas é facilmente detectável, mas a regularização já envolve questões sociais e legais.

Em relação às fraudes cometidas pelos clientes, elas não se limitam às ligações diretas na rede elétrica, pois os clientes estão utilizando artifícios mais difíceis de serem detectados, como alterações internas nos medidores de energia, para que registrem valores inferiores ao consumido. Como é característico em cenários de fraude, existe uma certa disputa entre empresas e fraudadores, com as empresas aprimorando seus métodos de detecção e os fraudadores desenvolvendo novos tipos de ações fraudulentas de difícil detecção.

Um outro caso que se insere na área de perdas comerciais é a utilização de medidores com defeitos ou com fadiga. Neste caso, o cliente não está fraudando. Porém, a empresa continua tendo perda de receita pelo uso de tais medidores. O medidor de energia elétrica não pertence ao cliente e, sim, à empresa de distribuição de energia elétrica. Assim, a empresa tem o cadastro de cada medidor em cada cliente. Mesmo assim, é difícil detectar os medidores com problemas, pois cada medidor (dependendo do seu fabricante, modelo e série) apresenta erros de medida diferentes em função do tempo de utilização, combinado com possíveis condições precárias onde ele possa estar instalado (como entrada de água, ação de insetos) e com efeitos advindos de sobre-tensão na rede.

As fraudes, juntamente com as ligações clandestinas, causam outras perdas às distribuidoras, além do faturamento. Como, na maioria das vezes, essas ligações são feitas precariamente, elas podem provocar curtos-circuitos, fazendo com que toda uma região fique sem energia elétrica, além do risco de incêndio e outros acidentes, podendo até envolver vítimas humanas. Outras vezes, um cliente (tipicamente industrial ou comercial) que necessitaria de uma tensão maior, frauda a companhia usando uma tensão não adequada ao seu consumo, aumentando, assim, a intensidade da corrente elétrica na rede e, conseqüentemente, as perdas técnicas. Ou seja, neste caso a perda comercial provoca um aumento na perda técnica.

Para combater as fraudes em distribuição de energia elétrica, as empresas atuam em duas frentes: estratégica e tática. O objetivo estratégico é evitar ocorrência de perdas comerciais e não em detectá-las depois que elas ocorreram. Para isto, idealizam e implementam políticas e ações específicas para diminuir a ocorrências de perdas comerciais, como:

2/12

Page 3: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

Trabalho conjunto com o poder público para regular o consumo de energia em favelas e áreas invadidas.

Ações de conscientização da população sobre os riscos de ligações clandestinas. Instalação de medidores nos postes, e não nas casas dos consumidores.

Todas essas ações têm um custo e vêm acompanhadas de um nível de retorno que pode ser estimado, de modo que elas devem ser priorizadas segundo a relação custo-benefício.

Já o objetivo tático é detectar os pontos de perdas comerciais, uma vez que o problema já ocorreu, e tomar ações corretivas e, no caso de fraudes, cobrar retroativamente a energia consumida e não paga. É nesta frente de atuação que esse trabalho se encaixa.

Porém, para detectar os locais onde ocorrem perdas comerciais, é necessário alocar equipes técnicas para realizar uma inspeção minuciosa, talvez envolvendo todos os clientes. O propósito é checar in loco se ele está fraudando ou se o medidor está com defeito, o que é impraticável devido à grande quantidade de clientes. Além do mais, no caso de fraude, um cliente pode remover a ligação clandestina ao perceber a proximidade de um fiscal. E nada impede que um cliente passe a fraudar a empresa logo após ele ter sido inspecionado.

Dado esse cenário, é observado que o problema de detecção de perdas comerciais é uma tarefa complexa, mas necessária, pois os valores financeiros envolvidos são altos. Entretanto, como os custos de cada inspeção são altos também, são necessários critérios para se selecionar os locais a serem inspecionados.

Assim, a proposta deste trabalho, que está sendo desenvolvido em conjunto com a concessionária de energia elétrica AES Eletropaulo, é propor a aplicação de ferramentas inteligentes de aprendizado de máquina para auxiliar na definição dos locais a serem inspecionados, objetivando maximizar o acerto nas inspeções. A situação ideal seria inspecionar apenas locais onde existe fraude e, na impossibilidade de inspecionar todos esses locais, inspecionar prioritariamente aqueles que fornecerem o maior retorno financeiro.

Outros trabalhos já utilizaram técnicas inteligentes para diminuir às perdas comerciais. Francisco et. (2006) utilizou dados técnicos e comerciais da AES Eletropaulo de forma integrada às informações externas (como censo demográfico) para segmentar os clientes. Já Jiang et al.e Cometti et al. trabalharam com as séries de consumo e atributos extraídos dessas séries em conjunto com diversos classificadores. Não foi possível comparar os resultados deste trabalho com os outros na mesma área porque o conjunto de dados utilizados em cada trabalho é diferente.

Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição de energia elétrica. A seção 3 e 4 descrevem, respectivamente, as técnicas de aprendizado de máquina utilizadas neste trabalho e as métricas utilizadas na comparação dessas técnicas. A seção 5 descreve as bases de dados utilizadas no trabalho. A seção 6 relata os testes realizados e os resultados alcançados. A seção 7 contém conclusões e trabalhos futuros. 2. Recuperação de Perdas Comerciais

A AES Eletropaulo tem um departamento dedicado exclusivamente a diminuir as perdas comerciais, possuindo uma equipe experiente e que procura constantemente contratar outras empresas e grupos de pesquisa para auxiliá-los. No entanto, como se trata de um problema altamente desafiador, acredita-se que haja espaço para novas conquistas nesta área com base no emprego de ferramentas computacionais avançadas, capazes de incorporar inteligência no processamento de informação.

A Figura 1 descreve, de maneira macro, o processo de detecção de perdas comerciais na AES Eletropaulo. Os locais a serem inspecionados não são escolhidos aleatoriamente e, sim, através de várias análises estatísticas na base de dados. Uma vez selecionados os locais, eles são encaminhados a equipes técnicas vão inspecioná-los. Existem quatro tipos de retorno da inspeção:

3/12

Page 4: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

Anomalia: medidor com defeito. Fraude: o cliente está fraudando a empresa. Normal: não existe problema. Não Inspecionado: não foi possível realizar a inspeção por diversos motivos, como endereço

não encontrado e local sem acesso. Dependendo do laudo (como exemplo, local sem acesso pela ausência de morador), o inspetor volta numa data futura para tentar inspecionar o local.

Além disso, o índice de acerto do lote de inspeções é monitorado constantemente e caso as primeiras inspeções do lote de inspeções não apresentarem resultados satisfatórios, as inspeções ainda pendentes são canceladas e um novo lote de inspeções é programado. Ou seja, o departamento está constantemente atento ao desempenho das inspeções.

Nos último 3 anos, foram realizadas mais de 1 milhão e 200 mil inspeções e a Figura 2 mostra como elas foram rotuladas segundo o código de retorno.

Pelos dados apresentados na Figura 2, nota-se que, mesmo com todo o esforço desprendido para que as inspeções sejam eficazes, o índice de acerto médio (somando anomalia e fraudes) nos últimos três anos é de 19,8%, o que impõe uma demanda por um conjunto mais eficaz de regras ou até outras estratégias para selecionar os clientes a serem inspecionados.

Trabalhos anteriores (Francisco et al., 2007), feitos com dados da própria AES Eletropaulo, indicam que a fraude está diretamente relacionada com a renda, os aspectos culturais e as condições sócio-econômicas da população, ou seja variáveis mutuamente relacionadas e geralmente associadas à localização geográfica.

Retorno da Inspeção

Seleção dos locais a serem inspecionados

Inspelo

A experiência dos programafraudar está muito relacionada cNo entanto, mesmo consideranddescobrir esses locais, como mo

O histograma apresentado navariação na taxa de acerto em fua qual apresentou que teve alto

Base de dados de clientes: - consumo mensal - classe (residencial, industrial,comercial, público)

Normal Reelaboração da lista caso o desempenho das inspeções esteja abaixo de um limiar Fraude

Anomalia

Não-inspecionado ção minuciosa nos cais previamente selecionados

Figura 1: Fluxo de dados para as inspeções.

dores de inspeção e o bom-senso também sugerem que a tendência em om a vizinhança, pois um vizinho induz o outro a cometer a fraude. o que essas premissas são válidas, ainda assim é uma tarefa árdua stra a Figura 3. Figura 3, cuja taxa de acerto é calculada pela Equação 1, mostra a nção da região e do período. Observa-se, por exemplo, que a região 6,

índice de acerto em 2005, teve um índice baixo em 2007.

4/12

Page 5: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

In s p e ç õ e s

0

2 0

4 0

6 0

8 0

2 0 0 5 2 0 0 6 2 0 0 7 a n o

%

F ra u d e (1 1 ,5 % )

A n o m a lia (8 ,3 % )

N ã o In s p e c io n a d o (1 3 ,9 % )

E m O rd e m (6 6 ,3 % )

'

Figura 2: Histograma dos códigos de retorno das inspeções realizadas entre 2005 e 2007. Ao lado

dos rótulos, consta a porcentagem média entre 2005 e 2007 para cada classe.

∑∑ ∑+=

inspeçõesanomaliasfraudesacertodetaxa __ (1)

Índice de Acerto das Inspeções

40.0 Região 1 30.0

% Região 2 20.0

Região 3 10.0 Região 4

0.0 Região 5 2005 2006 2007 Região 6

Ano

Figura 3: Índice anuais de acerto das inspeções por região.

É possível dividir as seis grandes regiões mostradas no gráfico acima em sub-regiões e fazer um

gráfico semelhante ao da Figura 3. Porém, ainda assim não foi possível determinar uma correlação entre as regiões e as fraudes somadas às anomalias.

Enfim, pode-se levantar um alto número de análises estatísticas tanto em relação às regiões geográficas quanto às classes do cliente (residencial, industrial, comercial, público) ou ao tipo de atividade. No entanto, mesmo assim não se caracteriza um padrão.

Uma explicação para isto é que o próprio trabalho de detecção de fraudes provoca a sua diminuição. Assim como uma pessoa fraudadora induz o seu vizinho a fazer o mesmo, quando alguma fraude é descoberta, os vizinhos também ficam sabendo e, muitas vezes, desistem de cometê-la. Seguindo este raciocínio, as inspeções também têm um papel estratégico de impedir a ocorrência de fraudes. No entanto, inspecionar custa caro. Portanto, é necessário saber onde inspecionar e qual a periodicidade mais indicada, visando manter baixo o índice de fraudes. 3. Aprendizado de Máquina

Aprendizado de máquina é uma área de pesquisa vinculada à Engenharia de Computação, cuja principal motivação, embora não seja a única, é a possibilidade de desenvolvimento de técnicas computacionais capazes de viabilizar a extração automática de conhecimento a partir de bases de

5/12

Page 6: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

dados. Enquanto os “algoritmos tradicionais” têm uma seqüência de passos pré-definidos, sendo que uma vez executada gera um conjunto de saída a partir de um conjunto de entrada, os algoritmos de aprendizado de máquina “aprendem” essa seqüência de passos a partir do próprio conjunto de dados de entrada, sem que haja intervenção direta de um ser humano.

O objetivo deste trabalho é utilizar técnicas de aprendizado de máquinas na seleção dos locais a serem inspecionados para aumentar a taxa de detecção de perdas comerciais.

Existem vários algoritmos e meta-heurísticas que são classificados como técnicas de aprendizado de máquina. Este leque de opções se sustenta pelo fato de que não é possível definir a priori qual vai ser o desempenho relativo de cada ferramenta de aprendizado de máquina, pois há dependência de peculiaridades de cada aplicação. Logo, o que se faz é executá-las, checar os seus resultados e compará-los. É justamente esta a proposta deste trabalho.

Juntamente com a escolha das técnicas de aprendizado de máquina, é importante a seleção dos dados de entrada, pois uma determinada técnica pode trabalhar melhor com uma base de dados e não com outra. Busca-se assim realizar um pré-processamento da base de dados visando obter o melhor desempenho possível junto às ferramentas de máquina a serem empregadas.

Foram selecionados quatro algoritmos aprendizado de máquina com abordagens distintas para desempenhar os testes: C4.5, Redes Neurais Artificiais (RNA’s), Naive Bayes e Support Vector Machine (SVM).

O C4.5 (Quinlan, 1986) é um dos algoritmo mais utilizados na indução de árvores de decisão. Ele é do tipo guloso (isto é, executa sempre o melhor passo avaliado localmente, sem se preocupar se este passo, junto à seqüência completa de passos, vai produzir a melhor solução ao final) e do tipo “dividir para conquistar” (partindo da raiz, criam-se sub-árvores até chegar nas folhas, o que implica em uma divisão hierárquica do problema de decisão original em múltiplos sub-problemas de decisão, os quais tendem a ser mais simples).

Já as Redes Neurais Artificiais são algoritmos inspirados no cérebro humano e, por conseguinte, possuem processamento e armazenamento distribuído e paralelo, além da capacidade de aprendizagem. As RNA’s são reconhecidamente competentes em tarefas de classificação, particularmente quando operam em espaços contínuos, porém, é possível utilizar também atributos discretos, como os disponíveis nas bases de dados utilizadas neste trabalho (Von Zuben).

“Support Vector Machine” (SVM) é uma técnica de aprendizado de máquina fundamentada na teoria de aprendizado estatístico e que vem sendo desenvolvida ao longo das últimas três décadas (Vapnik et al., 1974; Vapnik, 1982; Vapnik, 1995). O uso de SVM como classificador consiste em aplicar um operador não-linear no espaço de entrada, cujos dados não são separados linearmente, para mapeá-los para um espaço de dimensão maior, onde seja possível separá-los por hiperplanos lineares. O hiperplano ótimo é aquele que maximiza a margem entre as duas classes e tende a ser aquele que melhor generaliza quando se retorna o mapeamento para o espaço original dos dados. Os vetores-suporte são as amostras que estão mais próximas do hiperplano e, assim, definem completamente o seu equacionamento. A complexidade do mapeamento depende do número de vetores-suporte e não da dimensão do espaço de entrada. Além disso, encontrar o hiperplano ótimo envolve um problema de otimização convexa, com solução única. Um dos desafios no uso de SVM é a definição da função de kernel que será usada na definição do operador não-linear que faz o mapeamento para o espaço de maior dimensão, também denominado espaço de características (Lima).

“Naive Bayesian Classifier” (Duda et al.) baseia-se no Teorema de Bayes, o qual expressa uma probabilidade condicional em termos de outras probabilidades condicionais e marginais (Bussab et al.). Esse classificador é chamado de naive (ou ingênuo, em português) porque ele supõe que os atributos são independentes.

6/12

Page 7: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

4. Métricas Uma métrica muito utilizada é a taxa de acerto, apresentada na Equação 2, a qual divide a

quantidade de acerto (QtdAcerto) pela quantidade total de inspeções (QtdTotal). No entanto, quando as classes de saída são desbalanceadas, como ocorre no caso dos códigos de retorno extraídos das inspeções da AES Eletropaulo (ver Figura 2), existem métricas mais apropriadas.

QtdTotalQtdAcertotxacerto = (2)

O problema de usar a Equação 2 em dados desbalanceados é que ao se classificar todos os dados como sendo da classe dominante, obtém-se um alto índice de acerto.

Não é interessante, de modo que novas métricas foram definidas para poder medir o desempenho dos classificadores no caso de classes desbalanceadas. Logo, para avaliar o desempenho dos classificadores, foram utilizadas métricas derivadas da matriz de confusão da Tabela 1.

A matriz de confusão abaixo exibe duas classes, n (Normal) e f (Fraude), a quantidade de consumidores normais classificados corretamente como normais ( ) e como fraudulentos ( Q ),

e a quantidade de consumidores fraudulentos classificados como normais ( Q ) e como fraudulentos ( ).

nnQ → fn→

nf →

ffQ →

Então, a taxa de acertoEquação 3:

As novas métricas utilizconfiabilidade.

A especificidade é a raztotal de fraudadores existent

Já a confiabilidade é a rtotal de casos classificados c

A especificidade propopercentual do conjunto de

Tabela 1: Definição da matriz de confusão

nfQ → ffQ →

nnQ → fnQ →

Classe Predita Matriz de Confusão

n f

n Classe

Real f

a partir da composição da matriz de confusão é calculada conforme a

nffffnnn

ffnnacerto QQQQ

QQtx

→→→→

→→

+++

+= )

adas quando se trabalha com classes desbalanceadas são: especifi

ão entre o número de fraudadores corretamente classificados e oes, segundo a Equação 4:

nfff

ff

QQQ

dadeespecifici→→

+=

azão entre o número de suspeitos corretamente classificados e oomo suspeitos, segundo a Equação 5:

fnff

ff

QQQ

dadeconfiabili→→

+=

rciona uma noção da cobertura do sistema de classificação, ifraudadores que o sistema está conseguindo identificar. Por su

7/12

(3

cidade e

número

)

(4

número

)

(5

sto é, o a vez, a

Page 8: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

confiabilidade proporciona uma noção de precisão das inspeções, ou seja, o percentual de sucessos na identificação de reais fraudadores no total de inspeções recomendadas. 5. Base de Dados

Este trabalho utilizou três conjuntos de dados de entrada: a) Séries de Consumo É uma série temporal composta pela quantidade de energia elétrica em kW-h consumida pelos

clientes nos últimos 5 anos.

b) Atributos Extraídos das Séries de Consumo A extração de atributos envolve a geração de novos atributos a partir dos dados, que neste trabalho

são as séries de consumo. O objetivo é propor atributos mais informativos do que os originais. Para este trabalho, novos atributos foram extraídos do regime das séries de consumo, conforme

mostrado na Figura 4. As mudanças de regime são automaticamente detectadas, levando-se em conta limiares de transição associados a níveis de consumo.

Figura 4: Gráfico exemplificando série de consumo, regime e média da séries e os valores dos

17 atributos extraídos.

0 5 10 15 20 250

100

200

300

400

500

600

700

800

5 65 59 41 3 1 22 56 22 1 4 2 1 2 1 4 0

cons

umo

media serieserieregimes

Uma vez definidos os instantes de mudança de regime, foram extraídos 17 novos atributos: número

de regimes; desvio padrão dividido pela média; porcentagens de quedas e aumentos relativos de cada regime; número de quedas e aumentos; porcentagem do tempo no regime inicial, nas quedas e nos aumentos; presença de zeros e números de zeros; número de regimes na faixa da média, abaixo da faixa da média e acima da faixa da média; e número de regimes na faixa, abaixo e acima da faixa do regime inicial.

c) Atributos Específicos: Foram dez os atributos utilizados para determinar o perfil de cada consumidor:

1) Local: os clientes foram agrupados em 85 regiões geográficas 2) Situação: consumidor ligado com medidor, ligado sem medidor, desligado com medidor,

desligado sem medidor, excluído do cadastro.

8/12

Page 9: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

3) Tipo de Ligação: definitiva com medição, definitiva sem medição, provisória com medição, provisória sem medição.

4) Irregularidade de leitura: possui 99 códigos. Exemplos: mudança do nome ou número do logradouro, insetos dentro ou envolvendo o medidor.

5) Consumo Irregular: atributo binário que indica se o consumidor tem ou não histórico de fraude.

6) Religamentos: indica se o consumidor já se auto-religou após ter sua ligação cortada pela companhia.

7) Faturamento: monofásico, bifásico ou trifásico. 8) Quantidade de carga declarada: carga que o cliente indica no momento da ligação, a qual

está relacionada com a quantidade de aparelhos ou máquinas que ele possui. 9) Média diária de consumo em kW-h. 10) Valor da última leitura em kW-h

6. Testes de Desempenho

6.1 Especificação dos Testes

Na fase de treinamento dos algoritmos foram utilizados os dados referentes às inspeções de julho de 2006 a dezembro de 2006 e na fase de validação foram utilizados os dados referentes às inspeções de janeiro de 2007 a outubro de 2007. Tanto durante o treinamento como na validação foram considerados apenas os dados referentes às inspeções residenciais e com código de retorno Fraude ou Normal.

Os conjuntos de entrada que foram utilizados são: séries de consumo de energia elétrica; novos atributos extraídos das séries de consumo; atributos específicos; os três conjuntos anteriores simultaneamente.

A Tabela 2 mostra a quantidade de inspeções separadas em função dos seus rótulos para cada

período.

Tabela 2: Quantidade de inspeções utilizadas nos testes Qtd

Inspeçõesjul-dez 2006

jan - out 2007

Normal 125.224 126.172Fraudes 16.565 20.344Total 141.789 146.516

6.2 Resultados dos Testes

A Tabela 3 mostra os resultados dos testes. Nas linhas, estão os valores em função do algoritmo e, nas colunas, em função do tipo de entrada.

Existem duas maneiras equivalentes de ler a tabela. Baseando-se nos índices de especificidade e confiabilidade ou com as quantidades de inspeções geradas (Qtd Insp Gerada) e fraudes detectadas (Fraude Detectada).

Observe que a especificidade é (Qtd Insp Gerada) / 20.344 (que é o número total de fraudes existentes) e confiabilidade é (Fraude Detectada) / (Qtd Insp Gerada). Assim, o que se deseja é que (Qtd Insp Gerada) seja igual a 20.344, (Qtd Insp Gerada) = (Fraude Detectada) e, por conseqüência, busca-se especificidade e confiabilidade iguais a 100%.

9/12

Page 10: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

Para a comparação dos algoritmos foi usado o princípio de dominância de Pareto, pois envolve duas medidas diferentes: especificidade e confiabilidade. Pelo princípio de Pareto (Steuer, 1986), um algoritmo domina o outro se o algoritmo dominante produz resultados que têm ao menos um índice superior e nenhum inferior aos índices associados aos resultados do outro algoritmo. Ou seja, o algoritmo dominante tem que produzir resultados com especificidade (ou confiabilidade) superior ao do outro algoritmo e a confiabilidade (ou a especificidade) não inferior. Sob essas circustâncias, o outro algoritmo é dito ser dominado. O algoritmo não-dominado é aquele que não é dominado por nenhum outro algoritmo. Porém, ele não é necessariamente um algoritmo dominante.

Analisando a tabela verticalmente, ou seja, para um mesmo conjunto de entrada, é possível detectar qual ou quais os algoritmos que apresentaram os melhores resultados em função do conjunto de entrada. Para a série de consumo, os algoritmos que apresentaram os melhores resultados são Naive Bayes e C4.5, pois, pelo princípio de Pareto, tanto a especificidade como a confiabilidade de ambos são maiores que a especificidade e confiabilidade da RNA e do SVM. No entanto, o Naive Bayes não domina o C4.5 porque a confiabilidade do C4.5 é maior do que a confiabilidade do Naive Bayes e o C4.5 também não domina o Naive Bayes porque a especificidade do Naive Bayes é maior do que a do C4.5.

Em relação ao conjunto de atributos extraídos das séries de consumo, não houve um algoritmo que dominou os demais.

Analisando o conjunto de atributos específicos, observa-se na tabela 3 que o C4.5 domina os algoritmos Naive Bayes e SVM, porém ele não domina a RNA, que por sua vez também não domina o C4.5, pois a RNA tem a especificidade mais alta enquanto o C4.5 tem a confiabilidade mais alta. Ou seja, neste caso há dois algoritmos não-dominados: C4.5 e RNA.

Quando se analisa a entrada formada pelos 3 conjuntos, tem-se que os algoritmos não-dominantes são C4.5 (o qual tem a confiabilidade e a especificidade superiores do que a RNA e o SVM) e o Naive Bayes que tem maior especificidade do que o C4.5, porém, menor confiabilidade.

Para determinar quais soluções (algoritmo mais o conjunto de entrada) que apresentaram os melhores desempenhos (dominante global), deve-se comparar apenas os valores em negrito da tabela (os não-dominados locais). Assim, a utilização do conjunto de atributos específicos como entrada junto com a RNA e junto com o C4.5 são as soluções não-dominadas globais.

Portanto, o melhor conjunto de entrada em relação aos dados do problema é o de atributos específicos, pois é com esse conjunto que se conseguiu os melhores resultados. Além disso, utilizando os dados do C4.5 relativo ao conjunto de atributos específicos, temos que a especificidade (56,0%) e a confiabilidade (75,8%) são bem superiores do que os respectivos índices dos conjuntos série de consumo e atributos extraídos da série de consumo.

Em relação à ferramenta de classificação, a melhor é o C4.5, pois ele é o único em que todas as soluções locais são não-dominadas, além de ter uma solução não-dominada global.

O Naive Bayes é a ferramenta mais simples utilizada nos testes. Assim, pode parecer estranho ele não ser dominado em 75% dos testes. Porém, o que ocorreu é que ele não foi dominado porque sua especificidade foi sempre muito alta. No entanto, a sua confiabilidade é baixa, ao redor de 21% para os casos em que ele não foi dominado, porém mais alta que a confiabilidade do processo vigente na AES Eletropaulo

Em relação ao SVM, é necessário especificar melhor seus parâmetros para se conhecer a sua potencialidade. Logo, mais testes são necessários e não se pode descartá-lo. A RNA teve uma solução não-dominada global porque a sua especificidade é muito alta para o conjunto de atributos específicos, com uma confiabilidade (28,6%) não tão alta.

Assim, baseando-se nos resultados dos testes, conclui-se que todas as ferramentas são relevantes e apresentam resultados complementares. Logo, não devem ser descartadas nos futuros testes.

10/12

Page 11: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

Tabela 3: Métricas dos testes feitos variando tanto algoritmo como as entradas. Em negrito, os algoritmos não-dominados em relação ao conjunto de entrada. Em itálico, os algoritmos e conjuntos de

entrada que apresentam os melhores desempenhos.

Conjunto de EntradaAlgoritmo Índices

Série de Consumo

Novos Atributos

Atributos Específicos

3 Conjuntos

Qtd Insp Gerada 1.914 2.983 52.916 20.112 Fraude Detectada 342 1.487 15.112 9.369 Especificidade 1,7 7,3 * 74,3 46,1

RNA Confiabilidade 17,9 49,8 * 28,6 46,6 Qtd Insp Gerada 46.649 75.909 36.718 51.282 Fraude Detectada 10.009 12.558 10.629 11.127 Especificidade 49,2 61,7 52,2 54,7

Naive Bayes Confiabilidade 21,5 16,5 28,9 21,7 Qtd Insp Gerada 12.657 20.512 11.310 13.711 Fraude Detectada 2.387 6.681 5.284 6.078 Especificidade 11,7 32,8 26 29,9

SVM Confiabilidade 18,9 32,6 46,7 44,3 Qtd Insp Gerada 8.216 6.501 15.031 12.891 Fraude Detectada 2.756 2.681 11.397 9.792 Especificidade 13,5 13,2 * 56 48,1

C4.5 Confiabilidade 33,5 41,2 * 75,8 76

7. Conclusões e Trabalhos Futuros Este trabalho utilizou dois diferentes tipos de dados reais da AES Eletropaulo, séries temporais de

consumo elétrico e atributos específicos de cada cliente, como localização e tipo de atividade. A partir deles, foram gerados quatro conjuntos de dados de entrada:

séries temporais de consumo elétrico; novos atributos extraídos dessas séries temporais; seleção de atributos, misturando tanto dados de séries de consumo, como características e

atributos específicos de cada cliente; combinação dos três conjuntos anteriores.

Esses quatro conjuntos foram testados com quatro ferramentas de classificação de naturezas distintas (C4.5, SVM, RNA e Classificador Naive Bayes) com o objetivo de determinar qual ou quais destas combinações produziriam o melhor desempenho.

A conclusão a que se chegou é que o conjunto de atributos específicos juntamente com o C4.5 conseguiram o melhor desempenho. No entanto, dependendo dos requisitos, as outras ferramentas também pode ser úteis.

O próximo passo é validar esses resultados em campo. No entanto, não se pode afirmar se será possível conseguir bons resultados, pois, embora se tenha utilizado toda a base de dados real da AES Eletropaulo, essas inspeções têm um viés, pois foram selecionadas de acordo com vários critérios com objetivo de inspecionar os locais mais promissores. Assim sendo, não se sabe se as regras determinadas pelas amostras são válidas para todo o conjunto.

Acredita-se que não seja possível aplicar os resultados obtidos em toda a base de consumidores da AES Eletropaulo, justamente devido ao viés da base de dados. Diante disso, pretende-se utilizar técnicas de agrupamento para detectar quais os subconjuntos de consumidores que conduzem a bons resultados quando da aplicação da metodologia.

11/12

Page 12: Olinda - Pernambuco - Brasil · Este artigo é organizado da seguinte forma: a seção 2 aborda o processo de recuperação de perdas comerciais vigente em concessionárias de distribuição

12/12

Um outro ponto é que o número de inspeções selecionadas cai com o aumento da confiabilidade. Assim, é necessário saber se o número de inspeções que serão filtradas atenderá as necessidades da AES Eletropaulo.

Também como trabalho futuro, novos tipos de dados deverão ser inseridos nos modelos (como dados geo-referenciáveis, dados censitários do IBGE e dados técnicos relativos à manutenção dos medidores) com o intuito de melhorar a classificação, principalmente de anomalias. 8. Agradecimentos

Os autores agradecem a AES Eletropaulo pelo apoio financeiro e técnico e a ANEEL pelo incentivo à pesquisa brasileira.

9. Referências bibliográficas e/ou bibliografia Bussab, W., Morettin, P. A. Estatística Básica, Atual Editora Ltda., 4ª. edição, 1987. Cometti, E.S. & Varejão, F.M., Melhoramentos da Identificação de Perdas Comerciais Através da Análise Computacional Inteligente do Perfil de Consumo e dos Dados Cadastrais de Consumidores. Relatório final do projeto de P&D, ciclos 2003/2004, ESCELSA/ANEEL, 2005. Duda, R. & Hart, P. Pattern Classification and Scene Analysis, New York, NY Wiley, 1973. Francisco, E. R., Relação entre o Consumo de Energia Elétrica, a Renda e a Caracterização Econômica de Famílias de Baixa Renda do Município de São Paulo, dissertação (mestrado) - Escola de Administração de Empresas de São Paulo. Orientador: Prof. Dr. Francisco Aranha, 2006. Francisco, E.R., Petrielli A. & Reina, C.S., Segmentação Comportamental de Clientes para o Setor Elétrico. In: CATI 2006 - Congresso Anual de Tecnologia de Informação, São Paulo, 2006. Francisco, E.R. & Fagundes, B.E. Geostatiscal Study For Fraud and Energy Losses. Proceedings of ESRI International User Conference, em San Diego, Califórnia (Estados Unidos), 18-22/junho/2007. Jiang R.. Tagaris H., Lachsz Andrei & Jeffrey M., Wavelet Based Feature Extraction and Multiple Classifiers for Electricity Fraud Detection.0-7803-7525-4/02 2002 IEEE. Lima, C.A.M. Comitê de Máquinas: Uma Abordagem Unificada Empregando Máquinas de Vetores-Suporte. Tese (Doutorado em Engenharia Elétrica) - Universidade Estadual de Campinas. Orientador: Prof. Dr. Fernando José Von Zuben, 2004. Quinlan , J. R., Induction of Decision Trees, Machine Learning, 1986. Steuer, R. E. Multiple Criteria Optimization: Theory, Computation and Application, ISBN 0-471-88846-X, 1986. Vapnik, V.N. & Chervonenkis, A.Y. Theory of Pattern Recognition. Nauka, Moskow, Russian, 1974. Vapnik, V. N. “Estimation of Dependences Based on Empirical Data”. Springer-Verlag, Berlim, 1982. Vapnik V.N. The Nature of Statistical Learning Theory, Springer-Verlag, 1995. Von Zuben, F.J. Modelos Paramétricos e Não-paramétricos de Redes Neurais Artificiais e Aplicações, Tese de Doutorado, Faculdade de Engenharia Elétrica, Unicamp. Orientador: Márcio Luiz de Andrade Netto, 1996.