Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

11
Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil Francisco Daniel de Oliveira Costa Ana Carolina Greef Denise Fukumi Tsunoda, Profa. Dra. Universidade Federal do Paraná Programa de Pós-Graduação em Ciência, Gestão e Tecnologia da Informação Curitiba/PR [email protected] 1

description

Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil. Francisco Daniel de Oliveira Costa Ana Carolina Greef Denise Fukumi Tsunoda , Profa. Dra. Universidade Federal do Paraná Programa de Pós-Graduação em Ciência, Gestão e Tecnologia da Informação - PowerPoint PPT Presentation

Transcript of Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

Page 1: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

Mineração de dados sobre pesquisa de hábitos de consumo de energia

no sul do BrasilFrancisco Daniel de Oliveira CostaAna Carolina GreefDenise Fukumi Tsunoda, Profa. Dra.

Universidade Federal do ParanáPrograma de Pós-Graduação em Ciência, Gestão e Tecnologia da InformaçãoCuritiba/PR [email protected]

1

Page 2: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

SUMÁRIO

Introdução; Algoritmo Apriori para mineração de dados; Processo de Descoberta de Conhecimento em Bases de

Dados; Aplicação do KDD; Considerações finais; Referências.

2

Page 3: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

INTRODUÇÃO

Pesquisa experimental; Artigo sobre dados do Programa Nacional de Conservação de Energia

Elétrica (Procel) - de 1985 - subordinado à Eletrobrás - controlada pelo Ministério de Minas e Energia, do Brasil; Promover a racionalização da produção e do consumo de energia elétrica;

Base de dados nacional, relativa a questionário sobre posse de eletrodomésticos e hábitos de consumo de energia, em 2005; Dados selecionados da Região Sul – estudo “piloto”; Dados de 2010 ainda não publicados;

Algoritmo Apriori – ausência de atributo meta, descoberta de regras embutidas nos dados cuja noção prévia seria inviável.

3

Page 4: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

APRIORI

Regra de associação formato X→Y .

Correspondência a um suporte (X U Y): ocorrências individuais e conjuntas de cada valor de cada atributo;

Correspondência e a uma confiança (X →Y): número de registros que contemplam todos os componentes de uma regra, sobre os registros que contemplam o antecedente.

4

Page 5: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

KNOWLEDGE DISCOVERY IN DATABASE (KDD)

Processo de Descoberta de Conhecimento em Bases de Dados (KDD): seleção dos dados a serem minerados; limpeza dos mesmos para eliminação de ruídos, dados irrelevantes e

duplicidades; integração com outras bases de dados, com objetivo de agregar

abrangência e confiabilidade ao resultado esperado; transformação de valores, por exemplo, em categorias; mineração dos dados, para aplicação de algoritmos de associação,

clusterização ou classificação; Interpretação. (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

5

Page 6: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

KDD SOBRE DADOS DO PROCEL – REGIÃO SUL DO BRASIL (1/4)

Estudo estruturado com a base de dados e o questionário utilizado para obtenção desses: 102 questões relativas a: perfil socioeconômico; posse de

eletrodomésticos; valores e períodos de consumo; atitudes para economia de energia e relacionamento do cliente com a respectiva concessionária;

questões discursivas, objetivas, de atribuição de nota, de ordenação de prioridades e tabelas;

ausência de padronização no instrumento de coleta, realizada manualmente.

6

Page 7: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

KDD SOBRE DADOS DO PROCEL – REGIÃO SUL DO BRASIL (2/4)

SELEÇÃO• Programa Nacional de

Conservação de Energia Elétrica (Procel).

LIMPEZA• Por exemplo “código da

residência”, “ação para redução de consumo: geladeira, ar condicionado, freezer, chuveiro, lava roupas, stand by, microondas, lâmpadas, outro.”;

• Limpeza devido à não pertinência ou à desestruturação dos dados.

PRÉ-PROCESSAMENTO / TRANSFORMAÇÃO• Por exemplo “Tempo de

moradia em anos” e “Tempo de moradia em meses” – convertidas em meses;

• Manutenção de valores “99” – “Não sabe ou Não respondeu”, e “888” – “Vazio”;

MINERAÇÃO• WEKA 3.6.4;• Suporte mínimo 0,8

(80%);• Confiança mínima 1

(100%);

• 1754 regras:• 19 dos 72 atributos da

base.

7

Page 8: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

RESULTADOS 952 ocorrências: “Se não houve Desligamento / Queima de disjuntor, e não houve

Choque elétrico em eletrodomésticos nos últimos 3 meses, na residência, então não houve Aquecimento de parede no mesmo período” (Resultado do software: 1. tresDoisB=2 tresDoisD=2 952 ==> tresDoisE=2 952 conf:(1)).

Das 1754 regras, 1626 tiveram “Não ocorrência de Aquecimento de parede nos últimos 3 meses” como consequente;

837 ocorrências na base: “Se os vidros da residência não são coloridos ou têm película, Não houve desligamento / Queima de disjuntor, queda de tensão, tampouco aquecimento da parede nos últimos 3 meses, então Não houve Choque elétrico em eletrodomésticos nos últimos 3 meses, na residência” (Resultado do software: 1282. doisQuatroI=2 doisOito=1 tresDoisB=2 tresDoisC=2 tresDoisE=2 cinco=1 809 ==> tresDoisD=2 809 conf:(1)).

8

KDD SOBRE DADOS DO PROCEL – REGIÃO SUL DO BRASIL (3/4)

Page 9: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

Interpretação: Somente perfis de consumidores, e não de consumo de energia; Atributos relevantes para ações de distribuição de energia,

conscientização sobre consumo sustentável e adequação de serviços foram ignorados pela ferramenta;

Devido ao processo de pesquisa? Devido ao instrumento de pesquisa desestruturado e à forma manual de

coleta e tabulação? Devido à baixa representatividade dos dados existentes?

Defasagem dos resultados devido ao período em que a pesquisa foi realizada e em que os dados foram distribuídos.

9

KDD SOBRE DADOS DO PROCEL – REGIÃO SUL DO BRASIL (4/4)

Page 10: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

CONSIDERAÇÕES FINAIS

Processo decisório estruturado = organização de dados que o fundamentam;

O formato de condução da pesquisa dificulta a melhoria contínua do processo decisório no que tange ao Procel (Zhang; Zhou, 2004); falhas incorrem em tratamento e interpretação custosos e incertos; o não uso de tecnologias para constituição da base de dados em si,

compromete sua credibilidade.

Sugestão de aplicação das etapas do KDD aos dados das demais regiões do Brasil, na mesma base, e a atualização das regras com dados de 2010 – quando disponíveis.

10

Page 11: Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil

REFERÊNCIAS

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. American Association for Artificial Intelligence, 1996. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf>. Acesso em: 29 mai. 2011.

PROGRAMA NACIONAL DE CONSERVAÇÃO DE ENERGIA ELÉTRICA – Procel. Disponível em: <http://www.eletrobras.com/elb/procel/>. Acesso em: 29 mai. 2011.

ZHANG, D.; ZHOU, L.. Discovering golden nuggets: data mining in financial application, IEEE transactions on systems, man, and cybernetics—part c: applications and reviews, v. 34, n. 4, nov. 2004. Disponível em: <http://suraj.lums.edu.pk/~cs631s05/Papers/financial.pdf>. Acesso em: 31 mai. 2011.

11