Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação...

30
Grupo Multidisciplinar de Modelación de Fluidos Análise de dados inteligente como uma ferramenta na gerência integrada da água Joaquín Izquierdo UNIVERSIDAD POLITÉCNICA DE VALENCIA VI Seminário Ibero-americano SEREA João Pessoa 2006

Transcript of Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação...

Page 1: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Grupo Multidisciplinar de Modelación de Fluidos

Análise de dados inteligente como uma ferramenta na gerência integrada da água

Joaquín Izquierdo

UNIVERSIDAD POLITÉCNICA DE VALENCIA

VI Seminário Ibero-americano SEREA

João Pessoa 2006

Page 2: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

INDICE

• Motivação: quantidades enormes de dados

• Modelação baseada em dados

• O processo KDD – Data Mining (DM)

– descoberta de conhecimento das BD

– Técnicas DM

• Introdução: dimensão multidisciplinar da água

• Exemplos

Page 3: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

INTRODUÇAO: multidisciplinaridade

• Engenheiro: conhecedor vs consumidor de conhecimento

• Ferramenta: computador vs processador de conhecimento

• Água: um problema sócio-tecnológico• Gerência do conhecimento• Integração de técnicas múltiplas• Encapsulação de conhecimento• AID como a ferramenta de integração

• IWM cobre uma ampla variedade de aspectos

• Divórcio entre • Desenvolvimento matemático e científico • Aplicações sociais

Page 4: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

MOTIVAÇÃO: quantidades enormes de dados

• Exemplo: WDF e parâmetros que devem ser medidos - aproximação pragmática

• É o mesmo para muitas companhias, indústrias e equipes de pesquisa

• Usando toda a informação• usos básicos• é tudo que pode ser feito?• conhecimento escondido nos dados• extração de conhecimento

• A era da informação: manipulação de dados contra a extração de conhecimento

Page 5: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

O paradigma do conhecimento baseado em dados

• Interesse para a extração semi-automática de conhecimento

• Dados no formato digital

• E onde matemática e estatística?

• Técnicas de calibração e validação: paradigma clássico baseado em dados

• A tomada de decisão necessita outros modelos baseados em dados e em habilidades específicas

• KDD: ‘O processo não trivial de identificar padrões válidos, novos, úteis e compreensíveis baseados em dados’ (Fayyad, 1996).

• Modelação híbrida!!

Page 6: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

O processo KDD

• DM não é lavagem hidráulica

• mas minando com prospecção inteligente

• Uma vez que os dados foram recolhidos tem-se que decidir o tipo de padrão de interesse. O objetivo do conhecimento condiciona a técnica DM para usar-se.

• A maioria dos sistemas permitem que o usuário selecione a técnica contanto que o usuário forneça o tipo de padrão procurado

Sistema deinformação Conhecimento

Pre-Processo

Post-Processo

DataMining

Page 7: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Padrões mais comuns• Associação: dois atributos aparecem simultaneamente com

freqüência relativamente alta• Dependência: o valor absoluto ou relativo de um atributo é

determinado pelos valores de outros atributos. Às vezes, as dependências são tão óbvias que não são interessantes.

• Classificação: jogo das dependências permitindo que determinadas réguas atribuam a um parâmetro dependente um valor ou uma categoria entre diversas possibilidades.

• Clustering: identificação de grupos de indivíduos. Na classificação as categorias são previamente conhecidas . No clustering os grupos devem ser identificados. Assim, a classificação é um processo supervisionado mas clustering é no supervisionado.

• Tendências: permitem a predição do valor de uma variável contínua dependente, geralmente, do tempo.

• Réguas gerais: outros tipos de padrões mais gerais.

Page 8: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Técnicas. Não simbólicas.

• Técnicas Estatísticas: Confirmam a associação e a dependência. Regressão linear e não linear e redes de regressão.

• Métodos de vizinhança e seus variantes com aprendizagem por meio de exemplos. Classificação e clustering. Usam distâncias e similaridades a um protótipo ou a outros membros do grupo.

• Redes neurôniais artificiais, lógica fuzzy, algoritmos genéticos, árvores de regressão, teoria do caos, etc. e suas combinações. São técnicas populares, e já tradicionais, para a aprendizagem automática com aplicações importantes na classificação e no clustering. Discute-se razoavelmente que mesmo que permitam modelar determinados fenômenos com precisão não fornecem compreensão ao modelo. Não obstante, algumas de suas combinações permitem a extração das réguas, que são mais fáceis de compreender.

Page 9: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Técnicas. Simbólicas.• Árvores de decisão. Classificação e clustering

através de um teste de cascata que gera uma estrutura hierárquica nas quais cada nó interno contem um teste em um atributo, cada filial corresponde a um resultado do teste e cada folha dá uma predição para o valor da classe.

• Programação indutiva e outras técnicas de indução simbólica. Para obter testes padrões mais gerais. A chamada programação lógica dá aproximações interessantes e simples nos termos de réguas de indução. Um jogo de réguas ordenado é uma lista de decisão. As réguas na lista são consideradas em ordem descendente.

Page 10: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Redes neurais artificiais

(RNAs)• Modelos inspirados na estrutura nervosa

sinapsis núcleo

dendritas

corpo celular

axón

Σ

x1(t)

x2(t)

x3(t)

xn(t)…

w1

w2

w3

wn

a(t)

y y=f(a)

w0

o(t+1)a

=+ ∑

=

n

iii txwfto

1

)()1( ≥w0 (ativa)<w0 (inativa)

função de ativação

Page 11: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

RNNs: Desempenho e aprendizagem

• O desempenho da rede depende dos pesos• Aprendizagem baseada na modificação dos pesos• Conceitos básicos

– Memória armazenada em sinapses ajustáveis– Os neurônios associaram em configurações grandes

• Algoritmos: modificação dos pesos baseada em amostras apropriadas de dados corretos

• Aprendizagem como na biologia!– Dados de treinamento etiquetados ou não: tipo de

aprendizagem: • Supervisionado: a resposta correta é conhecida (MLP) • Não Superv : a rede aprende relações, similitude,…(SOM)• Misturado (RBF, LVQ)

Page 12: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

RNNs Multilayer feedforward

x1

x2

x3

xn

o1

o2

op

n valoresde input

p valoresde output

H unidadesescondidas

• Descrição: unidades distribuídas em camadas–Input (pré-processo), escondida (discriminação), output (resposta)

• Fase de aprendizagem –a saída comparada com a resposta correta produz o erro–a minimização do erro força o ajuste dos pesos (BP)

• Generaliza dados não conhecidos quando treinada por BP• Função de transferência (aproximador universal)

MLP

Page 13: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

RNAs: características

• Modelos que são inspirados na estrutura do cérebro– executam computação complexa, não explícita– aprendem tarefas em uma maneira gradual– processam no paralelo– são flexíveis e independentes da tarefa– têm uma velocidade grande de computação– natureza robusta (tolerante às falhas) frente à degradação– respondem bem aos sinais contaminados pelo ruído

• As RNAs são uma família de modelos– usam dados de treinamento descobrir por se padrões

típicos, regularidades, clusters e outras relações– caixa preta; falta de interpretabilidade!!!

Page 14: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

RNAs: algumas aplicações

• Monitoração e proteção ambiental (EPA 2000)– Classificação e diagnóstico da qualidade da água: Walley 2000,

Lingireddy 2005, Rowland 2004;...

• Predição e análise de séries temporais (redes dinâmicas)– predição do runoff: Anctil 2004– predição da vazão nos rios para o gerenciamento dos reservatórios:

Barati 2003, Kumar 2004– predição de valores futuros de dados ambientais para o gerenciamento

dos recursos: Panella 2003

• Abastecimento de água e saneamento– calibração ótima: Lingireddy 2005– monitoração, controle,... en SDAs: Baxter 2004, Izquierdo 2006,…– controle ótimo de bombeamento: Lingireddy 2005– dimensões de dispositivos de proteção de transitórios: Izquierdo 2006– qualidade de água: Millet 2002, Lingireddy 2005– Saneamento: El-Din 2004; Vojinovic 2003, Lingireddy 2005

Page 15: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Lógica Fuzzy. Motivação

• Dados exatos e precisos?– medidas médias (intervalo)– incerteza vs probabilidade (Zadeh 1995)– Lógica fuzzy (Lofti Zadeh, 1965)

• A lógica fuzzy possibilita tratar a incerteza em uma maneira intuitiva e natural– usa a ambigüidade da língua e o estilo humano de

raciocinar para resolver problemas– É uma extensão da teoria clássica dos conjuntos– Precisão vs significado

Page 16: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Precisão

Uma massa 1500kg está aproximando sua cabeça em 45.3m/seg

Page 17: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Significado

você sai de lá!

Page 18: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Lógica Fuzzy. Características

• Permite a granulação dos problemas– para decidir o nível de solução para um problema– para omitir ou mostrar a informação

apropriadamente

• Resolve problemas I/O apropriadamente– caixa preta??? Não!

• Baseada no sentido comum• Com opinião de peritos

– “Em quase todos os casos um produto pode ser construído sem lógica fuzzy, mas é mais fácil e mais barato com ela” (Lofti Zadeh)

Page 19: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Exemplo de inferência fuzzy

• SE a idade É baixa E o poder do carro É elevado o risco É elevado• SE a idade É média E o poder do carro É médio o risco É médio

0

1

0

1

0

1

0

1

0

1 highyoung

middle

high

medium

0

1 medium

0

1µrisk

age

age

power

power

fuzzyAND

fuzzyAND

a b

y

risk

risk

risk

Defuzzyfication

Page 20: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Lógica fuzzy. Aplicações hidráulicas e ambientais

• Modelos de deterioração para as tubulações enterradas: Kleiner 2004

• Monitoramento de SDAs: Izquierdo 2004, 2005, 2006

• Predição a curto prazo (situações com dados escassos em que a predição é baseada somente em circunstâncias rio acima): Bazartseeren 2003

• Predição e séries temporais: Juang 2003

• Agregação da informação em um modelo de consumo de água dependendo da informação disponível: Edwards 2005

• Gerenciamento, a longo prazo, dos sistemas de armazenamento /transporte/ distribuição de recursos de água: Faye 2003

• Reabilitação e renovação das tubulações: Sadiq 2004

Page 21: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

ALGORITMOS GENÉTICOS

• Os métodos modernos de aprendizagem automática e análise de dados dependem de técnicas sofisticadas de busca.

• Cada sistema adaptável necessita algum tipo de busca a fim de explorar o espaço de todos os estados possíveis.

• Ótimas ou quase ótimas configurações são procuradas.• Espaços de elevada dimensão devem ser explorados.• A dimensão elevada gira o projeto em um problema complexo.• Encontrando o ótimo global de uma função objetivo com

muitos graus de liberdade com confinamentos no conflito e subjetividade é um problema NP-completo.

• Os AG, uma classe de computação evolucionaria, procuram pela imitação da evolução natural das espécies baseada na seleção natural e nos mecanismos genéticos das populações.

Page 22: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Población Inicial Población resultanteM

ayor

apt

itud

Men

or a

ptitu

d

244036

229441

173056

154449

120409

69169

61009

60516

55225

37636

32400

26896

21316

1936

441

256

Función Objetivo

1 1 1 1 0 1 1 1 0

1 1 1 1 0 1 1 1 0

1 1 1 1 0 1 1 1 0

1 1 1 0 1 1 1 1 1

1 1 1 0 1 1 1 1 1

1 1 1 0 1 1 1 1 1

1 1 0 1 0 0 0 0 0

1 1 0 1 0 0 0 0 0

1 1 0 0 0 1 0 0 1

1 1 0 0 0 1 0 0 1

1 0 1 0 1 1 0 1 1

1 0 0 0 0 0 1 1 1

0 1 1 1 1 0 1 1 1

0 1 1 1 1 0 1 1 0

0 1 1 1 0 1 0 1 1

0 1 1 0 0 0 0 1 0

1 1 1 1 0 1 1 1 0

1 1 1 0 1 1 1 1 1

1 1 0 1 0 0 0 0 0

1 1 0 0 0 1 0 0 1

1 0 1 0 1 1 0 1 1

1 0 0 0 0 0 1 1 1

0 1 1 1 1 0 1 1 1

0 1 1 1 1 0 1 1 0

0 1 1 1 0 1 0 1 1

0 1 1 0 0 0 0 1 0

0 1 0 1 1 0 1 0 0

0 1 0 1 0 0 1 0 0

0 1 0 0 1 0 0 1 0

0 0 0 1 0 1 1 0 0

0 0 0 0 1 0 1 0 1

0 0 0 0 1 0 0 0 0

Processo de seleção

Page 23: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Cadena j 1 0 0 0 0 0 1 1 0 1

Cadena i 1 1 1 0 1 0 1 1 1 0

Cadena i 1 1 1 0 1 0 1 1 0 1

Cadena j 1 0 0 0 0 0 1 1 1 0

Eslabón de cruce

Processo de cruzamento

Page 24: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Processo de mutação

Cadena i

Cadena i 1 1 1 0 1 0 1 1 0 1

1 1 1 0 1 0 1 1 1 0

Eslabón de mutación

Page 25: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

ALGORITMOS GENÉTICOS

(aplicações)

• Calibração dos parâmetros nos modelos de qualidade de água para a contaminação em receber águas: López 2001, Nishida 2004

• Projeto ótimo das RDA incluindo a confiabilidade: Wu 2002, Matías 2004, Pérez 2005, Iglesias 2005

• Detecção e calibração de perdas de água usando a análise transiente e AGs: Vitkovsty 2001

• Combinações de RNAs, lógica fuzzy e de AGs• Modelo de emissão de NOx em uma usina elétrica:

Oh 2003

• Reabilitação de redes de saneamento: Vojinovic 2005

Page 26: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Árvores de decisão

• Técnicas simbólicas de aprendizagem a partir dos dados• Usado por séculos a fim de representar procedimentos em

muitos campos• Determinadas circunstâncias conduzem aos estados

mutuamente excludentes• As situações são analisadas seguindo a estrutura de árvore

até as folhas• São adequados para a classificação• Usam algoritmos com estratégias de dividir e conquistar• CART [Breiman 1984], ID3 [Quinlan 1986], M5 [Quinlan

1992], C4-5 [Quinlan 1993], ASSISTANT [Cestnik, 1987],…

Page 27: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Árvores de decisão

• Técnicas a aprender a partir dos dados em uma maneira simbólica usando réguas de classificação e/ou de associação.

NO

NO SI

Y>50

Y>32

T Hoja 1

X>55

Y>20

SI

SI

NO

X>80

T Hoja 7

S

Hoja 8

NO

X>20

SI

SI

X>20

S Hoja 2

NO

T Hoja 3

S Hoja 4

T Hoja 5

T Hoja 6

NO

NO

SI

SI

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Hoja 7

Hoja 3 Hoja 2

Hoja 5

Hoja 4 Hoja 6 Hoja 1

Hoja 8

Page 28: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Árvores de decisão

(aplicações)

• Modelos hidrológicos: Solomatine 2003, 2004, Bhattacharya2005

• Infra-estrutura civil: Buchheit 2000

• Classificação biológica da água de rios: Dzeroski 1998

• Predição da demanda: An, 1997

• Substituição das tubulações: Babovic 2001

• Controle dos reservatórios: Bessler 2003

• Operação de RDA: Camarinha-Matos 1999

• Obtenção de dados sócio-econômico-demográficos a partir de dados de consumos em um SDA: Díaz 2005

Page 29: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

• Os modelos baseados nos dados mostraram a aplicabilidade grande em muitas áreas.

• Existem também muitas aplicações em assuntos relacionados à água.

• Usar DM é de valor se:Ø Existe uma quantidade grande de dadosØ Não há nenhuma mudança considerávelØ Não há nenhum modelo clássico disponívelØ Há uma necessidade para a validação

• A análise e as predições de qualidade devem ser baseadas no uso de modelos diferentes

• O futuro está nos modelos híbridos

Conclusões

Page 30: Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação Conhecimento Pre-Processo Post-Processo Data Mining. ... – predição de valores futuros

Grupo Multidisciplinar de Modelación de Fluidos

OBRIGADO

Joaquín Izquierdo

UNIVERSIDAD POLITÉCNICA DE VALENCIA

VI Seminário Ibero-americano SEREA

João Pessoa 2006