Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação...

Grupo Multidisciplinar de Modelación de Fluidos

Análise de dados inteligente como uma ferramenta na gerência integrada da água

Joaquín Izquierdo

UNIVERSIDAD POLITÉCNICA DE VALENCIA

VI Seminário Ibero-americano SEREA

João Pessoa 2006

INDICE

• Motivação: quantidades enormes de dados

• Modelação baseada em dados

• O processo KDD – Data Mining (DM)

– descoberta de conhecimento das BD

– Técnicas DM

• Introdução: dimensão multidisciplinar da água

• Exemplos

INTRODUÇAO: multidisciplinaridade

• Engenheiro: conhecedor vs consumidor de conhecimento

• Ferramenta: computador vs processador de conhecimento

• Água: um problema sócio-tecnológico• Gerência do conhecimento• Integração de técnicas múltiplas• Encapsulação de conhecimento• AID como a ferramenta de integração

• IWM cobre uma ampla variedade de aspectos

• Divórcio entre • Desenvolvimento matemático e científico • Aplicações sociais

MOTIVAÇÃO: quantidades enormes de dados

• Exemplo: WDF e parâmetros que devem ser medidos - aproximação pragmática

• É o mesmo para muitas companhias, indústrias e equipes de pesquisa

• Usando toda a informação• usos básicos• é tudo que pode ser feito?• conhecimento escondido nos dados• extração de conhecimento

• A era da informação: manipulação de dados contra a extração de conhecimento

O paradigma do conhecimento baseado em dados

• Interesse para a extração semi-automática de conhecimento

• Dados no formato digital

• E onde matemática e estatística?

• Técnicas de calibração e validação: paradigma clássico baseado em dados

• A tomada de decisão necessita outros modelos baseados em dados e em habilidades específicas

• KDD: ‘O processo não trivial de identificar padrões válidos, novos, úteis e compreensíveis baseados em dados’ (Fayyad, 1996).

• Modelação híbrida!!

O processo KDD

• DM não é lavagem hidráulica

• mas minando com prospecção inteligente

• Uma vez que os dados foram recolhidos tem-se que decidir o tipo de padrão de interesse. O objetivo do conhecimento condiciona a técnica DM para usar-se.

• A maioria dos sistemas permitem que o usuário selecione a técnica contanto que o usuário forneça o tipo de padrão procurado

Sistema deinformação Conhecimento

Pre-Processo

Post-Processo

DataMining

Padrões mais comuns• Associação: dois atributos aparecem simultaneamente com

freqüência relativamente alta• Dependência: o valor absoluto ou relativo de um atributo é

determinado pelos valores de outros atributos. Às vezes, as dependências são tão óbvias que não são interessantes.

• Classificação: jogo das dependências permitindo que determinadas réguas atribuam a um parâmetro dependente um valor ou uma categoria entre diversas possibilidades.

• Clustering: identificação de grupos de indivíduos. Na classificação as categorias são previamente conhecidas . No clustering os grupos devem ser identificados. Assim, a classificação é um processo supervisionado mas clustering é no supervisionado.

• Tendências: permitem a predição do valor de uma variável contínua dependente, geralmente, do tempo.

• Réguas gerais: outros tipos de padrões mais gerais.

Técnicas. Não simbólicas.

• Técnicas Estatísticas: Confirmam a associação e a dependência. Regressão linear e não linear e redes de regressão.

• Métodos de vizinhança e seus variantes com aprendizagem por meio de exemplos. Classificação e clustering. Usam distâncias e similaridades a um protótipo ou a outros membros do grupo.

• Redes neurôniais artificiais, lógica fuzzy, algoritmos genéticos, árvores de regressão, teoria do caos, etc. e suas combinações. São técnicas populares, e já tradicionais, para a aprendizagem automática com aplicações importantes na classificação e no clustering. Discute-se razoavelmente que mesmo que permitam modelar determinados fenômenos com precisão não fornecem compreensão ao modelo. Não obstante, algumas de suas combinações permitem a extração das réguas, que são mais fáceis de compreender.

Técnicas. Simbólicas.• Árvores de decisão. Classificação e clustering

através de um teste de cascata que gera uma estrutura hierárquica nas quais cada nó interno contem um teste em um atributo, cada filial corresponde a um resultado do teste e cada folha dá uma predição para o valor da classe.

• Programação indutiva e outras técnicas de indução simbólica. Para obter testes padrões mais gerais. A chamada programação lógica dá aproximações interessantes e simples nos termos de réguas de indução. Um jogo de réguas ordenado é uma lista de decisão. As réguas na lista são consideradas em ordem descendente.

Redes neurais artificiais

(RNAs)• Modelos inspirados na estrutura nervosa

sinapsis núcleo

dendritas

corpo celular

axón

Σ

x1(t)

x2(t)

x3(t)

xn(t)…

w1

w2

w3

wn

a(t)

y y=f(a)

w0

o(t+1)a

=+ ∑

=

n

iii txwfto

1

)()1( ≥w0 (ativa)<w0 (inativa)

função de ativação

RNNs: Desempenho e aprendizagem

• O desempenho da rede depende dos pesos• Aprendizagem baseada na modificação dos pesos• Conceitos básicos

– Memória armazenada em sinapses ajustáveis– Os neurônios associaram em configurações grandes

• Algoritmos: modificação dos pesos baseada em amostras apropriadas de dados corretos

• Aprendizagem como na biologia!– Dados de treinamento etiquetados ou não: tipo de

aprendizagem: • Supervisionado: a resposta correta é conhecida (MLP) • Não Superv : a rede aprende relações, similitude,…(SOM)• Misturado (RBF, LVQ)

RNNs Multilayer feedforward

…

x1

x2

x3

xn

…

o1

o2

op

…

n valoresde input

p valoresde output

H unidadesescondidas

• Descrição: unidades distribuídas em camadas–Input (pré-processo), escondida (discriminação), output (resposta)

• Fase de aprendizagem –a saída comparada com a resposta correta produz o erro–a minimização do erro força o ajuste dos pesos (BP)

• Generaliza dados não conhecidos quando treinada por BP• Função de transferência (aproximador universal)

MLP

RNAs: características

• Modelos que são inspirados na estrutura do cérebro– executam computação complexa, não explícita– aprendem tarefas em uma maneira gradual– processam no paralelo– são flexíveis e independentes da tarefa– têm uma velocidade grande de computação– natureza robusta (tolerante às falhas) frente à degradação– respondem bem aos sinais contaminados pelo ruído

• As RNAs são uma família de modelos– usam dados de treinamento descobrir por se padrões

típicos, regularidades, clusters e outras relações– caixa preta; falta de interpretabilidade!!!

RNAs: algumas aplicações

• Monitoração e proteção ambiental (EPA 2000)– Classificação e diagnóstico da qualidade da água: Walley 2000,

Lingireddy 2005, Rowland 2004;...

• Predição e análise de séries temporais (redes dinâmicas)– predição do runoff: Anctil 2004– predição da vazão nos rios para o gerenciamento dos reservatórios:

Barati 2003, Kumar 2004– predição de valores futuros de dados ambientais para o gerenciamento

dos recursos: Panella 2003

• Abastecimento de água e saneamento– calibração ótima: Lingireddy 2005– monitoração, controle,... en SDAs: Baxter 2004, Izquierdo 2006,…– controle ótimo de bombeamento: Lingireddy 2005– dimensões de dispositivos de proteção de transitórios: Izquierdo 2006– qualidade de água: Millet 2002, Lingireddy 2005– Saneamento: El-Din 2004; Vojinovic 2003, Lingireddy 2005

Lógica Fuzzy. Motivação

• Dados exatos e precisos?– medidas médias (intervalo)– incerteza vs probabilidade (Zadeh 1995)– Lógica fuzzy (Lofti Zadeh, 1965)

• A lógica fuzzy possibilita tratar a incerteza em uma maneira intuitiva e natural– usa a ambigüidade da língua e o estilo humano de

raciocinar para resolver problemas– É uma extensão da teoria clássica dos conjuntos– Precisão vs significado

Precisão

Uma massa 1500kg está aproximando sua cabeça em 45.3m/seg

Significado

você sai de lá!

Lógica Fuzzy. Características

• Permite a granulação dos problemas– para decidir o nível de solução para um problema– para omitir ou mostrar a informação

apropriadamente

• Resolve problemas I/O apropriadamente– caixa preta??? Não!

• Baseada no sentido comum• Com opinião de peritos

– “Em quase todos os casos um produto pode ser construído sem lógica fuzzy, mas é mais fácil e mais barato com ela” (Lofti Zadeh)

Exemplo de inferência fuzzy

• SE a idade É baixa E o poder do carro É elevado o risco É elevado• SE a idade É média E o poder do carro É médio o risco É médio

0

1

0

1

0

1

0

1

0

1 highyoung

middle

high

medium

0

1 medium

0

1µrisk

age

age

power

power

fuzzyAND

fuzzyAND

a b

y

risk

risk

risk

Defuzzyfication

Lógica fuzzy. Aplicações hidráulicas e ambientais

• Modelos de deterioração para as tubulações enterradas: Kleiner 2004

• Monitoramento de SDAs: Izquierdo 2004, 2005, 2006

• Predição a curto prazo (situações com dados escassos em que a predição é baseada somente em circunstâncias rio acima): Bazartseeren 2003

• Predição e séries temporais: Juang 2003

• Agregação da informação em um modelo de consumo de água dependendo da informação disponível: Edwards 2005

• Gerenciamento, a longo prazo, dos sistemas de armazenamento /transporte/ distribuição de recursos de água: Faye 2003

• Reabilitação e renovação das tubulações: Sadiq 2004

ALGORITMOS GENÉTICOS

• Os métodos modernos de aprendizagem automática e análise de dados dependem de técnicas sofisticadas de busca.

• Cada sistema adaptável necessita algum tipo de busca a fim de explorar o espaço de todos os estados possíveis.

• Ótimas ou quase ótimas configurações são procuradas.• Espaços de elevada dimensão devem ser explorados.• A dimensão elevada gira o projeto em um problema complexo.• Encontrando o ótimo global de uma função objetivo com

muitos graus de liberdade com confinamentos no conflito e subjetividade é um problema NP-completo.

• Os AG, uma classe de computação evolucionaria, procuram pela imitação da evolução natural das espécies baseada na seleção natural e nos mecanismos genéticos das populações.

Población Inicial Población resultanteM

ayor

apt

itud

Men

or a

ptitu

d

244036

229441

173056

154449

120409

69169

61009

60516

55225

37636

32400

26896

21316

1936

441

256

Función Objetivo

1 1 1 1 0 1 1 1 0

1 1 1 1 0 1 1 1 0

1 1 1 1 0 1 1 1 0

1 1 1 0 1 1 1 1 1

1 1 1 0 1 1 1 1 1

1 1 1 0 1 1 1 1 1

1 1 0 1 0 0 0 0 0

1 1 0 1 0 0 0 0 0

1 1 0 0 0 1 0 0 1

1 1 0 0 0 1 0 0 1

1 0 1 0 1 1 0 1 1

1 0 0 0 0 0 1 1 1

0 1 1 1 1 0 1 1 1

0 1 1 1 1 0 1 1 0

0 1 1 1 0 1 0 1 1

0 1 1 0 0 0 0 1 0

1 1 1 1 0 1 1 1 0

1 1 1 0 1 1 1 1 1

1 1 0 1 0 0 0 0 0

1 1 0 0 0 1 0 0 1

1 0 1 0 1 1 0 1 1

1 0 0 0 0 0 1 1 1

0 1 1 1 1 0 1 1 1

0 1 1 1 1 0 1 1 0

0 1 1 1 0 1 0 1 1

0 1 1 0 0 0 0 1 0

0 1 0 1 1 0 1 0 0

0 1 0 1 0 0 1 0 0

0 1 0 0 1 0 0 1 0

0 0 0 1 0 1 1 0 0

0 0 0 0 1 0 1 0 1

0 0 0 0 1 0 0 0 0

Processo de seleção

Cadena j 1 0 0 0 0 0 1 1 0 1

Cadena i 1 1 1 0 1 0 1 1 1 0

Cadena i 1 1 1 0 1 0 1 1 0 1

Cadena j 1 0 0 0 0 0 1 1 1 0

Eslabón de cruce

Processo de cruzamento

Processo de mutação

Cadena i

Cadena i 1 1 1 0 1 0 1 1 0 1

1 1 1 0 1 0 1 1 1 0

Eslabón de mutación

ALGORITMOS GENÉTICOS

(aplicações)

• Calibração dos parâmetros nos modelos de qualidade de água para a contaminação em receber águas: López 2001, Nishida 2004

• Projeto ótimo das RDA incluindo a confiabilidade: Wu 2002, Matías 2004, Pérez 2005, Iglesias 2005

• Detecção e calibração de perdas de água usando a análise transiente e AGs: Vitkovsty 2001

• Combinações de RNAs, lógica fuzzy e de AGs• Modelo de emissão de NOx em uma usina elétrica:

Oh 2003

• Reabilitação de redes de saneamento: Vojinovic 2005

Árvores de decisão

• Técnicas simbólicas de aprendizagem a partir dos dados• Usado por séculos a fim de representar procedimentos em

muitos campos• Determinadas circunstâncias conduzem aos estados

mutuamente excludentes• As situações são analisadas seguindo a estrutura de árvore

até as folhas• São adequados para a classificação• Usam algoritmos com estratégias de dividir e conquistar• CART [Breiman 1984], ID3 [Quinlan 1986], M5 [Quinlan

1992], C4-5 [Quinlan 1993], ASSISTANT [Cestnik, 1987],…


• Técnicas a aprender a partir dos dados em uma maneira simbólica usando réguas de classificação e/ou de associação.

NO

NO SI

Y>50

Y>32

T Hoja 1

X>55

Y>20

SI

SI

NO

X>80

T Hoja 7

S

Hoja 8

NO

X>20

SI

SI

X>20

S Hoja 2

NO

T Hoja 3

S Hoja 4

T Hoja 5

T Hoja 6

NO

NO

SI

SI

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Hoja 7

Hoja 3 Hoja 2

Hoja 5

Hoja 4 Hoja 6 Hoja 1

Hoja 8


(aplicações)

• Modelos hidrológicos: Solomatine 2003, 2004, Bhattacharya2005

• Infra-estrutura civil: Buchheit 2000

• Classificação biológica da água de rios: Dzeroski 1998

• Predição da demanda: An, 1997

• Substituição das tubulações: Babovic 2001

• Controle dos reservatórios: Bessler 2003

• Operação de RDA: Camarinha-Matos 1999

• Obtenção de dados sócio-econômico-demográficos a partir de dados de consumos em um SDA: Díaz 2005

• Os modelos baseados nos dados mostraram a aplicabilidade grande em muitas áreas.

• Existem também muitas aplicações em assuntos relacionados à água.

• Usar DM é de valor se:Ø Existe uma quantidade grande de dadosØ Não há nenhuma mudança considerávelØ Não há nenhum modelo clássico disponívelØ Há uma necessidade para a validação

• A análise e as predições de qualidade devem ser baseadas no uso de modelos diferentes

• O futuro está nos modelos híbridos

Conclusões

Grupo Multidisciplinar de Modelación de Fluidos

OBRIGADO

Joaquín Izquierdo

UNIVERSIDAD POLITÉCNICA DE VALENCIA

VI Seminário Ibero-americano SEREA

João Pessoa 2006

Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação...

Documents

Transcript of Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação...