Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação...
Transcript of Grupo Multidisciplinar de Modelación de Fluidos serea palestra/p03.pdfSistema de informação...
Grupo Multidisciplinar de Modelación de Fluidos
Análise de dados inteligente como uma ferramenta na gerência integrada da água
Joaquín Izquierdo
UNIVERSIDAD POLITÉCNICA DE VALENCIA
VI Seminário Ibero-americano SEREA
João Pessoa 2006
INDICE
• Motivação: quantidades enormes de dados
• Modelação baseada em dados
• O processo KDD – Data Mining (DM)
– descoberta de conhecimento das BD
– Técnicas DM
• Introdução: dimensão multidisciplinar da água
• Exemplos
INTRODUÇAO: multidisciplinaridade
• Engenheiro: conhecedor vs consumidor de conhecimento
• Ferramenta: computador vs processador de conhecimento
• Água: um problema sócio-tecnológico• Gerência do conhecimento• Integração de técnicas múltiplas• Encapsulação de conhecimento• AID como a ferramenta de integração
• IWM cobre uma ampla variedade de aspectos
• Divórcio entre • Desenvolvimento matemático e científico • Aplicações sociais
MOTIVAÇÃO: quantidades enormes de dados
• Exemplo: WDF e parâmetros que devem ser medidos - aproximação pragmática
• É o mesmo para muitas companhias, indústrias e equipes de pesquisa
• Usando toda a informação• usos básicos• é tudo que pode ser feito?• conhecimento escondido nos dados• extração de conhecimento
• A era da informação: manipulação de dados contra a extração de conhecimento
O paradigma do conhecimento baseado em dados
• Interesse para a extração semi-automática de conhecimento
• Dados no formato digital
• E onde matemática e estatística?
• Técnicas de calibração e validação: paradigma clássico baseado em dados
• A tomada de decisão necessita outros modelos baseados em dados e em habilidades específicas
• KDD: ‘O processo não trivial de identificar padrões válidos, novos, úteis e compreensíveis baseados em dados’ (Fayyad, 1996).
• Modelação híbrida!!
O processo KDD
• DM não é lavagem hidráulica
• mas minando com prospecção inteligente
• Uma vez que os dados foram recolhidos tem-se que decidir o tipo de padrão de interesse. O objetivo do conhecimento condiciona a técnica DM para usar-se.
• A maioria dos sistemas permitem que o usuário selecione a técnica contanto que o usuário forneça o tipo de padrão procurado
Sistema deinformação Conhecimento
Pre-Processo
Post-Processo
DataMining
Padrões mais comuns• Associação: dois atributos aparecem simultaneamente com
freqüência relativamente alta• Dependência: o valor absoluto ou relativo de um atributo é
determinado pelos valores de outros atributos. Às vezes, as dependências são tão óbvias que não são interessantes.
• Classificação: jogo das dependências permitindo que determinadas réguas atribuam a um parâmetro dependente um valor ou uma categoria entre diversas possibilidades.
• Clustering: identificação de grupos de indivíduos. Na classificação as categorias são previamente conhecidas . No clustering os grupos devem ser identificados. Assim, a classificação é um processo supervisionado mas clustering é no supervisionado.
• Tendências: permitem a predição do valor de uma variável contínua dependente, geralmente, do tempo.
• Réguas gerais: outros tipos de padrões mais gerais.
Técnicas. Não simbólicas.
• Técnicas Estatísticas: Confirmam a associação e a dependência. Regressão linear e não linear e redes de regressão.
• Métodos de vizinhança e seus variantes com aprendizagem por meio de exemplos. Classificação e clustering. Usam distâncias e similaridades a um protótipo ou a outros membros do grupo.
• Redes neurôniais artificiais, lógica fuzzy, algoritmos genéticos, árvores de regressão, teoria do caos, etc. e suas combinações. São técnicas populares, e já tradicionais, para a aprendizagem automática com aplicações importantes na classificação e no clustering. Discute-se razoavelmente que mesmo que permitam modelar determinados fenômenos com precisão não fornecem compreensão ao modelo. Não obstante, algumas de suas combinações permitem a extração das réguas, que são mais fáceis de compreender.
Técnicas. Simbólicas.• Árvores de decisão. Classificação e clustering
através de um teste de cascata que gera uma estrutura hierárquica nas quais cada nó interno contem um teste em um atributo, cada filial corresponde a um resultado do teste e cada folha dá uma predição para o valor da classe.
• Programação indutiva e outras técnicas de indução simbólica. Para obter testes padrões mais gerais. A chamada programação lógica dá aproximações interessantes e simples nos termos de réguas de indução. Um jogo de réguas ordenado é uma lista de decisão. As réguas na lista são consideradas em ordem descendente.
Redes neurais artificiais
(RNAs)• Modelos inspirados na estrutura nervosa
sinapsis núcleo
dendritas
corpo celular
axón
Σ
x1(t)
x2(t)
x3(t)
xn(t)…
w1
w2
w3
wn
a(t)
y y=f(a)
w0
o(t+1)a
=+ ∑
=
n
iii txwfto
1
)()1( ≥w0 (ativa)<w0 (inativa)
função de ativação
RNNs: Desempenho e aprendizagem
• O desempenho da rede depende dos pesos• Aprendizagem baseada na modificação dos pesos• Conceitos básicos
– Memória armazenada em sinapses ajustáveis– Os neurônios associaram em configurações grandes
• Algoritmos: modificação dos pesos baseada em amostras apropriadas de dados corretos
• Aprendizagem como na biologia!– Dados de treinamento etiquetados ou não: tipo de
aprendizagem: • Supervisionado: a resposta correta é conhecida (MLP) • Não Superv : a rede aprende relações, similitude,…(SOM)• Misturado (RBF, LVQ)
RNNs Multilayer feedforward
…
x1
x2
x3
xn
…
o1
o2
op
…
n valoresde input
p valoresde output
H unidadesescondidas
• Descrição: unidades distribuídas em camadas–Input (pré-processo), escondida (discriminação), output (resposta)
• Fase de aprendizagem –a saída comparada com a resposta correta produz o erro–a minimização do erro força o ajuste dos pesos (BP)
• Generaliza dados não conhecidos quando treinada por BP• Função de transferência (aproximador universal)
MLP
RNAs: características
• Modelos que são inspirados na estrutura do cérebro– executam computação complexa, não explícita– aprendem tarefas em uma maneira gradual– processam no paralelo– são flexíveis e independentes da tarefa– têm uma velocidade grande de computação– natureza robusta (tolerante às falhas) frente à degradação– respondem bem aos sinais contaminados pelo ruído
• As RNAs são uma família de modelos– usam dados de treinamento descobrir por se padrões
típicos, regularidades, clusters e outras relações– caixa preta; falta de interpretabilidade!!!
RNAs: algumas aplicações
• Monitoração e proteção ambiental (EPA 2000)– Classificação e diagnóstico da qualidade da água: Walley 2000,
Lingireddy 2005, Rowland 2004;...
• Predição e análise de séries temporais (redes dinâmicas)– predição do runoff: Anctil 2004– predição da vazão nos rios para o gerenciamento dos reservatórios:
Barati 2003, Kumar 2004– predição de valores futuros de dados ambientais para o gerenciamento
dos recursos: Panella 2003
• Abastecimento de água e saneamento– calibração ótima: Lingireddy 2005– monitoração, controle,... en SDAs: Baxter 2004, Izquierdo 2006,…– controle ótimo de bombeamento: Lingireddy 2005– dimensões de dispositivos de proteção de transitórios: Izquierdo 2006– qualidade de água: Millet 2002, Lingireddy 2005– Saneamento: El-Din 2004; Vojinovic 2003, Lingireddy 2005
Lógica Fuzzy. Motivação
• Dados exatos e precisos?– medidas médias (intervalo)– incerteza vs probabilidade (Zadeh 1995)– Lógica fuzzy (Lofti Zadeh, 1965)
• A lógica fuzzy possibilita tratar a incerteza em uma maneira intuitiva e natural– usa a ambigüidade da língua e o estilo humano de
raciocinar para resolver problemas– É uma extensão da teoria clássica dos conjuntos– Precisão vs significado
Precisão
Uma massa 1500kg está aproximando sua cabeça em 45.3m/seg
Significado
você sai de lá!
Lógica Fuzzy. Características
• Permite a granulação dos problemas– para decidir o nível de solução para um problema– para omitir ou mostrar a informação
apropriadamente
• Resolve problemas I/O apropriadamente– caixa preta??? Não!
• Baseada no sentido comum• Com opinião de peritos
– “Em quase todos os casos um produto pode ser construído sem lógica fuzzy, mas é mais fácil e mais barato com ela” (Lofti Zadeh)
Exemplo de inferência fuzzy
• SE a idade É baixa E o poder do carro É elevado o risco É elevado• SE a idade É média E o poder do carro É médio o risco É médio
0
1
0
1
0
1
0
1
0
1 highyoung
middle
high
medium
0
1 medium
0
1µrisk
age
age
power
power
fuzzyAND
fuzzyAND
a b
y
risk
risk
risk
Defuzzyfication
Lógica fuzzy. Aplicações hidráulicas e ambientais
• Modelos de deterioração para as tubulações enterradas: Kleiner 2004
• Monitoramento de SDAs: Izquierdo 2004, 2005, 2006
• Predição a curto prazo (situações com dados escassos em que a predição é baseada somente em circunstâncias rio acima): Bazartseeren 2003
• Predição e séries temporais: Juang 2003
• Agregação da informação em um modelo de consumo de água dependendo da informação disponível: Edwards 2005
• Gerenciamento, a longo prazo, dos sistemas de armazenamento /transporte/ distribuição de recursos de água: Faye 2003
• Reabilitação e renovação das tubulações: Sadiq 2004
ALGORITMOS GENÉTICOS
• Os métodos modernos de aprendizagem automática e análise de dados dependem de técnicas sofisticadas de busca.
• Cada sistema adaptável necessita algum tipo de busca a fim de explorar o espaço de todos os estados possíveis.
• Ótimas ou quase ótimas configurações são procuradas.• Espaços de elevada dimensão devem ser explorados.• A dimensão elevada gira o projeto em um problema complexo.• Encontrando o ótimo global de uma função objetivo com
muitos graus de liberdade com confinamentos no conflito e subjetividade é um problema NP-completo.
• Os AG, uma classe de computação evolucionaria, procuram pela imitação da evolução natural das espécies baseada na seleção natural e nos mecanismos genéticos das populações.
Población Inicial Población resultanteM
ayor
apt
itud
Men
or a
ptitu
d
244036
229441
173056
154449
120409
69169
61009
60516
55225
37636
32400
26896
21316
1936
441
256
Función Objetivo
1 1 1 1 0 1 1 1 0
1 1 1 1 0 1 1 1 0
1 1 1 1 0 1 1 1 0
1 1 1 0 1 1 1 1 1
1 1 1 0 1 1 1 1 1
1 1 1 0 1 1 1 1 1
1 1 0 1 0 0 0 0 0
1 1 0 1 0 0 0 0 0
1 1 0 0 0 1 0 0 1
1 1 0 0 0 1 0 0 1
1 0 1 0 1 1 0 1 1
1 0 0 0 0 0 1 1 1
0 1 1 1 1 0 1 1 1
0 1 1 1 1 0 1 1 0
0 1 1 1 0 1 0 1 1
0 1 1 0 0 0 0 1 0
1 1 1 1 0 1 1 1 0
1 1 1 0 1 1 1 1 1
1 1 0 1 0 0 0 0 0
1 1 0 0 0 1 0 0 1
1 0 1 0 1 1 0 1 1
1 0 0 0 0 0 1 1 1
0 1 1 1 1 0 1 1 1
0 1 1 1 1 0 1 1 0
0 1 1 1 0 1 0 1 1
0 1 1 0 0 0 0 1 0
0 1 0 1 1 0 1 0 0
0 1 0 1 0 0 1 0 0
0 1 0 0 1 0 0 1 0
0 0 0 1 0 1 1 0 0
0 0 0 0 1 0 1 0 1
0 0 0 0 1 0 0 0 0
Processo de seleção
Cadena j 1 0 0 0 0 0 1 1 0 1
Cadena i 1 1 1 0 1 0 1 1 1 0
Cadena i 1 1 1 0 1 0 1 1 0 1
Cadena j 1 0 0 0 0 0 1 1 1 0
Eslabón de cruce
Processo de cruzamento
Processo de mutação
Cadena i
Cadena i 1 1 1 0 1 0 1 1 0 1
1 1 1 0 1 0 1 1 1 0
Eslabón de mutación
ALGORITMOS GENÉTICOS
(aplicações)
• Calibração dos parâmetros nos modelos de qualidade de água para a contaminação em receber águas: López 2001, Nishida 2004
• Projeto ótimo das RDA incluindo a confiabilidade: Wu 2002, Matías 2004, Pérez 2005, Iglesias 2005
• Detecção e calibração de perdas de água usando a análise transiente e AGs: Vitkovsty 2001
• Combinações de RNAs, lógica fuzzy e de AGs• Modelo de emissão de NOx em uma usina elétrica:
Oh 2003
• Reabilitação de redes de saneamento: Vojinovic 2005
Árvores de decisão
• Técnicas simbólicas de aprendizagem a partir dos dados• Usado por séculos a fim de representar procedimentos em
muitos campos• Determinadas circunstâncias conduzem aos estados
mutuamente excludentes• As situações são analisadas seguindo a estrutura de árvore
até as folhas• São adequados para a classificação• Usam algoritmos com estratégias de dividir e conquistar• CART [Breiman 1984], ID3 [Quinlan 1986], M5 [Quinlan
1992], C4-5 [Quinlan 1993], ASSISTANT [Cestnik, 1987],…
Árvores de decisão
• Técnicas a aprender a partir dos dados em uma maneira simbólica usando réguas de classificação e/ou de associação.
NO
NO SI
Y>50
Y>32
T Hoja 1
X>55
Y>20
SI
SI
NO
X>80
T Hoja 7
S
Hoja 8
NO
X>20
SI
SI
X>20
S Hoja 2
NO
T Hoja 3
S Hoja 4
T Hoja 5
T Hoja 6
NO
NO
SI
SI
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
Hoja 7
Hoja 3 Hoja 2
Hoja 5
Hoja 4 Hoja 6 Hoja 1
Hoja 8
Árvores de decisão
(aplicações)
• Modelos hidrológicos: Solomatine 2003, 2004, Bhattacharya2005
• Infra-estrutura civil: Buchheit 2000
• Classificação biológica da água de rios: Dzeroski 1998
• Predição da demanda: An, 1997
• Substituição das tubulações: Babovic 2001
• Controle dos reservatórios: Bessler 2003
• Operação de RDA: Camarinha-Matos 1999
• Obtenção de dados sócio-econômico-demográficos a partir de dados de consumos em um SDA: Díaz 2005
• Os modelos baseados nos dados mostraram a aplicabilidade grande em muitas áreas.
• Existem também muitas aplicações em assuntos relacionados à água.
• Usar DM é de valor se:Ø Existe uma quantidade grande de dadosØ Não há nenhuma mudança considerávelØ Não há nenhum modelo clássico disponívelØ Há uma necessidade para a validação
• A análise e as predições de qualidade devem ser baseadas no uso de modelos diferentes
• O futuro está nos modelos híbridos
Conclusões
Grupo Multidisciplinar de Modelación de Fluidos
OBRIGADO
Joaquín Izquierdo
UNIVERSIDAD POLITÉCNICA DE VALENCIA
VI Seminário Ibero-americano SEREA
João Pessoa 2006