Agrupamento de Leituras de Instrumentação

125
UNIVERSIDADE FEDERAL DO PARANÁ - UFPR PROGRAMA DE PÓS-GRADUAÇÃO EM MÉTODOS NUMÉRICOS EM ENGENHARIA - PPGMNE ROSANGELA VILLWOCK TÉCNICAS DE AGRUPAMENTO E DE HIERARQUIZAÇÃO NO CONTEXTO DE KDD – APLICAÇÃO A DADOS TEMPORAIS DE INSTRUMENTAÇÃO GEOTÉCNICA-ESTRUTURAL DA USINA HIDRELÉTRICA DE ITAIPU CURITIBA 2009

description

O monitoramento da estrutura de uma barragem, de importância bem conhecida, pode gerar uma enorme massa de dados, definidos em domínios multidimensionais, cuja análise e interpretação nem sempre são triviais. É importante selecionar as informações que melhor “expliquem” o comportamento da barragem, permitindo a previsão e a resolução de eventuais problemas que possam ocorrer.

Transcript of Agrupamento de Leituras de Instrumentação

  • UNIVERSIDADE FEDERAL DO PARAN - UFPR

    PROGRAMA DE PS-GRADUAO EM MTODOS NUMRICOS EM

    ENGENHARIA - PPGMNE

    ROSANGELA VILLWOCK

    TCNICAS DE AGRUPAMENTO E DE HIERARQUIZAO NO CONTEXTO DE KDD APLICAO A DADOS TEMPORAIS DE INSTRUMENTAO GEOTCNICA-ESTRUTURAL DA USINA HIDRELTRICA DE ITAIPU

    CURITIBA

    2009

  • ROSANGELA VILLWOCK

    TCNICAS DE AGRUPAMENTO E DE HIERARQUIZAO NO CONTEXTO DE KDD APLICAO A DADOS TEMPORAIS DE INSTRUMENTAO GEOTCNICA-ESTRUTURAL DA USINA HIDRELTRICA DE ITAIPU

    Tese apresentada ao Programa de Ps-Graduao em Mtodos Numricos em Engenharia, rea de Concentrao de Programao Matemtica, dos Setores de Tecnologia e de Cincias Exatas, da Universidade Federal do Paran, como requisito parcial obteno do ttulo de Doutor em Cincias. Orientadora: Prof. Dra. Maria Teresinha Arns Steiner Co-orientadores: Prof. Dra. Andra Sell Dyminski

    Prof. Dr. Paulo Henrique Siqueira

    CURITIBA

    2009

  • TERMO DE APROVAO

    ROSANGELA VILLWOCK

    TCNICAS DE AGRUPAMENTO E DE HIERARQUIZAO NO CONTEXTO DE KDD APLICAO A DADOS TEMPORAIS DE INSTRUMENTAO GEOTCNICA-ESTRUTURAL DA USINA HIDRELTRICA DE ITAIPU

    Tese aprovada como requisito parcial para obteno do grau de Doutor em Cincias, no Programa de Ps-Graduao em Mtodos Numricos em Engenharia Programao Matemtica da Universidade Federal do Paran, pela seguinte banca examinadora: Orientadora: _____________________________________________________

    Prof. Dr. Maria Teresinha Arns Steiner Programa de Ps-Graduao em Mtodos Numricos em Engenharia e Coordenao de Engenharia de Produo, UFPR _____________________________________________________ Prof.a Dr.a Andra Sell Dyminski Programa de Ps-Graduao em Mtodos Numricos em Engenharia e Departamento de Construo Civil, UFPR _____________________________________________________ Prof. Dr. Paulo Henrique Siqueira Programa de Ps-Graduao em Mtodos Numricos em Engenharia e Departamento de Expresso Grfica, UFPR _____________________________________________________ Prof. Dr. Anselmo Chaves Neto Programa de Ps-Graduao em Mtodos Numricos em Engenharia e Departamento de Estatstica, UFPR _____________________________________________________ Prof. Dr. Celso Romanel Departamento de Engenharia Civil, PUCRJ _____________________________________________________ Prof. Dr. Jlio Cesar Nievola Programa de Ps-Graduao em Informtica Aplicada, PUCPR

    Curitiba, 29 de julho de 2009.

  • Aos meus pais Luiz e Neusa.

    s minhas orientadoras Maria Teresinha e Maria Hermnia.

  • AGRADECIMENTOS

    Deus, pela vida, bno e proteo. Professora Dra. Maria Teresinha Arns Steiner, pela orientao para a

    realizao deste trabalho, pelo apoio e pelo incentivo em todas as fases do curso. Professora Dra. Andra Sell Dyminski, pela co-orientao deste trabalho,

    pelo apoio e pelo incentivo. Ao Professor Dr. Paulo Henrique Siqueira, pela co-orientao deste trabalho,

    pelo apoio e pelo incentivo. minha famlia, pelo apoio, pelo incentivo e pela pacincia durante a

    realizao deste curso. s minhas tias Raquel e Suely, pelo apoio e pelo carinho. Bernadete Maria Suaki Brando, pela amizade e pelo apoio. Aos Professores do Programa de Ps-Graduao em Mtodos Numricos em

    Engenharia, pelos ensinamentos transmitidos. Ao Professor Dr. Julio Cesar Nievola, pelos ensinamentos transmitidos. Ao Professor Dr. Leandro dos Santos Coelho, pelas valiosas sugestes. Ao Professor Dr. Anselmo Chaves Neto, pelas valiosas sugestes. Ao Professor Dr. Wagner M. N. Zola, pela disponibilizao do recurso da

    grade computacional do LCPAD: Laboratrio Central de Processamento de Alto Desempenho/UFPR, para execuo deste trabalho.

    equipe de engenheiros da Itaipu, pelos dados de instrumentao e contribuies tcnicas.

    equipe do projeto AIVEC - Anlise de Incertezas e Estimao de Valores de Controle para o Sistema de Monitorao Geotcnico-estrutural na Barragem de Itaipu, pela colaborao.

    Aos colegas de Ps-graduao, pela amizade, convvio e apoio. Ao Jos Henrique Ferreira, pela disposio em ajudar quando necessrio. Maristela Bandil, pela motivao e eficincia nos servios prestados. Universidade Federal do Paran, pela oportunidade de realizao deste

    curso. Universidade Estadual do Oeste do Paran, pela licena concedida. FINEP, pelo apoio financeiro ao projeto de pesquisa AIEVC - Anlise de

    Incertezas e Estimao de Valores de Controle para o Sistema de Monitorao Geotcnico-estrutural na Barragem de Itaipu e ao projeto CT INFRA / UFPR / Modelagem e Computao Cientfica.

    CAPES, pelo auxlio financeiro. A todos, que de alguma forma contriburam para a realizao deste trabalho.

  • RESUMO O monitoramento da estrutura de uma barragem, de importncia bem conhecida, pode gerar uma enorme massa de dados, definidos em domnios multidimensionais, cuja anlise e interpretao nem sempre so triviais. importante selecionar as informaes que melhor expliquem o comportamento da barragem, permitindo a previso e a resoluo de eventuais problemas que possam ocorrer. A Usina Hidreltrica de Itaipu, maior geradora de hidroeletricidade do mundo, possui mais de 2.200 instrumentos que monitoram seu comportamento geotcnico e estrutural, os quais possuem leituras armazenadas em um banco de dados h mais de 30 anos. Assim sendo, o objetivo principal deste trabalho apresentar uma metodologia, enquadrada na rea de KDD, Descoberta de Conhecimento em Bases de Dados, com o intuito de realizar a hierarquizao de instrumentos de monitoramento de barragens, maximizando a eficcia e eficincia das anlises das leituras, atravs da identificao de grupos de instrumentos semelhantes e, tambm, detectando os principais instrumentos. A metodologia foi aplicada 30 extensmetros localizados em diferentes blocos do trecho F da referida barragem que, com uma, duas ou trs hastes, totalizam 72 medidas de deslocamentos, das quais 24 foram automatizadas pela empresa. Para a fase de pr-processamento dos dados, do processo KDD, identificou-se que para a maioria dos instrumentos tem-se uma leitura mensal, porm, alguns deles, apresentam mais de uma leitura por ms sendo que, nestes casos, foi obtida a mdia mensal. Por outro lado, alguns instrumentos apresentaram leituras faltantes e, nestas situaes, foram realizadas interpolaes por sries temporais garantindo, desta forma, que todos os instrumentos tivessem exatamente 120 leituras (10 anos). J para a fase de Minerao de Dados, do processo KDD, a tarefa o agrupamento de padres e, para isso, foram utilizados os seguintes mtodos: da rea de Anlise Estatstica Multivariada (Ligao Simples, Mdia, Completa e Mtodo Ward); da rea de Redes Neurais Artificiais (Redes Neurais de Kohonen) e da rea de Metaheursticas (foi proposto um Algoritmo de Agrupamento Baseado em Formigas). Em relao ao algoritmo proposto, este foi testado em trs bases de dados reais (IRIS, WINE e PIMA Indians Diabetes) e em duas bases de dados reais de sries temporais (GUN e LIGHTNING-2), sendo que o seu desempenho foi comparado com o de outros dois mtodos (Mtodo Ward e Redes Neurais de Kohonen). Na aplicao da Anlise de Agrupamento (pelo Mtodo Ward) aos dados de instrumentao geotcnica-estrutural da Itaipu, mostrou-se que possvel encontrar justificativas tcnicas para a formao dos grupos, inclusive identificando um grupo de hastes de maior importncia. J a aplicao da Anlise Fatorial aos referidos dados, mostrou-se bastante eficaz para realizar a hierarquizao das hastes de extensmetros, com base nas comunalidades. No algoritmo proposto, as principais modificaes em relao ao algoritmo bsico proposto por Deneubourg et al. (1991, apud Handl, Knowles e Dorigo, 2006), foram: a introduo de uma comparao da probabilidade de descarregar um padro na posio escolhida aleatoriamente com a probabilidade de descarregar este padro em sua posio atual; a introduo de uma avaliao da probabilidade de uma posio vizinha, quando a deciso de descarregar um padro for positiva e a clula em que o padro deveria ser descarregado estiver ocupada; e a substituio do padro carregado por uma formiga, caso este padro no seja descarregado em 100 iteraes consecutivas. O algoritmo proposto apresentou resultados satisfatrios em relao aos resultados de Boryczka (2008) para as bases de dados reais e, quando aplicado aos dados de instrumentao geotcnica-estrutural da Itaipu, o mesmo foi capaz de identificar o grupo de hastes de maior importncia.

  • ABSTRACT The monitoring of the dam structures, of known importance, can generate an enormous mass of data, defined in multidimensional domains, which analysis and interpretation are not trivial. It is important to select the information that best "explains" the behavior of the dam, allowing the forecast and the resolution of eventual problems that can happen. The Hydroelectric Power Plant of Itaipu, the largest hydro electrical power producer of the world, has more than 2.200 instruments to monitor its geotechnical and structural behavior, which has readings stored in a database for more than 30 years. In this way, the main goal of this work is to present a methodology, framed in the KDD area, Knowledge Discovery in Databases, in order to carry out the ranking of instruments of monitoring of dams, maximizing the effectiveness and the efficiency of the readings analyses, through the identification of groups of similar instruments and, also, detecting the main instruments. The methodology was applied to 30 extensometers located in different blocks of the sector F of the referred dam which, with one, two or three rod, totalized 72 measures of displacements, of which 24 were automated by the company. For the phase of preprocessing of the data, of the KDD process, it was identified that the majority of the instruments had a monthly reading, however, some of them, presented more than a reading by month and, in these cases, it was obtained the monthly average. In the other hand, some instruments presented failed readings and, in these situations, interpolations were carried out by time series assuring, in this way, that all of the instruments had exactly 120 readings (10 years). In the Data Mining phase, of the process KDD, the task is to group the patterns and, for that, the following methods were used: of the Multivariate Statistical Analysis area (Single Linkage, Average Linkage, Complete Linkage and Ward Method); of the Artificial Neural Networks area (Kohonen Maps) and of the Metaheuristics area (it was proposed an Ant Based Clustering Algorithm). In relation to the proposed algorithm, it was tested in three real databases (IRIS, WINE and PIMA Indians Diabetes) and in two time series real databases (GUN and LIGHTNING-2), and their performances were compared with other two methods (Ward Method and Kohonen Maps). In the application of the Clustering Analysis (by Method Ward) at the data of instrumentation geotechnical and structural of the Itaipu, it was shown that it is possible to find technical justification for the formation of the groups and, also, identifying a group of rods of greatest importance. The application of the Factorial Analysis to the referred data showed to be effective to realize the extensometer rods ranking, based in the communality. In the proposed algorithm, the main modifications in relation to the basic algorithm proposed by Deneubourg et al. (1991, apud Handl, Knowles e Dorigo, 2006), were: the introduction of a comparison of the probability of drop a pattern in a random chosen position with the probability of drop this pattern in the current position; the introduction of a evaluation of the probability of a neighboring position, when the decision of dropping a pattern is positive and the cell in which the pattern should be dropped is busied; and the replacement of the carried pattern by an ant, in case this pattern is not dropped in 100 consecutive iterations. The proposed algorithm presented satisfactory results compared with Boryczka (2008)s results for the real databases and, when applied to the data of instrumentation geotechnical and structural of the Itaipu, the same was able to identify the group of rods of greatest importance.

  • LISTA DE FIGURAS

    Figura 2.1 Condies de carga bsicas e formas de instabilizao de barragens de gravidade de concreto. ......................................... 24

    Figura 2.2 Comportamento da barragem com relao s condies climticas caractersticas de vero e inverno. ............................ 25

    Figura 2.3 Correlao entre os tipos de instrumentos e a deteriorao de barragens de concreto (SILVEIRA, 2003). ................................. 26

    Figura 2.4 Extensmetro mltiplo de haste e um exemplo de um perfil tpico de um extensmetro mltiplo de haste na Itaipu (MATOS, 2002). ......................................................................................... 27

    Figura 2.5 Perfil geolgico esquemtico da fundao da Itaipu (ITAIPU BINACIONAL, 1995, apud OSAKO, 2002). ................................ 28

    Figura 2.6 Blocos com galeria de acesso transversal ao eixo (ITAIPU, 2007). ......................................................................................... 28

    Figura 2.7 Etapas do processo KDD, Fayyad et al. (1996). ......................... 30Figura 2.8 Exemplo de dendrograma. ......................................................... 32Figura 2.9 Vizinhana para grades retangular e hexagonal com raios de

    vizinhana iguais a zero, um e dois (FAUSETT, 1994). ............. 40Figura 3.1 Exemplo de Periodograma Acumulado ....................................... 63Figura 3.2 Fluxograma mostrando as etapas do processo KDD, onde na

    etapa de Minerao de Dados foram aplicadas tcnicas da Anlise Multivariada dos Dados para a base de dados de Itaipu. .................................................................................................... 64

    Figura 3.3 Grfico das probabilidades de carregar e descarregar padres... 70Figura 4.1 Dendrograma mostrando a formao dos grupos em cortes

    diferentes (Mtodo Ward). .......................................................... 75Figura 4.2 Grfico das hastes de extensmetros do grupo 1. ..................... 78Figura 4.3 Grfico das hastes de extensmetros do grupo 2. ..................... 78Figura 4.4 Grfico das hastes de extensmetros do grupo 3. ..................... 79Figura 4.5 Grfico de todas as hastes de extensmetros no perodo

    estudado. .................................................................................... 80Figura 4.6 Resultado do algoritmo de Agrupamento baseado em Formigas

    proposto para a base de dados IRIS melhor resultado. ........... 91Figura 4.7 Resultado do algoritmo de Agrupamento baseado em Formigas

    proposto para a base de dados WINE melhor resultado. ........ 91Figura 4.8 Resultado do algoritmo de Agrupamento baseado em Formigas

    proposto para a base de dados GUN melhor resultado. .......... 92Figura 4.9 Resultado do algoritmo de Agrupamento baseado em Formigas

    proposto para a base de dados LIGHTNING-2 melhor resultado. .................................................................................... 93

    Figura 4.10 Resultado do algoritmo de Agrupamento baseado em Formigas proposto para os dados de instrumentao geotcnica-estrutural da Itaipu melhor resultado. ...................................................... 97

    Figura 4.11 Resultado do algoritmo de Agrupamento baseado em Formigas proposto para os dados de instrumentao geotcnica-estrutural da Barragem de Itaipu resultado com identificao visual de 3 grupos. ........................................................................................ 98

    Figura 4.12 Resultado do algoritmo de Agrupamento baseado em Formigas

  • proposto para os dados de instrumentao geotcnica-estrutural da Barragem de Itaipu melhor resultado comparao com o Mtodo Ward. ............................................................................. 99

    Figura 5.1 Fluxograma da metodologia empregada neste trabalho. ............ 103Figura 1 Anexo2

    Estrutura geral do complexo Itaipu (ITAIPU, 2008). ................... 117

    Figura 2 Anexo2

    Perfil basltico do macio de fundao da Itaipu (ITAIPU, 2008). .................................................................................................... 118

    Figura 1 Anexo3

    Distribuio das formigas e dos padres na grade 1 EXEMPLO. ................................................................................. 121

    Figura 2 Anexo3

    Distribuio das formigas e dos padres na grade 2 EXEMPLO. ................................................................................. 122

    Figura 3 Anexo3

    Dendrograma EXEMPLO. ....................................................... 124

  • LISTA DE QUADROS

    Quadro 3.1 Bases de dados utilizados para avaliao dos algoritmos. ........ 58Quadro 4.1 Resultados da aplicao dos mtodos de agrupamento atravs

    da Anlise Multivariada, para a base de dados IRIS. ................. 73Quadro 4.2 Resultados da aplicao dos mtodos de agrupamento atravs

    da Anlise Multivariada, para a base de dados WINE. ............... 73Quadro 4.3 Resultados da aplicao dos mtodos de agrupamento atravs

    da Anlise Multivariada, para a base de dados PIMA. ............... 73Quadro 4.4 Resultados da aplicao dos mtodos de agrupamento atravs

    da Anlise Multivariada, para a base de dados GUN. ................ 74Quadro 4.5 Resultados da aplicao dos mtodos de agrupamento atravs

    da Anlise Multivariada, para a base de dados LIGHTNING-2..... 74Quadro 4.6 Classificao das hastes dos extensmetros em cada um dos

    trs grupo, conforme dendograma da figura 4.1. ........................ 76Quadro 4.7 Pesos das hastes de extensmetros para cada fator. ................ 81Quadro 4.8 Hastes de extensmetros importantes para cada fator, conforme

    os pesos apresentados no quadro 4.7. ...................................... 83Quadro 4.9 As 25 hastes de extensmetros com as comunalidades mais

    altas. ........................................................................................... 84Quadro 4.10 Hastes de extensmetros e suas comunalidades Grupo 1. ..... 85Quadro 4.11 Hastes de extensmetros e suas comunalidades Grupo 2. ..... 86Quadro 4.12 Hastes de extensmetros e suas comunalidades Grupo 3. ..... 87Quadro 4.13 Escore fatorial final dos meses de leitura das 72 hastes de

    extensmetros. ........................................................................... 88Quadro 4.14 Escore fatorial final dos meses de leitura das 11 hastes de

    extensmetros Grupo 1. .......................................................... 89Quadro 4.15 Resultados da aplicao das Redes Neurais de Kohonen

    Unidimensional para o agrupamento, mdias da execuo de 10 vezes, para a base de dados IRIS, WINE, PIMA GUN e LIGHTNING-2. ............................................................................ 89

    Quadro 4.16 Resultados da aplicao do algoritmo de Agrupamento baseado em Formigas proposto, mdias da execuo de 10 vezes, para as bases de dados reais (IRIS, WINE e PIMA). ......................... 90

    Quadro 4.17 Distribuio dos Padres IRIS melhor resultado. ................. 91Quadro 4.18 Distribuio dos Padres WINE melhor resultado. ............... 92Quadro 4.19 Resultados da aplicao do algoritmo de Agrupamento baseado

    em Formigas proposto, mdias da execuo de 10 vezes, para as bases de dados de sries temporais (GUN e LIGHTNING-2).. 92

    Quadro 4.20 Distribuio dos Padres GUN melhor resultado. ................ 93Quadro 4.21 Distribuio dos Padres LIGHTNING-2 melhor resultado. .. 93Quadro 4.22 Comparao dos resultados mdios da aplicao dos mtodos

    de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados IRIS. ........................................................ 94

    Quadro 4.23 Comparao dos resultados mdios da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados WINE. ...................................................... 94

  • Quadro 4.24 Comparao dos resultados mdios da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados PIMA. ...................................................... 94

    Quadro 4.25 Comparao dos resultados mdios da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados GUN. ....................................................... 95

    Quadro 4.26 Comparao dos resultados mdios da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados LIGHTNING-2. ........................................ 95

    Quadro 4.27 Comparao dos resultados mdios da aplicao do algoritmo proposto com resultados disponveis em Boryczka (2009) para as bases de dados reais. ............................................................ 95

    Quadro 4.28 Comparao dos resultados mdios da aplicao do algoritmo proposto com resultados disponveis em Keogh (2006) para as bases de dados de sries temporais. ......................................... 96

    Quadro 4.29 Resultados da avaliao do agrupamento pelo algoritmo de Agrupamento baseado em Formigas proposto para os dados de instrumentao geotcnica-estrutural da Itaipu. ......................... 96

    Quadro 4.30 Comparao das varincias mdias da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento proposto baseado em Formigas para os dados de instrumentao geotnica-estrutural da Itaipu. .................................................................................................... 99

    Quadro 4.31 Resultado da aplicao do mtodo de agrupamento Redes Neurais de Kohonen Unidimensional para os dados de instrumentao geotnica-estrutural da Itaipu melhor resultado.................................................................................................... 100

    Quadro 4.32 Resultados da avaliao do agrupamento pela aplicao das Redes Neurais de Kohonen Unidimensional para os dados de instrumentao geotcnica-estrutural da Itaipu ........................... 101

    Quadro 1 Anexo2

    Caractersticas dos trechos da Itaipu. ........................................ 118

    Quadro 2 Anexo2

    Quantidades e tipos de instrumentos no concreto encontrados nos blocos do trecho F da Itaipu (ITAIPU, 2008). ....................... 118

    Quadro 3 Anexo2

    Quantidades e tipos de instrumentos na fundao encontrados nos blocos do trecho F da Itaipu (ITAIPU, 2008). ....................... 119

  • LISTA SIGLAS

    A2CA Adaptative Ant Clustering Algoritthm Algoritmo de Agrupamento por Formigas Adaptvel ACAM Ant-based clustering algorithm Algoritmo de Agrupamento Baseado em Formigas Modificado ACO Ant Colony Optimization Otimizao por Colnia de Formigas

    ACS Ant Colony System Sistema de Colnia de Formigas

    AS Ant System Sistema de Formiga

    CBGB Comit Brasileiro de Grandes Barragens

    DM Data Mining Minerao de Dados

    ICOLD - International Comission on Large Dams Comisso Internacional de Grandes Barragens KDD Knowledge Discovery in Databases Descoberta de Conhecimento em Bases de Dados SOM Self Organizing Map Mapas auto-organizveis

    TSP Traveling Salesman Problem Problema do Caixeiro Viajante

  • LISTA DE SMBOLOS

    porcentagem de padres na grade classificados como semelhantes

    taxa de aprendizagem

    matriz de correlao

    matriz de covarincia

    raio de vizinhana ou percepo

    i i-simo erro ou fator especfico UU mdia ou valor esperado i varincia especfica

    AIC critrio de Akaike

    D ndice Dunn

    d(i, j) dissimilaridade ou distncia entre i e j

    )(XE valor esperado de UX

    FBj B j-simo fator comum

    f(i) funo de vizinhana

    2hi comunalidade

    ijA peso do j-simo fator FBj Bna i-sima varivel XBi N nmero mximo de iteraes

    NBocc B nmero de clulas da grade ocupadas

    P peso prprio

    PBdrop B Probabilidade de descarregar padres

    PBpickB Probabilidade de carregar padres

    Q matriz dos dados padronizada

    R ndice Aleatrio

    Sim medida de similaridade

    SQE soma do quadrado do erro

    )(XV varincia de UX

    wj peso sinptico do neurnio j

    UXU vetor aleatrio

  • SUMRIO

    1 INTRODUO..................................................................................... 161.1 O PROBLEMA ..................................................................................... 16

    1.2 OBJETIVOS......................................................................................... 18

    1.2.1 Objetivo Geral ...................................................................................... 18

    1.2.2 Objetivos Especficos........................................................................... 19

    1.3 JUSTIFICATIVA................................................................................... 19

    1.4 ESTRUTURA DO TRABALHO............................................................. 20

    2 REVISO DE LITERATURA ............................................................... 222.1 A SEGURANA DE BARRAGENS...................................................... 22

    2.1.1 Os Instrumentos de Monitoramento ..................................................... 25

    2.2 O PROCESSO KDD ............................................................................ 29

    2.2.1 Tarefas e Mtodos de Minerao de Dados ........................................ 30

    2.2.1.1 A Tarefa de Agrupamento.................................................................... 31

    2.3 ANLISE ESTATSTICA MULTIVARIADA .......................................... 34

    2.3.1 Anlise Fatorial .................................................................................... 34

    2.3.2 Anlise de Agrupamento...................................................................... 36

    2.4 REDES NEURAIS DE KOHONEN....................................................... 38

    2.4.1 O Algoritmo de Kohonen...................................................................... 39

    2.5 AGRUPAMENTO BASEADO EM FORMIGAS .................................... 41

    2.5.1 Histrico ............................................................................................... 41

    2.5.2 As Operaes de Carregar e Descarregar Padres ............................ 44

    2.5.3 Parmetros da Funo de Vizinhana ................................................. 46

    2.5.4 A Memria de Curto Prazo................................................................... 48

    2.5.5 A Incluso do Feromnio ..................................................................... 49

    2.5.6 Outras Abordagens .............................................................................. 49

    2.5.7 O Algoritmo Bsico proposto por Deneubourg et al. (1991, apud Handl, Knowles e Dorigo, 2006)........................................................... 51

    2.5.8 Recuperao do Agrupamento ............................................................ 52

    2.6 AGRUPAMENTO EM SRIES TEMPORAIS....................................... 52

    2.7 AVALIAO DO AGRUPAMENTO ..................................................... 54

    3 MATERIAIS E MTODOS ................................................................... 573.1 BASES DE DADOS ABORDADAS...................................................... 57

  • 3.1.1 Bases de Dados Reais e de Sries Temporais.................................... 57

    3.1.2 Base de Dados de Instrumentao Geotcnica-Estrutural da Itaipu.... 58

    3.2 SELEO DOS DADOS...................................................................... 59

    3.3 PR-PROCESSAMENTO E FORMATAO DOS DADOS................ 60

    3.4 MINERAO DE DADOS.................................................................... 63

    3.4.1 Detalhamento da Aplicao da Anlise Fatorial................................... 65

    3.4.2 Aplicao da Anlise de Agrupamento atravs da An1lise Multivariada.......................................................................................... 65

    3.5 AGRUPAMENTO DOS DADOS ATRAVS DAS REDES NEURAIS DE KOHONEN UNIDIMENSIONAL ..................................................... 66

    3.6 AGRUPAMENTO DOS DADOS ATRAVS DO ALGORITM1 DE AGRUPAMENTO BASEADO EM FORMIGAS PROPOSTO ............... 67

    3.6.1 Modificaes Propostas para o Agrupamento Baseado em Formigas. 71

    4 RESULTADOS E DISCUSSO........................................................... 734.1 RESULTADOS DA APLICAO DA ANLISE ESTATSTICA

    MULTIVARIADA................................................................................... 73

    4.2 APLICAO DAS REDES NEURAIS DE KOHONEN UNIDIMENSIONAL PARA O AGRUPAMENTO................................... 89

    4.3 RESULTADOS DO ALGORITMO DE AGRUPAMENTO BASEADO EM FORMIGAS PROPOSTO .............................................................. 90

    4.3.1 Resultados da Aplicao do Algoritmo de Agrupamento Baseado em Formigas Proposto para as 5 Bases de Dados.............................. 90

    4.3.2 Avaliao do Algoritmo de Agrupamento por Formigas Proposto em relao a outros dois mtodos Mtodo Ward e Redes Neurais de Kohonen Unidimensional ..................................................................... 93

    4.3.3 Resultados da Aplicao do Algoritmo de Agrupamento Baseado em Formigas Proposto para os Dados de Instrumentao Geotcnica-estrutural da Itaipu ............................................................ 96

    5 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS .... 1025.1 CONCLUSES.................................................................................... 102

    5.2 PRINCIPAIS CONTRIBUIES DO TRABALHO ............................... 105

    5.3 SUGESTES PARA TRABALHOS FUTUROS ................................... 107

    REFERNCIAS.................................................................................... 109

    ANEXOS .............................................................................................. 115

    ANEXO 1 INFORMAES SOBRE AS BASES DE DADOS UTILIZADAS ........................................................................................ 116

    ANEXO 2 A USINA HIDRELTRICA DE ITAIPU.............................. 117

  • ANEXO 3 EXEMPLO ACADMICO DO FUNCIONAMENTO DO ALGORITMO DE AGRUPAMENTO BASEADO EM FORMIGAS ....... 120

  • 16

    1 INTRODUO

    1.1 O PROBLEMA

    Uma vez que os potenciais prejuzos e riscos decorrentes de acidentes em

    barragens podem assumir grandes dimenses, um projeto seguro, uma construo

    adequada e a correta operao de barragens so preocupaes de mbito mundial.

    Alm disso, um efetivo monitoramento em grandes barragens imprescindvel para

    a segurana de sua estrutura. Diretrizes internacionais visando a segurana de

    barragens e muitas discusses produtivas sobre este tema tm sido propostas e

    conduzidas, tais como a da Comisso Internacional de Grandes Barragens (ICOLD -

    International Comission on Large Dams) (ICOLD, 2008). No Brasil, diretrizes visando

    segurana de barragens foram publicadas pelo Comit Brasileiro de Grandes

    Barragens em 1983 (CBGB, 1983). Alm disso, a Comisso de Constituio e

    Justia e de Cidadania aprovou no dia 23/06/2009 a proposta que obriga o Poder

    Executivo a instituir uma Poltica Nacional de Segurana de Barragens. O seu

    objetivo foi dotar o Poder Pblico de um instrumento permanente de fiscalizao das

    mais de 300 mil barragens existentes no Pas. O texto acatado o substitutivo ao

    Projeto de Lei 1181/03. A proposta original, Projeto de Lei PL 1181/03 BRASIL

    (2003), de autoria do deputado Leonardo Monteiro, define diretrizes de segurana

    para construo de barragens de gua e de aterros para conteno de resduos

    lquidos industriais.

    Exemplos recentes de rupturas de barragens no Brasil podem ser citados: a

    ruptura da barragem de Cmara, PA, em 2004; a ruptura da estrutura de desvio da

    barragem Campos Novos, SC, em 2006; a ruptura da barragem Algodes I, PI, em

    2009; dentre outros.

    Segundo Kalustyan (1999), as catstrofes tm sido sinais oportunos para a

    inspeo de critrios de projeto existentes e seleo de mtodos mais efetivos de

    monitoramento da segurana de barragens.

    Yenigun e Erkek (2007) apresentam uma tabela contendo estimativas das

    causas mais comuns de rupturas em barragens, dentre as quais destacam-se as

    seguintes: problemas de fundao; vertedouro inadequado; problemas de

    construo; recalques diferenciais; subpresso elevada; ruptura de aterros; materiais

  • 17

    defeituosos; operao incorreta; atos de guerra e terremotos. Todos estes

    problemas podem ser diagnosticados com o monitoramento da instrumentao da

    barragem, com exceo dos dois ltimos, cujas frequncias percentuais somam

    apenas 4%.

    Segundo Menescal (2009), a experincia mundial mostra que os custos para

    garantir a segurana de uma barragem so pequenos quando comparados aos

    custos em caso de ruptura. O autor ainda comenta sobre a importncia da utilizao

    de um banco de dados de instrumentao para subsidiar a anlise preliminar das

    leituras, detectando anomalias.

    O monitoramento da estrutura de uma barragem, de importncia bem

    conhecida, pode gerar uma enorme massa de dados, definidos em domnios

    multidimensionais, cuja anlise e interpretao nem sempre so triviais.

    importante selecionar as informaes que melhor entendam o comportamento da

    barragem, permitindo a previso e a resoluo de eventuais problemas que possam

    ocorrer.

    Uma interessante discusso sobre a avaliao de risco e de tomada de

    deciso para a segurana de barragens apresentada em Bowles et al. (2003). Este

    artigo prope uma matriz de justificativa e recomendao de deciso. As avaliaes

    propostas so adaptveis a qualquer prtica atual de engenharia de barragens,

    avaliao de risco de segurana de barragens e outros fatores de deciso. A

    abordagem pode ser til em trs tipos de deciso: estabelecer metas de risco

    tolerveis; identificar um caminho de reduo de riscos e administrar o risco residual.

    Harrald et al. (2004) fazem uma reviso sobre alguns sistemas e

    metodologias para a tomada de decises com o intuito de auxiliar na priorizao de

    tarefas e diminuio do risco de falhas. Entre os sistemas e as metodologias

    apresentadas no artigo esto a Metodologia de Avaliao de Risco para Barragens,

    a Metodologia de Avaliao de Risco Portflio, o Sistema Modelo Baseado em Risco

    para Segurana de Barragens, o ndice de Condio, entre outros. Os autores

    apresentam ainda uma matriz de comparao dos mtodos de anlise de risco para

    segurana de barragens.

    A Usina Hidreltrica de Itaipu, maior geradora de hidroeletricidade do

    mundo, possui mais de 2.200 instrumentos que monitoram seu comportamento

    geotcnico e estrutural, os quais possuem leituras armazenadas em um banco de

    dados h mais de 30 anos. A alta dimensionalidade e a grande quantidade de

  • 18

    registros contidos nas bases de dados so problemas no triviais tendo-se em vista

    a busca pelo conhecimento a partir destes dados.

    Este trabalho apresenta trs principais contribuies, dentre outras

    consideradas secundrias, sendo ainda abordado um importante problema de

    engenharia, a anlise de dados de instrumentao de grandes obras.

    A primeira contribuio diz respeito aplicao de tcnicas de agrupamento,

    dentre outras, no contexto de KDD, do ingls Knowledge Discovery in Databases

    ou Descoberta de Conhecimento em Bases de Dados, tendo como objetivo a

    identificao dos instrumentos que so realmente significativos anlise do

    comportamento de uma barragem.

    As novas propostas apresentadas ao algoritmo de Agrupamento baseado

    em Colnia de Formigas formam a segunda grande contribuio deste trabalho. Esta

    metaheurstica, relativamente nova, ainda exige muita investigao para melhorar

    seu desempenho.

    A terceira contribuio foi a aplicao deste algoritmo proposto a bases de

    dados de sries temporais. Poucos algoritmos de agrupamentos, recentemente

    criados, tm sido utilizados no agrupamento de sries temporais. Neste trabalho, os

    mtodos de agrupamento foram aplicados diretamente s bases de dados de sries

    temporais, sem a aplicao de um mtodo de pr-processamento dos dados visando

    o agrupamento dos dados especificamente para sries temporais.

    1.2 OBJETIVOS

    1.2.1 Objetivo Geral

    O objetivo principal deste trabalho apresentar uma metodologia,

    enquadrada na rea de KDD, com o intuito de realizar o agrupamento e a

    hierarquizao de instrumentos de monitoramento de barragens, maximizando a

    eficcia e a eficincia das anlises das leituras, atravs da identificao de grupos

    de instrumentos semelhantes e, tambm, detectando os principais instrumentos.

    Vale salientar que tal metodologia, que envolve a proposta de um Algoritmo

    para Agrupamento baseado em Colnias de Formigas, poder ser utilizada no

    apenas aos dados de monitoramento de outras barragens, mas, tambm, a

    quaisquer outras bases de dados.

  • 19

    1.2.2 Objetivos Especficos

    a) Aplicar a Anlise de Agrupamento, atravs da Anlise Multivariada, em

    cinco bases de dados reais e de sries temporais.

    b) Aplicar a Anlise de Agrupamento, atravs das Redes Neurais de

    Kohonen Unidimensional, s cinco bases de dados reais e de sries

    temporais.

    c) Propor alteraes e melhorias no algoritmo de Agrupamento baseado em

    Formigas originalmente proposto por Deneubourg et al. (1991, apud

    Handl, Knowles e Dorigo, 2006).

    d) Aplicar a Anlise de Agrupamento, atravs do algoritmo de Agrupamento

    baseado em Formigas proposto, s cinco bases de dados reais e de

    sries temporais, comparando os resultados obtidos com outros dois

    mtodos de agrupamento.

    e) Aplicar a Anlise de Agrupamento, atravs do algoritmo de Agrupamento

    baseado em Formigas proposto, aos dados de instrumentao

    geotcnica-estrutural da Usina Hidreltrica de Itaipu, mais

    especificamente, aos instrumentos chamados extensmetros, localizadas

    no trecho F da barragem.

    f) Aplicar a Anlise Fatorial aos extensmetros de cada grupo de

    instrumentos, fazendo a hierarquizao dos mesmos.

    1.3 JUSTIFICATIVA

    A anlise minuciosa dos dados dos instrumentos de auscultao exige a

    combinao de conhecimentos de engenharia com matemtica e estatstica, bem

    como experincia prvia do engenheiro ou tcnico responsvel pela interpretao

    destes dados, consumindo muito tempo e, muitas vezes, inviabilizando o

    cumprimento desta tarefa de forma eficiente. Por esta razo, o uso de tcnicas e

    ferramentas computacionais, que auxiliem o tomador de decises, extremamente

    relevante.

    Muitas vezes, um grande volume de dados contm informaes teis, as

    quais pode-se chamar de conhecimento, sendo que, em geral, esta informao no

    est facilmente disponvel ou identificada. Analistas humanos podem gastar

  • 20

    semanas para descobrir este conhecimento e, por este motivo, alguns bancos de

    dados grandes nunca recebem uma anlise detalhada adequada como deveriam

    (TAN, STEINBACH; KUMAR, 2005). Na medida em que h o aumento da

    quantidade de dados h, tambm, o aumento da aplicao de tcnicas de Minerao

    de Dados. Dados inteligentemente analisados constituem um valioso recurso para a

    tomada de decises (WITTEN; FRANK, 2000).

    Alm disso, no h registros da existncia de mtodos que realizem a

    hierarquizao de instrumentos de monitoramento em barragens. Em caso de

    necessidade de intensificao de leituras, esta hierarquizao poderia ser utilizado

    para definir, dentre os instrumentos, aqueles que seriam os escolhidos.

    Ainda, ao repetir-se o procedimento de anlise dos instrumentos em

    perodos subseqentes, a mudana na situao de um instrumento indicaria a

    necessidade de uma investigao mais aprofundada no mesmo.

    1.4 ESTRUTURA DO TRABALHO

    O texto est organizado da seguinte forma:

    No captulo 2 apresentada uma reviso bibliogrfica sobre Segurana de

    Barragens e Instrumentos de Monitoramento, explicitando a necessidade e a

    importncia da instrumentao para garantir a segurana. Tambm apresentada a

    descrio do Processo KDD, das tarefas de Minerao de Dados (agrupamento) e

    dos mtodos que sero utilizados neste trabalho, sempre relacionando-os com

    trabalhos j apresentados na literatura. Os mtodos utilizados para o agrupamento e

    descritos neste captulo 2, so: tcnicas da rea de Anlise Multivariada dos Dados;

    Redes Neurais de Kohonen e Agrupamento baseado em Formigas e, finalmente,

    so apresentadas tcnicas para a avaliao de agrupamentos.

    No captulo 3 so apresentadas seis bases de dados, com as quais se

    trabalhou: reais (3); de sries temporais (2) e a dos dados de instrumentao da

    barragem de Itaipu. As primeiras cinco bases de dados foram utilizadas com o intuito

    de melhor compreender as tcnicas apresentadas na literatura, permitindo, ento, o

    desenvolvimento de novas contribuies, como as j citadas.

    Ainda neste captulo 3 apresentada a 1. fase do processo KDD (etapas de

    seleo, pr-processamento e formatao dos dados) aplicada aos dados de

    instrumentao de Itaipu. Em seguida, apresentada a maneira como os mtodos

  • 21

    de agrupamento para a Minerao dos Dados (2. fase do processo KDD), Anlise

    Estatstica Multivariada e Redes Neurais de Kohonen sero aplicadas s bases de

    dados. E, finalmente, as principais contribuies (modificaes e melhorias) para o

    Agrupamento baseado em Colnias de Formigas so descritas.

    No captulo 4 so apresentados os resultados, discusses e figuras

    ilustrativas sobre a aplicao da proposta para o Agrupamento baseado em

    Formigas, nas bases de dados reais e de sries temporais, bem como o seu

    desempenho quando comparado aos outros dois mtodos aqui abordados (da

    Anlise Multivariada e Redes Neurais de Kohonen). Tambm so apresentados os

    resultados da aplicao do algoritmo proposto aos dados de instrumentao

    geotcnica-estrutural da Itaipu.

    Finalmente, no captulo 5, so apresentadas as concluses e as sugestes

    para trabalhos futuros.

  • 22

    2. REVISO DE LITERATURA

    Neste captulo so abordados os diversos temas tratados aqui neste trabalho

    (Segurana de Barragens e o Processo KDD, do qual so destacadas as seguintes

    etapas: Anlise Estatstica Multivariada; Redes Neurais de Kohonen; Metaheurstica

    para Agrupamento baseada em Formigas; Agrupamento em Sries Temporais e

    Avaliao de Agrupamento), assim como diversas referncias relacionadas aos

    mesmos.

    2.1 A SEGURANA DE BARRAGENS

    O conceito de Segurana de Barragens envolve aspectos estruturais,

    hidrulicos, geotcnicos, ambientais e operacionais. Estas caractersticas devem ser

    consideradas durante toda a vida til da barragem. Um sistema de instrumentao

    capaz de monitorar o comportamento geotcnico e estrutural de uma barragem

    essencial para avaliar seu comportamento e integridade. Uma boa reviso sobre a

    importncia da instrumentao para a avaliao da segurana de uma barragem

    pode ser encontrada em Dibiagio (2000) e Duarte, Calcina e Galvn (2006).

    Alguns objetivos da instrumentao de barragens e sua relao com

    segurana estrutural so descritos em dois Manuais de Engenharia publicados por

    U.S. Army Corp de Engenheiros (1987 e 1995). Nestes manuais, os principais

    objetivos de um plano de instrumentao geotcnico so agrupados em quatro

    categorias: avaliao analtica; predio de desempenho futuro; avaliao jurdica,

    desenvolvimento e verificao de projetos futuros. A instrumentao pode alcanar

    estes objetivos provendo dados quantitativos para acessar informaes teis como

    presso piezomtrica, deformao, tenso total e nveis de gua. Com inspees

    visuais e peridicas combinadas com anlise de dados cuidadosa uma condio

    crtica pode ser revelada (FEMA, 2004).

    Para Sar et al. (2006), o monitoramento de barragens assume diferentes

    caractersticas e finalidades dependendo da etapa da obra que se deseja analisar.

    Ao longo de sua vida til, podem-se detectar variaes nas condies de segurana.

    Para Duarte, Calcina e Galvn (2006), a instalao de um sistema de

    instrumentao geotcnica uma das medidas mais importantes e necessrias para

    garantir um nvel de segurana adequado para uma barragem. Este sistema permite

  • 23

    acompanhar o nvel de segurana durante a vida til da obra, verificando se tudo se

    mantm dentro das premissas estabelecidas em projeto.

    A necessidade de construo de novas barragens, a preocupao com a

    recuperao e manuteno de barragens j existentes, o fato de muitas destas

    obras no receberam os cuidados necessrios sua manuteno, motivaram

    Menescal (2009) a apresentar uma proposta de organizao institucional e de

    procedimentos, a fim de dotar o Brasil com um Sistema Integrado de Gesto da

    Segurana de Barragens. Segundo este autor somente com um grande esforo de

    melhoria da gesto da segurana, as barragens podero atender s necessidades

    da populao, sem representarem fonte de riscos permanentes.

    Segundo Krger (2008), a construo de barragens um exemplo da

    obrigatoriedade da considerao dos aspectos de incerteza e risco para a obteno

    de uma estrutura com desempenho e segurana adequados. No Brasil, apesar do

    grande nmero de barragens construdas e projetos em andamento, os critrios de

    projeto so permanentemente questionados e revisados. No trabalho deste autor, o

    principal objetivo foi desenvolver uma metodologia para a anlise de confiabilidade

    estrutural de barragens de concreto. Foram desenvolvidas equaes de estado

    limite para vrios modos de falha em barragens de concreto gravidade: flutuao,

    tombamento, deslizamento e tenses normais. O procedimento desenvolvido foi

    testado e validado a partir de dados do concreto compactado com rolo (CCR) da

    barragem de Salto Caxias, situada no Rio Iguau, Estado do Paran.

    Os princpios estabelecidos na NBR 8681 Aes e Segurana das

    Estruturas (ABNT, 2003) conceituam a segurana das obras de concreto de uma

    barragem. Em projetos de barragens de concreto gravidade, so necessrias

    verificaes correspondentes anlise de estabilidade, visando avaliar a segurana

    quanto aos movimentos: deslizamento, tombamento, flutuao, tenses na base da

    fundao e na estrutura, deformaes, recalques e vibraes.

    A estabilidade da barragem deve ser primeiramente analisada durante a fase

    de projeto. A geometria das estruturas e as propriedades dos materiais envolvidos

    devem ser consideradas bem como as condies de carregamento. Algumas

    condies de carregamento bsicas so mostradas na figura 2.1.

    Fisicamente se explica que a diferena de nvel de gua (montante-jusante)

    gera um gradiente hidrulico entre montante e jusante da barragem, fazendo com

    que a gua do reservatrio queira passar para jusante buscando o equilbrio

  • 24

    hidrulico. Para tal, a gua percola atravs do macio de fundao da barragem.

    Durante este processo, a gua infiltrada gera foras verticais que atuam de baixo

    para cima sob a barragem, denominadas subpresses na fundao. Representa-se

    por Fsubpresso a resultante destas foras. Alm disso, gua do reservatrio gera

    foras horizontais que atuam de montante jusante sobre a barragem, denominadas

    presses hidrostticas contra a parede da barragem. Representa-se por Freservatrio a

    resultante destas foras. Estas duas foras resultantes so chamadas foras

    desestabilizadoras. J a fora P (o peso prprio da barragem) uma fora

    estabilizadora da estrutura. A combinao Fsubpresso e de Freservatrio pode gerar o

    tombamento e/ou deslizamento da barragem, tanto pelos esforos e momentos

    diretamente aplicados quanto pelo alvio do peso prprio da estrutura (no caso das

    subpresses).

    Os efeitos das cargas na barragem, acima descritos, podem ser observados

    na figura 2.1, onde so enfatizados o deslizamento (a) e o tombamento (b).

    Figura 2.1 Condies de carga bsicas e formas de instabilizao de barragens de

    gravidade de concreto.

    As condies de carregamento e propriedades de materiais podem mudar

    ao longo do ciclo de vida da barragem e a instrumentao pode identificar algumas

    destas mudanas.

    A figura 2.2 mostra as diferenas no comportamento da barragem quanto s

    condies climticas caractersticas de vero e inverno, bem como suas

    conseqncias. No vero ocorre uma dilatao no concreto, o que provoca o

    tombamento do bloco montante. Este tombamento, por sua vez, faz com que o

  • 25

    bloco comprima a fundao. No inverno o concreto se contrai, provocando um

    tombamento do bloco jusante, voltando a posio inicial. Isto faz com que a

    presso exercida sobre a fundao, ocorrida no vero, seja aliviada. Pode-se ento

    identificar um comportamento cclico da estrutura, intimamente condicionado a

    condies ambientais que envolvem a obra.

    Figura 2.2 Comportamento da barragem com relao s condies climticas

    caractersticas de vero e inverno (Adaptada de Osako, 2002).

    2.1.1 Os Instrumentos de Monitoramento

    Segundo a FEMA (2004), a instrumentao deve ser usada como

    suplemento s inspees visuais na avaliao do desempenho e da segurana das

    barragens. A inspeo cuidadosa dos dados de instrumentao pode revelar uma

    condio crtica.

    A figura 2.3 apresenta as correlaes entre os tipos de instrumentos

    usualmente empregados na auscultao de barragens de concreto e os principais

    tipos de deteriorao de barragens de concreto (SILVEIRA, 2003). Observando-se

    esta figura, o extensmetro mltiplo, por exemplo, est relacionado com o

    monitoramento de deteriorao por escorregamento, recalque diferencial,

    subsidncia do terreno, disteno no p de montante e reatividade lcali-Agregado.

    A medio dos recalques de uma barragem de concreto uma das

    observaes mais importantes na superviso do comportamento da estrutura

    durante os perodos de construo, enchimento do reservatrio e operao da

    barragem. A medio de recalque pode ser realizada por extensmetros mltiplos de

    hastes instalados em furos de sondagem (SILVEIRA, 2003). A figura 2.4 mostra o

  • 26

    extensmetro mltiplo de haste e um exemplo de um perfil tpico de um

    extensmetro mltiplo de haste na Itaipu.

    Figura 2.3 Correlao entre os tipos de instrumentos e a deteriorao de

    barragens de concreto (SILVEIRA, 2003).

    Com o uso de vrias hastes, pode-se fazer a medio dos deslocamentos e

    deformaes em vrios trechos da fundao, dentre eles, contato concreto-rocha,

    juntas-falhas e outras descontinuidades subhorizontais na fundao. Esta

    abordagem foi usada na barragem de Itaipu, onde diversos pontos do macio de

    fundao foram instrumentados, em especial as descontinuidades geolgicas. A

    figura 2.5 mostra um perfil geolgico tpico do macio de fundao do trecho sem

    tnel da Barragem Lateral Direita da Itaipu, onde podem-se observar as principais

    descontinuidades (contatos, brechas e juntas) daquele sitio. Nos blocos onde h

    galerias de acesso transversais ao eixo (como na figura 2.6), a instalao de

    extensmetros a montante e a jusante permite medir deslocamentos angulares da

    barragem junto fundao (SILVEIRA, 2003).

    A medio de deslocamentos horizontais da crista so parmetros de

    relevante importncia, afetados por deflexes da estrutura de concreto, rotao da

  • 27

    base da estrutura (devido deformabilidade da fundao) ou influncias trmicas

    ambientais. Estes deslocamentos so afetados por caractersticas do concreto ou

    por propriedades do macio rochoso de fundao, resultando em importantes

    informaes para a auscultao do comportamento da barragem e de sua fundao.

    Os deslocamentos horizontais da crista podem ser medidos por pndulos diretos,

    normalmente instalados ao final do processo construtivo. As medies ocorrem nas

    fases de enchimento do reservatrio e operao da barragem (SILVEIRA, 2003).

    Figura 2.4 Extensmetro mltiplo de haste e um exemplo de um perfil tpico de um

    extensmetro mltiplo de haste na Itaipu (Adaptada de MATOS, 2002).

  • 28

    Figura 2.5 Perfil geolgico esquemtico da fundao da Itaipu (ITAIPU

    BINACIONAL, 1995, apud OSAKO, 2002).

    Figura 2.6 Blocos com galeria de acesso transversal ao eixo (ITAIPU, 2008).

    A estabilidade da estrutura em termos de escorregamento, tombamento ou

    flutuao diretamente afetada pelo nvel das presses piezomtricas na interface

    concreto-rocha e nas descontinuidades subhorizontais de baixa resistncia

    existentes na fundao. A medio das subpresses na fundao das barragens de

    concreto importante para a superviso de suas condies de segurana. A

    drenagem um dos meios mais eficientes para assegurar coeficientes de segurana

    adequados. As medidas de subpresses so realizadas pelos piezmetros

    (SILVEIRA, 2003).

    Outra medio importante a das vazes de drenagem pela fundao e

    infiltraes, atravs do concreto de uma barragem. Estas medies devem ser feitas

  • 29

    durante o enchimento do reservatrio e no perodo de operao, pois refletem

    imediatamente muitos dos problemas que ocorrem com esse tipo de estrutura. As

    medies podem ser realizadas com a instalao de medidores de vazo do tipo

    triangular ao longo das canaletas de drenagem, junto ao piso das galerias

    (SILVEIRA, 2003).

    2.2 O PROCESSO KDD

    Segundo Fayyad et al. (1996), o processo KDD, do ingls Knowledge

    Discovery in Databases ou Descoberta de Conhecimento em Bases de Dados,

    um processo no trivial de descoberta de padres vlidos, novos, teis e acessveis.

    A principal vantagem do processo de descoberta que no so necessrias

    hipteses, sendo que o conhecimento extrado dos dados sem conhecimento

    prvio.

    Muitas vezes a expresso Minerao de Dados (do ingls Data Mining

    DM) usada como sinnimo do processo KDD. Segundo Diniz e Louzada-Neto

    (2000), a minerao de dados uma parte do processo KDD que se relaciona com a

    anlise de dados e o uso de ferramentas computacionais na busca de padres

    (caracterstica, regras e regularidades) em um grande conjunto de dados.

    O processo KDD um conjunto de atividades contnuas que so compostas,

    basicamente, por cinco etapas: seleo dos dados, pr-processamento, formatao

    ou transformao, Minerao de Dados e interpretao dos resultados, como

    ilustrado na figura 2.7.

    Primeiramente deve-se ter domnio da aplicao e objetivos claros. Na

    primeira etapa so selecionados e coletados os dados necessrios. Na etapa de

    pr-processamento verificam-se os dados faltantes ou inconsistentes. Na etapa de

    transformao h uma preparao dos dados visando aplicao da Minerao de

    Dados, usando mtodos de reduo de dimensionalidade dos dados, por exemplo. A

    etapa de Minerao de Dados o ncleo do processo, onde so aplicados os

    algoritmos para extrair padres dos dados. A etapa de Interpretao dos resultados

    consiste em validar o conhecimento extrado (FAYYAD et al., 1996). Segundo Silver

    (1996), as etapas de pr-processamento e formatao podem levar at 80% do

    tempo necessrio de todo o processo.

  • 30

    Figura 2.7 Etapas do processo KDD, adaptada de Fayyad et al. (1996).

    Dentro do contexto do processo KDD, alguns termos so muito usados e

    esto bem definidos em Witten e Frank (2000). So eles:

    Conceito: resultado do processo de aprendizado; Exemplos (tambm chamados de instncias ou padres): entradas do

    processo de aprendizagem, um conjunto de caractersticas que definem

    um objeto;

    Atributos (tambm chamados de caractersticas): qualquer medio til extrada no processo de identificao do padro; podem ser nominais ou

    numricos, contnuos ou discretos.

    O principal objetivo do processo KDD extrair o conhecimento a partir de

    informaes escondidas nos dados que sejam teis nas tomadas de decises,

    utilizando mtodos, algoritmos e tcnicas de diferentes reas cientficas, que

    segundo Tan, Steinbach e Kumar (2005) incluem Estatstica, Inteligncia Artificial,

    Aprendizagem de Mquinas e Reconhecimento de Padres.

    2.2.1 Tarefas e Mtodos de Minerao de Dados

    As tarefas de Minerao de Dados podem ser preditivas ou descritivas. As

    preditivas usam algumas variveis para prever valores desconhecidos ou futuros de

  • 31

    outras variveis, enquanto que as descritivas encontram padres para descrever os

    dados. As principais tarefas de Minerao de Dados esto relacionadas

    Classificao, Associao e Agrupamento de padres (FAYYAD et al., 1996).

    Na Classificao, cada padro contm um conjunto de atributos e um dos

    atributos denominado classe. O objetivo da classificao encontrar um modelo

    para predio da classe como funo dos outros atributos (TAN; STEINBACH;

    KUMAR, 2005). A regresso um caso particular da classificao, j que seu

    objetivo encontrar um modelo para predio de um atributo contnuo como funo

    dos outros atributos.

    J na Associao, o objetivo produzir regras de dependncia que iro

    predizer a ocorrncia de um atributo baseado na ocorrncia de outros atributos

    (TAN; STEINBACH; KUMAR, 2005). Regras de associao no so diferentes de

    regras de classificao, exceto pelo fato de que elas podem predizer algum atributo,

    no necessariamente a classe (WITTEN; FRANK, 2000).

    O Agrupamento ou Segmentao (Clustering) procura grupos de padres tal

    que padres pertencentes a um mesmo grupo so mais similares uns aos outros e

    dissimilares a padres em outros grupos. Segundo Hair Jr et al. (2005), a anlise de

    agrupamentos uma tcnica analtica para desenvolver subgrupos significativos de

    objetos. Seu objetivo classificar os objetos em um pequeno nmero de grupos

    mutuamente excludentes. Para Freitas (2002), na anlise de agrupamento

    importante favorecer um nmero pequeno de grupos.

    2.2.1.1 A Tarefa de Agrupamento

    Os algoritmos de agrupamento podem ser divididos em categorias de

    diversas formas de acordo com as caractersticas. As duas principais classes de

    algoritmos de agrupamento so: os mtodos hierrquicos e os mtodos de

    particionamento.

    Os mtodos hierrquicos englobam tcnicas que buscam de forma

    hierrquica os grupos e, por isso, admitem obter vrios nveis de agrupamento. Os

    mtodos hierrquicos podem ser subdivididos em divisivos ou aglomerativos. O

    mtodo hierrquico aglomerativo considera, a princpio, cada padro como um grupo

    e, iterativamente, agrupa o par de grupos com maior similaridade em um novo grupo

    at formar um nico grupo contendo todos os padres. O mtodo hierrquico

  • 32

    divisivo, ao contrrio, inicia com um nico grupo e executa um processo de

    sucessivas subdivises (DINIZ; LOUZADA-NETO, 2000).

    Os mtodos de agrupamento hierrquicos mais populares so: Ligao

    Simples, Ligao Completa, Ligao Mdia e Mtodo Ward. A forma mais comum de

    representar um agrupamento hierrquico utiliza um dendrograma, que representa o

    agrupamento dos padres e os nveis de similaridade em que os grupos se formam.

    O dendrograma pode ser quebrado em diferentes nveis, mostrando diferentes

    grupos (JAIN; MURTY; FLYNN, 1999). No dendrograma da figura 2.8, admitindo um

    corte no nvel apresentado na referida figura, observam-se dois grupos, sendo o

    primeiro composto pelos padres P1, P2 e P5 e o segundo composto pelos padres

    P3 e P4.

    Mtodos no-hierrquicos ou de particionamento procuram uma partio

    sem a necessidade de associaes hierrquicas. Seleciona-se uma partio dos

    elementos em k grupos, otimizando algum critrio (DINIZ; LOUZADA-NETO, 2000).

    O mtodo mais conhecido entre os mtodos de particionamento o das k-

    mdias (JOHNSON; WICHERN, 1998). Normalmente os k grupos encontrados so

    de melhor qualidade do que os k grupos produzidos pelos mtodos hierrquicos. Os

    mtodos de particionamento so vantajosos em aplicaes que envolvem grandes

    sries de dados.

    Figura 2.8 Exemplo de dendrograma.

  • 33

    Outra caracterstica importante que classifica algoritmos de agrupamento a

    utilizao de grades. Os mtodos de agrupamento baseados em grade tm como

    principal caracterstica a subdiviso do espao em clulas. So exemplos de

    agrupamentos baseados em grade o Algoritmo de Agrupamento baseado em

    Colnia de Formigas e as Redes Neurais de Kohonen (KOHONEN, 1995).

    Neste presente trabalho, a tarefa de Minerao de Dados est relacionada

    ao agrupamento de padres. Os mtodos a serem utilizados para realizar esta tarefa

    so: da rea de Estatstica Multivariada (Ligao Simples, Mdia, Completa e

    Mtodo Ward), da rea de Redes Neurais Artificiais (Redes Neurais de Kohonen

    Unidimensional) e da rea de Metaheursticas (Agrupamento baseado em Colnia

    de Formigas).

    Os mtodos da rea de Estatstica Multivariada foram utilizados por serem

    mtodos j consagrados. A Anlise Estatstica Multivariada um mtodo antigo mas

    que foi viabilizado mais recentemente com a computao barata. As Redes Neurais

    de Kohonen Unidimensional foram utilizadas porque, assim como o Agrupamento

    baseado em Formigas, executam as tarefas de agrupamento e mapeamento

    topogrfico, simultaneamente.

    Alm disso, o algoritmo de Agrupamento baseado em Colnia de Formigas

    foi escolhido para estudo, anlise e novas propostas, devido a diversos fatores.

    Primeiramente, uma metaheurstica relativamente nova e tem recebido ateno

    especial, principalmente porque ainda exige muita investigao para melhorar seu

    desempenho, estabilidade e outras caractersticas, consideradas chaves, que

    fariam de tal algoritmo uma ferramenta madura para minerao de dados

    (BORYCZKA, 2009). Ainda, o referido algoritmo consegue descobrir,

    automaticamente, a quantidade de grupos nos padres. Esta uma vantagem,

    principalmente, na aplicao aos dados de instrumentao geotcnica-estrutural da

    Itaipu, pois no h conhecimento prvio que indique a quantidade de grupos.

    Vale salientar que estes algoritmos que fazem mapeamento topogrfico vo

    alm de um mero agrupamento. Segundo Handl, Knowles e Dorigo (2006), eles no

    so limitados descoberta de grupos homogneos nos dados, mas tambm

    capturam relaes de vizinhana numa visualizao bi-dimensional de um espao

    de dados de alta dimenso.

    Outra questo, observada por Liao (2005), que so poucos os estudos de

    agrupamentos relacionados a sries temporais que utilizam algoritmos de

  • 34

    agrupamento criados mais recentemente como, por exemplo, o Algoritmo de

    Agrupamento baseado em Colnia de Formigas. Vale ressaltar que neste estudo, a

    tarefa de agrupamento foi aplicada aos dados de instrumentao geotcnica-

    estrutural da Itaipu, que so sries temporais, alm de outras bases de dados

    conforme ser visto mais adiante.

    Segundo Handl e Meyer (2007), o agrupamento com algoritmos baseados

    em enxames (Swarm) est emergindo como uma alternativa aos mtodos mais

    convencionais, tais como o agrupamento hierrquico e o k-mdias. Destes, o

    agrupamento baseado em formigas destaca-se como o mais utilizado grupo de

    algoritmos de agrupamento baseado em enxames.

    2.3 ANLISE ESTATSTICA MULTIVARIADA

    2.3.1 Anlise Fatorial

    A Anlise Fatorial um mtodo estatstico cujo objetivo explicar as

    correlaes entre um conjunto grande de variveis em termos de um conjunto de

    poucas variveis aleatrias no-observveis chamadas fatores. Assim, seja o vetor

    aleatrio UXU composto por p variveis aleatrias, ' ...1 2 3 = X x x x x p e se deseja

    estudar a estrutura de covarincia desse vetor, ou seja, se UXU for observado n vezes

    tem-se que os seus parmetros ( )=E X e ( )=V X podem ser estimados e o relacionamento entre as variveis representado pela matriz de covarincia ou de

    correlao avaliadas. A anlise fatorial faz um agrupamento de variveis para

    explicar a influncia de variveis latentes (no observveis) ou fatores. Dentro de um

    mesmo grupo, as variveis so altamente correlacionadas entre si, sendo que de um

    grupo para outro, as correlaes so baixas. Cada grupo representa um fator, o qual

    responsvel pelas correlaes observadas.

    A matriz de covarincia do vetor UXU pode ser colocada na forma exata: ( ) '= = +V X LL , onde a matriz LL tem na diagonal principal as chamadas

    comunalidades definidas para cada varivel considerando-se m fatores por:

    2 2 2 2...1 2

    = + + +h mi i iA A A com i = 1, 2, ..., p. Assim, a comunalidade hBi PB2 P a parte da

    varincia da varivel aleatria x Bi B que vem dos m fatores. E, a parte da varincia da

  • 35

    varivel aleatria xBi B devida aos fatores p - m no importantes chama-se varincia

    especfica. Ento, 2( )= +V x hi i i . Existem vrios critrios para definir o nmero m de fatores. O critrio mais

    utilizado o critrio de Kaiser (JOHNSON; WICHERN, 1998), que diz que o nmero

    de fatores extrados deve ser igual ao nmero de autovalores maiores do que um.

    Seja UXU um vetor aleatrio, com p componentes, mdia UU e matriz de covarincia . No modelo fatorial, UXU linearmente dependente sobre algumas variveis aleatrias no-observveis FB1 B, FB2 B, ... , FBm B chamadas fatores comuns e p

    fontes de variaes aditivas: B1 B, B2 B, ... , Bp B, chamadas erros ou fatores especficos. O modelo de Anlise Fatorial obtido pelo sistema abaixo, onde Bi B a

    mdia da i-sima varivel, BiB o i-simo erro ou fator especfico, FBj B o j-simo fator comum e ABij B o peso do j-simo fator FBj Bna i-sima varivel XBi B. A equao 2.1 mostra o modelo na forma matricial.

    ... 1,2,...,1 1 11 1 12 2 1 1... 1,2,...,2 2 21 1 22 2 2 2

    ...

    ... .1 1 2 2

    X F F F i pmmX F F F j mmm

    X F F F m pp p pm m pp p

    = + + + + = = + + + + =

    = + + + +

    A A AA A A

    A A A

    'X LL= + + (2.1)

    Nesse modelo ortogonal assume-se que E( UFU) = U0UBm x 1 B, V( UFU) = E(UFU UFU) = IBm x m B,

    E( U U) = U0UBp x 1 B, V ( U U) = E( U U) = Bp x p B (matriz diagonal com 's na diagonal) e Cov ( U U, UFU ) = 0 Bp x m B.

    Segundo Johnson e Wichern (1998), o modelo e as restries anteriores

    constituem o Modelo Fatorial Ortogonal.

    Para estimar os pesos ABij B e as varincias especficas Bi B, pode-se utilizar o mtodo das componentes principais, que descrito resumidamente a seguir

    (JOHNSON; WICHERN, 1998).

    Sejam os pares de autovalores-autovetores ( BiB, UeUBi B) da matriz de covarincia amostral S, com B1 B B2 B ... Bp B 0. Seja m < p o nmero de fatores comuns. A

  • 36

    matriz dos pesos estimados dos fatores dada por L = CDP1/2 P, onde C a matriz dos

    autovetores e D uma matriz diagonal cujos elementos diagonais so os

    autovalores.

    Na aplicao desse mtodo, as observaes primeiramente so

    centralizadas ou padronizadas. Neste caso, a matriz de covarincia amostral S a

    matriz correlao amostral R. As varincias especficas Bi B estimadas so fornecidas pelos elementos diagonais da matriz = S LL'.

    Em muitas aplicaes preciso estimar o valor de cada um dos fatores (no

    observveis) para uma observao individual UXU, sendo que esses valores dos

    fatores so chamados de escores fatoriais. Os escores fatoriais estimados para as

    variveis originais so UFU = (L'L) P1 PL'( UXU X ) e para as variveis padronizadas so UFU =

    (LL)Lz, desde que se use componentes principais para estimar os pesos.

    Segundo Johnson e Wichern (1998), com a rotao dos fatores se obtm

    uma estrutura para os pesos tal que cada varivel tenha peso alto em um nico fator

    e pesos baixos ou moderados nos demais fatores. Kaiser sugeriu uma medida

    analtica conhecida como critrio Varimax (JOHNSON; WICHERN, 1998).

    Define-se por i ijij

    hij

    AA = , os coeficientes rotacionados escalonados pela raiz

    quadrada das comunalidades. O procedimento Varimax seleciona a transformao

    ortogonal T que torna V (dado pela equao 2.2) o maior possvel, ou seja, o

    procedimento parte de ' 'LTT L= e fornece os pesos *A vindos de LT. Ento, o critrio maximizar V.

    1 4 2* * /1 1 1

    p pmV pij ijp j i i

    = = = =A A (2.2)

    2.3.2 Anlise de Agrupamento

    O agrupamento de padres feito com base numa medida de similaridade

    ou dissimilaridade. A medida de similaridade avalia se os objetos so similares, ou

    seja, quanto maior o valor da medida mais parecidos so os objetos. A mais

    conhecida medida de similaridade o coeficiente de correlao. A medida de

  • 37

    dissimilaridade avalia se os objetos so dissimilares, ou seja, quanto maior o valor

    da medida menos parecidos sero os objetos. A mais conhecida medida de

    dissimilaridade a distncia Euclidiana.

    Na seo 2.2.1.1 foi citado que os mtodos hierrquicos fazem

    agrupamentos ou divises (nos mtodos de agrupamento hierrquicos divisivos)

    iterativas de pares de grupos. Estes agrupamentos ou estas divises so feitos por

    meio de ligaes. Os tipos de ligaes mais comuns so: Ligao Simples, Ligao

    Completa, Ligao Mdia e Mtodo Ward, conforme j comentado tambm.

    Na ligao simples (ou vizinho mais prximo), a distncia entre dois grupos

    a mnima das distncias entre todos os pares de padres i e j, i pertencente ao

    primeiro grupo e j ao segundo (JAIN; MURTY; FLYNN, 1999). Por exemplo, se um

    grupo 1 formado pelos padres U e V e um grupo 2 formado pelo padro W, a

    distncia entre os grupos 1 e 2 calculada dB(1,2)B = min{dBUW B, dBVW B} (JOHNSON;

    WICHERN, 1998).

    Na ligao completa (ou vizinho mais distante), a distncia entre dois grupos

    a mxima das distncias entre todos os pares de padres i e j, i pertencente ao

    primeiro grupo e j ao segundo (JAIN; MURTY; FLYNN, 1999). Por exemplo, se um

    grupo 1 formado pelos padres U e V e um grupo 2 formado pelo padro W, a

    distncia entre os grupos 1 e 2 calculada dB(1,2)B = mx{dBUW B, dBVW B} (JOHNSON;

    WICHERN, 1998).

    J na ligao mdia, a distncia entre dois grupos a mdia das distncias

    entre todos os pares de padres, sendo que cada padro do par de um grupo. Se

    um grupo 1 formado pelos elementos U e V e um grupo 2 formado pelo elemento

    W, a distncia entre os grupos 1 e 2 calculada dB(1,2)B = dBik B / NB1 B*NB2 B, onde dBik B a distncia entre o padro i no grupo 1 e o padro k no grupo 2, NB1 B o nmero de

    padres no grupo 1 e NB2 B o nmero de padres no grupo 2 (JOHNSON; WICHERN,

    1998).

    Ainda segundo Johnson e Wichern (1998), o Mtodo Ward faz a juno de

    dois grupos baseando-se na perda de informao. Considera-se como critrio de

    perda de informao a soma do quadrado do erro (SQE). Para cada grupo i,

    calcula-se a mdia (ou centride) do grupo e a soma do quadrado do erro do grupo i

    (SQEBi B) que a soma do quadrado do erro de cada padro do grupo em relao

    mdia. Para k grupos tm-se SQEB1 B, SQEB2 B, ..., SQEBk B, onde define-se SQE pela

    equao 2.3.

  • 38

    SQE = SQE1 + SQE2 + ... + SQEk (2.3)

    Para cada par de grupos m e n, primeiramente, calcula-se a mdia (ou

    centride) do grupo formado (grupo mn). Em seguida, calcula-se a soma do

    quadrado do erro do grupo mn (SQEmn), segundo a equao 2.4.

    SQE = SQE1 + SQE2 + ... + SQEk SQEm SQEn + SQEmn (2.4)

    Os grupos m e n que apresentarem o menor aumento na soma do erro

    quadrtico (SQE) (menor perda de informao) sero unidos. Segundo Hair Jr et

    al. (2005), este mtodo tende a obter grupos de mesmo tamanho devido a

    minimizao de sua variao interna.

    2. 4 REDES NEURAIS DE KOHONEN

    Segundo Fausett (1994), Teuvo Kohonen, em 1982, desenvolveu o mtodo

    de mapas de caracterstica auto-organizveis que faz uso de uma estrutura

    topolgica para agrupar as unidades (padres). Self Organizing Map (SOM; ou

    Mapas auto-organizveis), tambm conhecidos por Redes Neurais de Kohonen,

    formam uma classe de Redes Neurais Artificiais em que a aprendizagem no

    supervisionada.

    Segundo Haykin (2001) o principal objetivo das Redes Neurais de Kohonen

    transformar padres de entrada de dimenso arbitrria em um mapa discreto. Os

    neurnios so colocados nos ns de uma grade, que pode ter qualquer

    dimensionalidade, normalmente so utilizadas grades bidimensionais (chamado de

    2D-SOM). Existem ainda o 1D-SOM e o 3D-SOM, que utilizam grades (ou mapas)

    de uma e trs dimenses, respectivamente.

    Segundo Fausett (1994), as Redes Neurais Auto-Organizveis so

    conhecidas por preservar a topologia. Segundo a autora, esta propriedade

    observada no crebro, mas no encontrado em outras redes neurais artificiais.

    O processo de aprendizagem de uma Rede Neural de Kohonen baseado

    no aprendizado competitivo, onde os neurnios de sada da grade competem entre

    si para serem ativados. O neurnio de sada que vence a competio chamado de

    neurnio vencedor. Todos os neurnios da grade devem ser expostos a um nmero

  • 39

    suficiente de padres de entrada para assegurar o amadurecimento apropriado do

    processo de auto-organizao (HAYKIN, 2001).

    Segundo Haykin (2001), alm do processo de competio, ainda so

    essenciais os processos de cooperao e adaptao para a formao do mapa. No

    processo de cooperao, o neurnio vencedor localiza o centro de uma vizinhana

    topolgica de neurnios cooperativos. Para que o processo de auto-organizao

    ocorra, no processo de adaptao os neurnios excitados tm seus pesos sinpticos

    ajustados. O ajuste feito tal que a resposta do neurnio vencedor aplicao de

    um padro de entrada similar melhorada.

    2.4.1 O Algoritmo de Kohonen

    O primeiro passo na execuo do algoritmo de Redes Neurais de Kohonen

    a inicializao, onde se definem a taxa de aprendizagem inicial (0), o raio de

    vizinhana inicial (0), os pesos sinpticos iniciais dos neurnios UwUBj B(0) e o nmero

    mximo de iteraes N. Escolhem-se valores aleatrios para os vetores de pesos

    iniciais e recomenda-se a padronizao dos dados no intervalo [0, 1].

    No segundo passo, define-se o critrio de parada, que pode ser um nmero

    mximo de iteraes, um nmero de iteraes sem a alterao dos valores da matriz

    peso, dentre outros.

    O terceiro passo o treinamento, que envolve as fases competitiva,

    cooperativa e adaptativa, onde cada padro UxU deve ser apresentado rede. O

    aprendizado pode ser seqencial ou por lote. Na aprendizagem por lote a

    atualizao dos pesos dos neurnios acontece ao final de cada iterao e na

    aprendizagem seqencial a atualizao ocorre aps a apresentao de cada

    padro.

    Na fase competitiva, calculam-se as distncias do padro a todos os

    neurnios e verifica-se qual o neurnio vencedor, ou seja, aquele cuja distncia ao

    padro seja a mnima. A distncia uma medida de dissimilaridade, ou seja, quanto

    menor for a distncia, mais prximo o neurnio estar do padro analisado. A

    distncia Euclidiana a medida de dissimilaridade mais comum. Nesta fase,

    tambm pode ser usada uma medida de similaridade. Neste caso, quanto maior a

    medida de similaridade, mais prximo o neurnio estar do padro analisado. A

  • 40

    correlao a medida de similaridade mais comumente utilizada. Outras medidas de

    similaridade e de distncia so encontradas em Kohonen (1995).

    Na fase cooperativa, localizam-se os vizinhos do neurnio vencedor. Na

    figura 2.9 so mostradas duas topologias: retangular e hexagonal (para 2D-SOM) e

    so identificados os vizinhos para raios de vizinhana iguais a zero, um e dois. Se o

    raio de vizinhana zero, o neurnio no possui vizinhos e somente o neurnio

    vencedor atualizado. Se o raio de vizinhana um, na grade retangular cada

    neurnio tem oito vizinhos e na grade hexagonal cada neurnio tem seis vizinhos e

    assim sucessivamente.

    Na fase adaptativa, atualizam-se os pesos sinpticos dos neurnios vizinhos

    ao neurnio vencedor segundo a equao 2.5, apresentada mais adiante. Nesta

    atualizao leva-se em considerao a distncia do vizinho at o neurnio vencedor

    e a atualizao mais intensa nos vizinhos mais prximos. Uma funo de

    vizinhana, que varia com o tempo n, utilizada neste sentido e deve satisfazer a

    duas exigncias: ser simtrica em relao ao seu ponto mximo (que atingido no

    neurnio vencedor) e decrescer monotonamente com o aumento da distncia lateral.

    A funo Gaussiana (equao 2.6) a mais utilizada.

    UwUBj B(n+1) = UwUBj B(n) + (n) . hBj,i(x)B(n) . (UxU- UwUBj B(n)) (2.5)

    hBj,i(x)B(n) =

    2,22 ( )

    dj in

    e

    (2.6)

    Figura 2.9 Vizinhana para grades retangular e hexagonal com raios de vizinhana

    iguais a zero, um e dois (FAUSETT, 1994).

  • 41

    O quarto passo consiste em atualizar a taxa de aprendizagem (equao 2.7)

    e o raio de vizinhana (equao 2.8). Em seguida, retorna-se ao segundo passo at

    que um critrio de parada seja satisfeito.

    2( ) 0

    nn e

    = (2.7)

    1( ) 0

    nn e = (2.8)

    Segundo Siqueira (2005), podem ser utilizadas vrias medidas de erro para

    determinar a qualidade de um mapa. O autor utiliza em seu trabalho o erro de

    quantizao, que representa o erro mdio correspondente diferena entre os

    padres e os pesos dos neurnios vencedores; o erro topolgico, que representa o

    percentual de neurnios vencedores que no possuem o segundo vencedor em uma

    vizinhana de raio unitrio centrada no neurnio vencedor e o erro mdio quadrtico.

    Uma forma para determinar os agrupamentos utiliza a matriz de densidade.

    Nesta matriz cada elemento representa o nmero de padres associados ao

    respectivo neurnio. Os neurnios com nmero reduzido de padres associados a

    ele determinam as fronteiras entre os agrupamentos.

    Existem diversas abordagens variantes das Redes Neurais de Kohonen. Os

    algoritmos, inspirados no original, modificam alguns aspectos como, por exemplo,

    critrio de vizinhana, forma de escolha do neurnio vencedor, o uso de mapas

    hierrquicos, acelerao da aprendizagem, dentre outros (KOHONEN, 1995).

    2.5 AGRUPAMENTO BASEADO EM FORMIGAS

    2.5.1 Histrico

    Sociedades de insetos sociais so sistemas distribudos que apresentam

    uma organizao social altamente estruturada, apesar da simplicidade dos seus

    indivduos. Como resultado desta organizao, colnias de formigas podem realizar

    tarefas complexas que, em alguns casos, excede a capacidade individual de uma

    nica formiga. Na rea de ''algoritmos de formigas'' estudam-se modelos inspirados

    na observao do comportamento de formigas reais e usam-se estes modelos como

  • 42

    fonte de inspirao para o desenvolvimento de novos algoritmos para a soluo de

    problemas de otimizao e de controle distribudo (DORIGO; STTZLE, 2004).

    Entre os comportamentos dos insetos sociais, o mais amplamente

    reconhecido a habilidade das formigas para trabalhar em grupo para desenvolver

    uma tarefa que no poderia ser executada por um nico agente. Tambm visto em

    sociedade humana, esta habilidade de formigas um resultado de efeitos

    cooperativos. O efeito cooperativo recorre ao fato de que o efeito de dois ou mais

    indivduos ou partes coordenadas mais alto do que o total dos efeitos individuais.

    Alguns pesquisadores alcanaram resultados promissores em minerao de dados

    usando uma colnia de formigas artificial. O nmero alto de indivduos em colnias

    de formigas e a abordagem descentralizada para tarefas coordenadas (executadas

    de forma simultnea) significam que colnias de formigas mostram graus altos de

    paralelismo, auto-organizao e tolerncia a falhas. Estas caractersticas so

    desejadas em tcnicas de otimizao modernas (BORICZKA, 2009).

    Muitos pesquisadores focalizaram sua ateno em uma classe nova de

    algoritmos, chamados de metaheursticos. Segundo Dorigo e Sttzle (2004), uma

    metaheurstica um conjunto de conceitos algortmicos que podem ser usados para

    definir mtodos heursticos aplicveis para um grande conjunto de diferentes

    problemas.

    Um metaheurstica, particularmente promissora, foi inspirada no

    comportamento de formigas reais. Comeando com Sistema de Formigas, foram

    desenvolvidas e aplicadas vrias abordagens algortmicas baseadas nas mesmas

    idias com sucesso considervel para uma variedade de problemas de otimizao

    combinatria, acadmicos e reais (DORIGO; STTZLE, 2004).

    Otimizao por colnia de formigas (Ant Colony Optimization ACO) uma

    metaheurstica em que a colnia de formigas artificiais coopera para encontrar boas

    solues para problemas de otimizao discretos difceis (DORIGO; STTZLE,

    2004). Dorigo, Caro e Gambardella (1999) apresentam uma avaliao de trabalhos

    recentes em algoritmos de formiga para a otimizao discreta e introduzem a

    metaheurstica ACO. Dorigo e Blum (2005) apresentam uma pesquisa sobre

    resultados tericos em otimizao por colnia de formigas.

    Segundo Boryczka (2009), muitos outros pesquisadores aplicaram o

    mecanismo de Otimizao por Colnia de Formigas de Dorigo e Sttzle a muitos

  • 43

    problemas de otimizao combinatria e, ento, o estenderam a uma classe inteira

    de problemas de otimizao.

    Socha e Dorigo (2008) apresentam uma extenso do ACO para domnios

    contnuos. No artigo, os autores mostram como o ACO, inicialmente desenvolvido

    para otimizao combinatria, pode ser adaptado otimizao contnua sem

    qualquer mudana conceitual na sua estrutura. Os autores apresentam a idia geral,

    a implementao e os resultados obtidos, os quais foram comparados com outros

    mtodos de otimizao contnua.

    A fonte inspiradora do ACO um comportamento observado em formigas

    reais. Ao procurar comida, inicialmente as formigas exploram aleatoriamente a rea

    que cerca seu ninho. Quando uma formiga encontra uma fonte de comida, ela a leva

    para o ninho. No caminho, a formiga deposita um rastro de feromnio, cuja

    quantidade depende da quantidade e da qualidade da comida, que guia as outras

    formigas para a fonte de comida (SOCHA; DORIGO, 2008).

    O Problema do Caixeiro Viajante (ou Traveling Salesman Problem TSP)

    um problema muito estudado na literatura. O TSP tambm tem um papel importante

    na pesquisa de ACO: o primeiro algoritmo de ACO, chamado Sistema de Formiga

    (Ant System - AS) foi testado primeiro no TSP (DORIGO; STTZLE, 2004).

    Segundo Dorigo, Maniezzo e Colorni (1996), na escolha de um trajeto, uma

    formiga influenciada pela intensidade dos rastros de feromnio. Um nvel mais alto

    de feromnio d para uma formiga um estmulo mais forte e assim uma

    probabilidade mais alta para escolh-lo. O resultado que uma formiga encontrar

    um rastro mais forte em caminhos mais curtos. Como conseqncia, o nmero de

    formigas que seguem estes caminhos ser mais alto. Isto far com que a quantidade

    de feromnio no caminho mais curto cresa mais rpido do que no mais longo e,

    ento, a probabilidade com que qualquer formiga escolhe um caminho para seguir

    rapidamente tendenciada para o mais curto. O resultado final que muito depressa

    todas as formigas escolhero o caminho mais curto.

    Sistema de Colnia de Formigas (Ant Colony System ACS), descrito por

    Dorigo e Gambardella (1997), difere do AS em trs pontos principais. Primeiro,

    explora mais fortemente a experincia de busca acumulada pelas formigas.

    Segundo, evaporao de feromnio e depsito de feromnio somente ocorrero nos

    arcos que pertencem ao melhor caminho at o momento. Terceiro, cada vez que

  • 44

    uma formiga usa um arco, remove algum feromnio do mesmo, aumentando a

    explorao de caminhos alternativos (DORIGO; STTZLE, 2004).

    O estudo de colnias de formigas tem oferecido notvel contribuio, no s

    na otimizao combinatria, mas tambm oferecendo idias novas para tcnicas de

    agrupamento (Boriczka, 2009).

    O Agrupamento baseado em Formigas foi proposto inicialmente por

    Deneubourg et al. (1991, apud Handl, Knowles e Dorigo, 2006). Em contraste com o

    ACO, nenhum feromnio artificial usado, sendo que o prprio ambiente serve

    como varivel de estimergia (DORIGO; BONABEAU; THERAULAZ, 2000).

    2.5.2 As Operaes de Carregar e Descarregar Padres

    No Agrupamento baseado em Formigas proposto por Deneubourg et al.

    (1991, apud Handl, Knowles e Dorigo, 2006), as formigas foram representadas como

    agentes simples que se moviam aleatoriamente em uma grade quadrada. Os

    padres foram dispersos dentro desta grade e poderiam ser carregados,

    transportados e descarregados pelos agentes (formigas). Estas operaes so

    baseadas na similaridade e na densidade dos padres distribudos dentro da

    vizinhana local dos agentes, padres isolados ou cercados por dissimilares so

    mais provveis de serem carregados e ento descarregados numa vizinhana de

    similares.

    As decises de carregar e descarregar padres so tomadas pelas

    probabilidades PBpick B e PBdrop B dadas pelas equaes 2.9 e 2.10, a seguir,

    respectivamente.

    2

    ( )kpPpick k f ip

    = + (2.9)

    2( )( )

    f iPdrop k f id

    = + (2.10)

    Nestas equaes, f(i) uma estimativa da frao de padres localizados na

    vizinhana que so semelhantes ao padro atual da formiga e k Bp B e kBd B so constantes

    reais. No trabalho de Deneubourg et al. (1991, apud Handl, Knowles e Dorigo,

  • 45

    2006), os autores usaram kBp B = 0,1 e kBd B = 0,.3. Neste trabalho, os autores obtiveram a

    estimativa f, atravs de uma memria de curto prazo de cada formiga, onde o

    contedo da ltima clula da grade analisada armazenado. Esta escolha da funo

    de vizinhana f(i) foi essencialmente motivada pela sua facilidade de realizao por

    robs simples.

    Lumer e Faieta (1994, apud Handl, Knowles e Dorigo, 2006) introduziram um

    nmero de modificaes ao modelo que permitiu a manipulao de dados numricos

    e melhorou a qualidade da soluo e o tempo da convergncia do algoritmo. A idia

    era definir uma medida de similaridade ou dissimilaridade entre os padres, j que

    no algoritmo proposto inicialmente, os objetos eram similares se os objetos fossem

    idnticos e dissimilares se os objetos no fossem idnticos. No referido trabalho

    aparece pela primeira vez o mapeamento topogrfico.

    Segundo Vizine et al. (2005), a idia geral deste algoritmo ter d