UNIVERSIDADE FEDERAL DO PARAN - UFPR
PROGRAMA DE PS-GRADUAO EM MTODOS NUMRICOS EM
ENGENHARIA - PPGMNE
ROSANGELA VILLWOCK
TCNICAS DE AGRUPAMENTO E DE HIERARQUIZAO NO CONTEXTO DE KDD APLICAO A DADOS TEMPORAIS DE INSTRUMENTAO GEOTCNICA-ESTRUTURAL DA USINA HIDRELTRICA DE ITAIPU
CURITIBA
2009
ROSANGELA VILLWOCK
TCNICAS DE AGRUPAMENTO E DE HIERARQUIZAO NO CONTEXTO DE KDD APLICAO A DADOS TEMPORAIS DE INSTRUMENTAO GEOTCNICA-ESTRUTURAL DA USINA HIDRELTRICA DE ITAIPU
Tese apresentada ao Programa de Ps-Graduao em Mtodos Numricos em Engenharia, rea de Concentrao de Programao Matemtica, dos Setores de Tecnologia e de Cincias Exatas, da Universidade Federal do Paran, como requisito parcial obteno do ttulo de Doutor em Cincias. Orientadora: Prof. Dra. Maria Teresinha Arns Steiner Co-orientadores: Prof. Dra. Andra Sell Dyminski
Prof. Dr. Paulo Henrique Siqueira
CURITIBA
2009
TERMO DE APROVAO
ROSANGELA VILLWOCK
TCNICAS DE AGRUPAMENTO E DE HIERARQUIZAO NO CONTEXTO DE KDD APLICAO A DADOS TEMPORAIS DE INSTRUMENTAO GEOTCNICA-ESTRUTURAL DA USINA HIDRELTRICA DE ITAIPU
Tese aprovada como requisito parcial para obteno do grau de Doutor em Cincias, no Programa de Ps-Graduao em Mtodos Numricos em Engenharia Programao Matemtica da Universidade Federal do Paran, pela seguinte banca examinadora: Orientadora: _____________________________________________________
Prof. Dr. Maria Teresinha Arns Steiner Programa de Ps-Graduao em Mtodos Numricos em Engenharia e Coordenao de Engenharia de Produo, UFPR _____________________________________________________ Prof.a Dr.a Andra Sell Dyminski Programa de Ps-Graduao em Mtodos Numricos em Engenharia e Departamento de Construo Civil, UFPR _____________________________________________________ Prof. Dr. Paulo Henrique Siqueira Programa de Ps-Graduao em Mtodos Numricos em Engenharia e Departamento de Expresso Grfica, UFPR _____________________________________________________ Prof. Dr. Anselmo Chaves Neto Programa de Ps-Graduao em Mtodos Numricos em Engenharia e Departamento de Estatstica, UFPR _____________________________________________________ Prof. Dr. Celso Romanel Departamento de Engenharia Civil, PUCRJ _____________________________________________________ Prof. Dr. Jlio Cesar Nievola Programa de Ps-Graduao em Informtica Aplicada, PUCPR
Curitiba, 29 de julho de 2009.
Aos meus pais Luiz e Neusa.
s minhas orientadoras Maria Teresinha e Maria Hermnia.
AGRADECIMENTOS
Deus, pela vida, bno e proteo. Professora Dra. Maria Teresinha Arns Steiner, pela orientao para a
realizao deste trabalho, pelo apoio e pelo incentivo em todas as fases do curso. Professora Dra. Andra Sell Dyminski, pela co-orientao deste trabalho,
pelo apoio e pelo incentivo. Ao Professor Dr. Paulo Henrique Siqueira, pela co-orientao deste trabalho,
pelo apoio e pelo incentivo. minha famlia, pelo apoio, pelo incentivo e pela pacincia durante a
realizao deste curso. s minhas tias Raquel e Suely, pelo apoio e pelo carinho. Bernadete Maria Suaki Brando, pela amizade e pelo apoio. Aos Professores do Programa de Ps-Graduao em Mtodos Numricos em
Engenharia, pelos ensinamentos transmitidos. Ao Professor Dr. Julio Cesar Nievola, pelos ensinamentos transmitidos. Ao Professor Dr. Leandro dos Santos Coelho, pelas valiosas sugestes. Ao Professor Dr. Anselmo Chaves Neto, pelas valiosas sugestes. Ao Professor Dr. Wagner M. N. Zola, pela disponibilizao do recurso da
grade computacional do LCPAD: Laboratrio Central de Processamento de Alto Desempenho/UFPR, para execuo deste trabalho.
equipe de engenheiros da Itaipu, pelos dados de instrumentao e contribuies tcnicas.
equipe do projeto AIVEC - Anlise de Incertezas e Estimao de Valores de Controle para o Sistema de Monitorao Geotcnico-estrutural na Barragem de Itaipu, pela colaborao.
Aos colegas de Ps-graduao, pela amizade, convvio e apoio. Ao Jos Henrique Ferreira, pela disposio em ajudar quando necessrio. Maristela Bandil, pela motivao e eficincia nos servios prestados. Universidade Federal do Paran, pela oportunidade de realizao deste
curso. Universidade Estadual do Oeste do Paran, pela licena concedida. FINEP, pelo apoio financeiro ao projeto de pesquisa AIEVC - Anlise de
Incertezas e Estimao de Valores de Controle para o Sistema de Monitorao Geotcnico-estrutural na Barragem de Itaipu e ao projeto CT INFRA / UFPR / Modelagem e Computao Cientfica.
CAPES, pelo auxlio financeiro. A todos, que de alguma forma contriburam para a realizao deste trabalho.
RESUMO O monitoramento da estrutura de uma barragem, de importncia bem conhecida, pode gerar uma enorme massa de dados, definidos em domnios multidimensionais, cuja anlise e interpretao nem sempre so triviais. importante selecionar as informaes que melhor expliquem o comportamento da barragem, permitindo a previso e a resoluo de eventuais problemas que possam ocorrer. A Usina Hidreltrica de Itaipu, maior geradora de hidroeletricidade do mundo, possui mais de 2.200 instrumentos que monitoram seu comportamento geotcnico e estrutural, os quais possuem leituras armazenadas em um banco de dados h mais de 30 anos. Assim sendo, o objetivo principal deste trabalho apresentar uma metodologia, enquadrada na rea de KDD, Descoberta de Conhecimento em Bases de Dados, com o intuito de realizar a hierarquizao de instrumentos de monitoramento de barragens, maximizando a eficcia e eficincia das anlises das leituras, atravs da identificao de grupos de instrumentos semelhantes e, tambm, detectando os principais instrumentos. A metodologia foi aplicada 30 extensmetros localizados em diferentes blocos do trecho F da referida barragem que, com uma, duas ou trs hastes, totalizam 72 medidas de deslocamentos, das quais 24 foram automatizadas pela empresa. Para a fase de pr-processamento dos dados, do processo KDD, identificou-se que para a maioria dos instrumentos tem-se uma leitura mensal, porm, alguns deles, apresentam mais de uma leitura por ms sendo que, nestes casos, foi obtida a mdia mensal. Por outro lado, alguns instrumentos apresentaram leituras faltantes e, nestas situaes, foram realizadas interpolaes por sries temporais garantindo, desta forma, que todos os instrumentos tivessem exatamente 120 leituras (10 anos). J para a fase de Minerao de Dados, do processo KDD, a tarefa o agrupamento de padres e, para isso, foram utilizados os seguintes mtodos: da rea de Anlise Estatstica Multivariada (Ligao Simples, Mdia, Completa e Mtodo Ward); da rea de Redes Neurais Artificiais (Redes Neurais de Kohonen) e da rea de Metaheursticas (foi proposto um Algoritmo de Agrupamento Baseado em Formigas). Em relao ao algoritmo proposto, este foi testado em trs bases de dados reais (IRIS, WINE e PIMA Indians Diabetes) e em duas bases de dados reais de sries temporais (GUN e LIGHTNING-2), sendo que o seu desempenho foi comparado com o de outros dois mtodos (Mtodo Ward e Redes Neurais de Kohonen). Na aplicao da Anlise de Agrupamento (pelo Mtodo Ward) aos dados de instrumentao geotcnica-estrutural da Itaipu, mostrou-se que possvel encontrar justificativas tcnicas para a formao dos grupos, inclusive identificando um grupo de hastes de maior importncia. J a aplicao da Anlise Fatorial aos referidos dados, mostrou-se bastante eficaz para realizar a hierarquizao das hastes de extensmetros, com base nas comunalidades. No algoritmo proposto, as principais modificaes em relao ao algoritmo bsico proposto por Deneubourg et al. (1991, apud Handl, Knowles e Dorigo, 2006), foram: a introduo de uma comparao da probabilidade de descarregar um padro na posio escolhida aleatoriamente com a probabilidade de descarregar este padro em sua posio atual; a introduo de uma avaliao da probabilidade de uma posio vizinha, quando a deciso de descarregar um padro for positiva e a clula em que o padro deveria ser descarregado estiver ocupada; e a substituio do padro carregado por uma formiga, caso este padro no seja descarregado em 100 iteraes consecutivas. O algoritmo proposto apresentou resultados satisfatrios em relao aos resultados de Boryczka (2008) para as bases de dados reais e, quando aplicado aos dados de instrumentao geotcnica-estrutural da Itaipu, o mesmo foi capaz de identificar o grupo de hastes de maior importncia.
ABSTRACT The monitoring of the dam structures, of known importance, can generate an enormous mass of data, defined in multidimensional domains, which analysis and interpretation are not trivial. It is important to select the information that best "explains" the behavior of the dam, allowing the forecast and the resolution of eventual problems that can happen. The Hydroelectric Power Plant of Itaipu, the largest hydro electrical power producer of the world, has more than 2.200 instruments to monitor its geotechnical and structural behavior, which has readings stored in a database for more than 30 years. In this way, the main goal of this work is to present a methodology, framed in the KDD area, Knowledge Discovery in Databases, in order to carry out the ranking of instruments of monitoring of dams, maximizing the effectiveness and the efficiency of the readings analyses, through the identification of groups of similar instruments and, also, detecting the main instruments. The methodology was applied to 30 extensometers located in different blocks of the sector F of the referred dam which, with one, two or three rod, totalized 72 measures of displacements, of which 24 were automated by the company. For the phase of preprocessing of the data, of the KDD process, it was identified that the majority of the instruments had a monthly reading, however, some of them, presented more than a reading by month and, in these cases, it was obtained the monthly average. In the other hand, some instruments presented failed readings and, in these situations, interpolations were carried out by time series assuring, in this way, that all of the instruments had exactly 120 readings (10 years). In the Data Mining phase, of the process KDD, the task is to group the patterns and, for that, the following methods were used: of the Multivariate Statistical Analysis area (Single Linkage, Average Linkage, Complete Linkage and Ward Method); of the Artificial Neural Networks area (Kohonen Maps) and of the Metaheuristics area (it was proposed an Ant Based Clustering Algorithm). In relation to the proposed algorithm, it was tested in three real databases (IRIS, WINE and PIMA Indians Diabetes) and in two time series real databases (GUN and LIGHTNING-2), and their performances were compared with other two methods (Ward Method and Kohonen Maps). In the application of the Clustering Analysis (by Method Ward) at the data of instrumentation geotechnical and structural of the Itaipu, it was shown that it is possible to find technical justification for the formation of the groups and, also, identifying a group of rods of greatest importance. The application of the Factorial Analysis to the referred data showed to be effective to realize the extensometer rods ranking, based in the communality. In the proposed algorithm, the main modifications in relation to the basic algorithm proposed by Deneubourg et al. (1991, apud Handl, Knowles e Dorigo, 2006), were: the introduction of a comparison of the probability of drop a pattern in a random chosen position with the probability of drop this pattern in the current position; the introduction of a evaluation of the probability of a neighboring position, when the decision of dropping a pattern is positive and the cell in which the pattern should be dropped is busied; and the replacement of the carried pattern by an ant, in case this pattern is not dropped in 100 consecutive iterations. The proposed algorithm presented satisfactory results compared with Boryczka (2008)s results for the real databases and, when applied to the data of instrumentation geotechnical and structural of the Itaipu, the same was able to identify the group of rods of greatest importance.
LISTA DE FIGURAS
Figura 2.1 Condies de carga bsicas e formas de instabilizao de barragens de gravidade de concreto. ......................................... 24
Figura 2.2 Comportamento da barragem com relao s condies climticas caractersticas de vero e inverno. ............................ 25
Figura 2.3 Correlao entre os tipos de instrumentos e a deteriorao de barragens de concreto (SILVEIRA, 2003). ................................. 26
Figura 2.4 Extensmetro mltiplo de haste e um exemplo de um perfil tpico de um extensmetro mltiplo de haste na Itaipu (MATOS, 2002). ......................................................................................... 27
Figura 2.5 Perfil geolgico esquemtico da fundao da Itaipu (ITAIPU BINACIONAL, 1995, apud OSAKO, 2002). ................................ 28
Figura 2.6 Blocos com galeria de acesso transversal ao eixo (ITAIPU, 2007). ......................................................................................... 28
Figura 2.7 Etapas do processo KDD, Fayyad et al. (1996). ......................... 30Figura 2.8 Exemplo de dendrograma. ......................................................... 32Figura 2.9 Vizinhana para grades retangular e hexagonal com raios de
vizinhana iguais a zero, um e dois (FAUSETT, 1994). ............. 40Figura 3.1 Exemplo de Periodograma Acumulado ....................................... 63Figura 3.2 Fluxograma mostrando as etapas do processo KDD, onde na
etapa de Minerao de Dados foram aplicadas tcnicas da Anlise Multivariada dos Dados para a base de dados de Itaipu. .................................................................................................... 64
Figura 3.3 Grfico das probabilidades de carregar e descarregar padres... 70Figura 4.1 Dendrograma mostrando a formao dos grupos em cortes
diferentes (Mtodo Ward). .......................................................... 75Figura 4.2 Grfico das hastes de extensmetros do grupo 1. ..................... 78Figura 4.3 Grfico das hastes de extensmetros do grupo 2. ..................... 78Figura 4.4 Grfico das hastes de extensmetros do grupo 3. ..................... 79Figura 4.5 Grfico de todas as hastes de extensmetros no perodo
estudado. .................................................................................... 80Figura 4.6 Resultado do algoritmo de Agrupamento baseado em Formigas
proposto para a base de dados IRIS melhor resultado. ........... 91Figura 4.7 Resultado do algoritmo de Agrupamento baseado em Formigas
proposto para a base de dados WINE melhor resultado. ........ 91Figura 4.8 Resultado do algoritmo de Agrupamento baseado em Formigas
proposto para a base de dados GUN melhor resultado. .......... 92Figura 4.9 Resultado do algoritmo de Agrupamento baseado em Formigas
proposto para a base de dados LIGHTNING-2 melhor resultado. .................................................................................... 93
Figura 4.10 Resultado do algoritmo de Agrupamento baseado em Formigas proposto para os dados de instrumentao geotcnica-estrutural da Itaipu melhor resultado. ...................................................... 97
Figura 4.11 Resultado do algoritmo de Agrupamento baseado em Formigas proposto para os dados de instrumentao geotcnica-estrutural da Barragem de Itaipu resultado com identificao visual de 3 grupos. ........................................................................................ 98
Figura 4.12 Resultado do algoritmo de Agrupamento baseado em Formigas
proposto para os dados de instrumentao geotcnica-estrutural da Barragem de Itaipu melhor resultado comparao com o Mtodo Ward. ............................................................................. 99
Figura 5.1 Fluxograma da metodologia empregada neste trabalho. ............ 103Figura 1 Anexo2
Estrutura geral do complexo Itaipu (ITAIPU, 2008). ................... 117
Figura 2 Anexo2
Perfil basltico do macio de fundao da Itaipu (ITAIPU, 2008). .................................................................................................... 118
Figura 1 Anexo3
Distribuio das formigas e dos padres na grade 1 EXEMPLO. ................................................................................. 121
Figura 2 Anexo3
Distribuio das formigas e dos padres na grade 2 EXEMPLO. ................................................................................. 122
Figura 3 Anexo3
Dendrograma EXEMPLO. ....................................................... 124
LISTA DE QUADROS
Quadro 3.1 Bases de dados utilizados para avaliao dos algoritmos. ........ 58Quadro 4.1 Resultados da aplicao dos mtodos de agrupamento atravs
da Anlise Multivariada, para a base de dados IRIS. ................. 73Quadro 4.2 Resultados da aplicao dos mtodos de agrupamento atravs
da Anlise Multivariada, para a base de dados WINE. ............... 73Quadro 4.3 Resultados da aplicao dos mtodos de agrupamento atravs
da Anlise Multivariada, para a base de dados PIMA. ............... 73Quadro 4.4 Resultados da aplicao dos mtodos de agrupamento atravs
da Anlise Multivariada, para a base de dados GUN. ................ 74Quadro 4.5 Resultados da aplicao dos mtodos de agrupamento atravs
da Anlise Multivariada, para a base de dados LIGHTNING-2..... 74Quadro 4.6 Classificao das hastes dos extensmetros em cada um dos
trs grupo, conforme dendograma da figura 4.1. ........................ 76Quadro 4.7 Pesos das hastes de extensmetros para cada fator. ................ 81Quadro 4.8 Hastes de extensmetros importantes para cada fator, conforme
os pesos apresentados no quadro 4.7. ...................................... 83Quadro 4.9 As 25 hastes de extensmetros com as comunalidades mais
altas. ........................................................................................... 84Quadro 4.10 Hastes de extensmetros e suas comunalidades Grupo 1. ..... 85Quadro 4.11 Hastes de extensmetros e suas comunalidades Grupo 2. ..... 86Quadro 4.12 Hastes de extensmetros e suas comunalidades Grupo 3. ..... 87Quadro 4.13 Escore fatorial final dos meses de leitura das 72 hastes de
extensmetros. ........................................................................... 88Quadro 4.14 Escore fatorial final dos meses de leitura das 11 hastes de
extensmetros Grupo 1. .......................................................... 89Quadro 4.15 Resultados da aplicao das Redes Neurais de Kohonen
Unidimensional para o agrupamento, mdias da execuo de 10 vezes, para a base de dados IRIS, WINE, PIMA GUN e LIGHTNING-2. ............................................................................ 89
Quadro 4.16 Resultados da aplicao do algoritmo de Agrupamento baseado em Formigas proposto, mdias da execuo de 10 vezes, para as bases de dados reais (IRIS, WINE e PIMA). ......................... 90
Quadro 4.17 Distribuio dos Padres IRIS melhor resultado. ................. 91Quadro 4.18 Distribuio dos Padres WINE melhor resultado. ............... 92Quadro 4.19 Resultados da aplicao do algoritmo de Agrupamento baseado
em Formigas proposto, mdias da execuo de 10 vezes, para as bases de dados de sries temporais (GUN e LIGHTNING-2).. 92
Quadro 4.20 Distribuio dos Padres GUN melhor resultado. ................ 93Quadro 4.21 Distribuio dos Padres LIGHTNING-2 melhor resultado. .. 93Quadro 4.22 Comparao dos resultados mdios da aplicao dos mtodos
de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados IRIS. ........................................................ 94
Quadro 4.23 Comparao dos resultados mdios da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados WINE. ...................................................... 94
Quadro 4.24 Comparao dos resultados mdios da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados PIMA. ...................................................... 94
Quadro 4.25 Comparao dos resultados mdios da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados GUN. ....................................................... 95
Quadro 4.26 Comparao dos resultados mdios da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento baseado em Formigas proposto para a base de dados LIGHTNING-2. ........................................ 95
Quadro 4.27 Comparao dos resultados mdios da aplicao do algoritmo proposto com resultados disponveis em Boryczka (2009) para as bases de dados reais. ............................................................ 95
Quadro 4.28 Comparao dos resultados mdios da aplicao do algoritmo proposto com resultados disponveis em Keogh (2006) para as bases de dados de sries temporais. ......................................... 96
Quadro 4.29 Resultados da avaliao do agrupamento pelo algoritmo de Agrupamento baseado em Formigas proposto para os dados de instrumentao geotcnica-estrutural da Itaipu. ......................... 96
Quadro 4.30 Comparao das varincias mdias da aplicao dos mtodos de agrupamento Ward, Redes Neurais de Kohonen Unidimensional e Agrupamento proposto baseado em Formigas para os dados de instrumentao geotnica-estrutural da Itaipu. .................................................................................................... 99
Quadro 4.31 Resultado da aplicao do mtodo de agrupamento Redes Neurais de Kohonen Unidimensional para os dados de instrumentao geotnica-estrutural da Itaipu melhor resultado.................................................................................................... 100
Quadro 4.32 Resultados da avaliao do agrupamento pela aplicao das Redes Neurais de Kohonen Unidimensional para os dados de instrumentao geotcnica-estrutural da Itaipu ........................... 101
Quadro 1 Anexo2
Caractersticas dos trechos da Itaipu. ........................................ 118
Quadro 2 Anexo2
Quantidades e tipos de instrumentos no concreto encontrados nos blocos do trecho F da Itaipu (ITAIPU, 2008). ....................... 118
Quadro 3 Anexo2
Quantidades e tipos de instrumentos na fundao encontrados nos blocos do trecho F da Itaipu (ITAIPU, 2008). ....................... 119
LISTA SIGLAS
A2CA Adaptative Ant Clustering Algoritthm Algoritmo de Agrupamento por Formigas Adaptvel ACAM Ant-based clustering algorithm Algoritmo de Agrupamento Baseado em Formigas Modificado ACO Ant Colony Optimization Otimizao por Colnia de Formigas
ACS Ant Colony System Sistema de Colnia de Formigas
AS Ant System Sistema de Formiga
CBGB Comit Brasileiro de Grandes Barragens
DM Data Mining Minerao de Dados
ICOLD - International Comission on Large Dams Comisso Internacional de Grandes Barragens KDD Knowledge Discovery in Databases Descoberta de Conhecimento em Bases de Dados SOM Self Organizing Map Mapas auto-organizveis
TSP Traveling Salesman Problem Problema do Caixeiro Viajante
LISTA DE SMBOLOS
porcentagem de padres na grade classificados como semelhantes
taxa de aprendizagem
matriz de correlao
matriz de covarincia
raio de vizinhana ou percepo
i i-simo erro ou fator especfico UU mdia ou valor esperado i varincia especfica
AIC critrio de Akaike
D ndice Dunn
d(i, j) dissimilaridade ou distncia entre i e j
)(XE valor esperado de UX
FBj B j-simo fator comum
f(i) funo de vizinhana
2hi comunalidade
ijA peso do j-simo fator FBj Bna i-sima varivel XBi N nmero mximo de iteraes
NBocc B nmero de clulas da grade ocupadas
P peso prprio
PBdrop B Probabilidade de descarregar padres
PBpickB Probabilidade de carregar padres
Q matriz dos dados padronizada
R ndice Aleatrio
Sim medida de similaridade
SQE soma do quadrado do erro
)(XV varincia de UX
wj peso sinptico do neurnio j
UXU vetor aleatrio
SUMRIO
1 INTRODUO..................................................................................... 161.1 O PROBLEMA ..................................................................................... 16
1.2 OBJETIVOS......................................................................................... 18
1.2.1 Objetivo Geral ...................................................................................... 18
1.2.2 Objetivos Especficos........................................................................... 19
1.3 JUSTIFICATIVA................................................................................... 19
1.4 ESTRUTURA DO TRABALHO............................................................. 20
2 REVISO DE LITERATURA ............................................................... 222.1 A SEGURANA DE BARRAGENS...................................................... 22
2.1.1 Os Instrumentos de Monitoramento ..................................................... 25
2.2 O PROCESSO KDD ............................................................................ 29
2.2.1 Tarefas e Mtodos de Minerao de Dados ........................................ 30
2.2.1.1 A Tarefa de Agrupamento.................................................................... 31
2.3 ANLISE ESTATSTICA MULTIVARIADA .......................................... 34
2.3.1 Anlise Fatorial .................................................................................... 34
2.3.2 Anlise de Agrupamento...................................................................... 36
2.4 REDES NEURAIS DE KOHONEN....................................................... 38
2.4.1 O Algoritmo de Kohonen...................................................................... 39
2.5 AGRUPAMENTO BASEADO EM FORMIGAS .................................... 41
2.5.1 Histrico ............................................................................................... 41
2.5.2 As Operaes de Carregar e Descarregar Padres ............................ 44
2.5.3 Parmetros da Funo de Vizinhana ................................................. 46
2.5.4 A Memria de Curto Prazo................................................................... 48
2.5.5 A Incluso do Feromnio ..................................................................... 49
2.5.6 Outras Abordagens .............................................................................. 49
2.5.7 O Algoritmo Bsico proposto por Deneubourg et al. (1991, apud Handl, Knowles e Dorigo, 2006)........................................................... 51
2.5.8 Recuperao do Agrupamento ............................................................ 52
2.6 AGRUPAMENTO EM SRIES TEMPORAIS....................................... 52
2.7 AVALIAO DO AGRUPAMENTO ..................................................... 54
3 MATERIAIS E MTODOS ................................................................... 573.1 BASES DE DADOS ABORDADAS...................................................... 57
3.1.1 Bases de Dados Reais e de Sries Temporais.................................... 57
3.1.2 Base de Dados de Instrumentao Geotcnica-Estrutural da Itaipu.... 58
3.2 SELEO DOS DADOS...................................................................... 59
3.3 PR-PROCESSAMENTO E FORMATAO DOS DADOS................ 60
3.4 MINERAO DE DADOS.................................................................... 63
3.4.1 Detalhamento da Aplicao da Anlise Fatorial................................... 65
3.4.2 Aplicao da Anlise de Agrupamento atravs da An1lise Multivariada.......................................................................................... 65
3.5 AGRUPAMENTO DOS DADOS ATRAVS DAS REDES NEURAIS DE KOHONEN UNIDIMENSIONAL ..................................................... 66
3.6 AGRUPAMENTO DOS DADOS ATRAVS DO ALGORITM1 DE AGRUPAMENTO BASEADO EM FORMIGAS PROPOSTO ............... 67
3.6.1 Modificaes Propostas para o Agrupamento Baseado em Formigas. 71
4 RESULTADOS E DISCUSSO........................................................... 734.1 RESULTADOS DA APLICAO DA ANLISE ESTATSTICA
MULTIVARIADA................................................................................... 73
4.2 APLICAO DAS REDES NEURAIS DE KOHONEN UNIDIMENSIONAL PARA O AGRUPAMENTO................................... 89
4.3 RESULTADOS DO ALGORITMO DE AGRUPAMENTO BASEADO EM FORMIGAS PROPOSTO .............................................................. 90
4.3.1 Resultados da Aplicao do Algoritmo de Agrupamento Baseado em Formigas Proposto para as 5 Bases de Dados.............................. 90
4.3.2 Avaliao do Algoritmo de Agrupamento por Formigas Proposto em relao a outros dois mtodos Mtodo Ward e Redes Neurais de Kohonen Unidimensional ..................................................................... 93
4.3.3 Resultados da Aplicao do Algoritmo de Agrupamento Baseado em Formigas Proposto para os Dados de Instrumentao Geotcnica-estrutural da Itaipu ............................................................ 96
5 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS .... 1025.1 CONCLUSES.................................................................................... 102
5.2 PRINCIPAIS CONTRIBUIES DO TRABALHO ............................... 105
5.3 SUGESTES PARA TRABALHOS FUTUROS ................................... 107
REFERNCIAS.................................................................................... 109
ANEXOS .............................................................................................. 115
ANEXO 1 INFORMAES SOBRE AS BASES DE DADOS UTILIZADAS ........................................................................................ 116
ANEXO 2 A USINA HIDRELTRICA DE ITAIPU.............................. 117
ANEXO 3 EXEMPLO ACADMICO DO FUNCIONAMENTO DO ALGORITMO DE AGRUPAMENTO BASEADO EM FORMIGAS ....... 120
16
1 INTRODUO
1.1 O PROBLEMA
Uma vez que os potenciais prejuzos e riscos decorrentes de acidentes em
barragens podem assumir grandes dimenses, um projeto seguro, uma construo
adequada e a correta operao de barragens so preocupaes de mbito mundial.
Alm disso, um efetivo monitoramento em grandes barragens imprescindvel para
a segurana de sua estrutura. Diretrizes internacionais visando a segurana de
barragens e muitas discusses produtivas sobre este tema tm sido propostas e
conduzidas, tais como a da Comisso Internacional de Grandes Barragens (ICOLD -
International Comission on Large Dams) (ICOLD, 2008). No Brasil, diretrizes visando
segurana de barragens foram publicadas pelo Comit Brasileiro de Grandes
Barragens em 1983 (CBGB, 1983). Alm disso, a Comisso de Constituio e
Justia e de Cidadania aprovou no dia 23/06/2009 a proposta que obriga o Poder
Executivo a instituir uma Poltica Nacional de Segurana de Barragens. O seu
objetivo foi dotar o Poder Pblico de um instrumento permanente de fiscalizao das
mais de 300 mil barragens existentes no Pas. O texto acatado o substitutivo ao
Projeto de Lei 1181/03. A proposta original, Projeto de Lei PL 1181/03 BRASIL
(2003), de autoria do deputado Leonardo Monteiro, define diretrizes de segurana
para construo de barragens de gua e de aterros para conteno de resduos
lquidos industriais.
Exemplos recentes de rupturas de barragens no Brasil podem ser citados: a
ruptura da barragem de Cmara, PA, em 2004; a ruptura da estrutura de desvio da
barragem Campos Novos, SC, em 2006; a ruptura da barragem Algodes I, PI, em
2009; dentre outros.
Segundo Kalustyan (1999), as catstrofes tm sido sinais oportunos para a
inspeo de critrios de projeto existentes e seleo de mtodos mais efetivos de
monitoramento da segurana de barragens.
Yenigun e Erkek (2007) apresentam uma tabela contendo estimativas das
causas mais comuns de rupturas em barragens, dentre as quais destacam-se as
seguintes: problemas de fundao; vertedouro inadequado; problemas de
construo; recalques diferenciais; subpresso elevada; ruptura de aterros; materiais
17
defeituosos; operao incorreta; atos de guerra e terremotos. Todos estes
problemas podem ser diagnosticados com o monitoramento da instrumentao da
barragem, com exceo dos dois ltimos, cujas frequncias percentuais somam
apenas 4%.
Segundo Menescal (2009), a experincia mundial mostra que os custos para
garantir a segurana de uma barragem so pequenos quando comparados aos
custos em caso de ruptura. O autor ainda comenta sobre a importncia da utilizao
de um banco de dados de instrumentao para subsidiar a anlise preliminar das
leituras, detectando anomalias.
O monitoramento da estrutura de uma barragem, de importncia bem
conhecida, pode gerar uma enorme massa de dados, definidos em domnios
multidimensionais, cuja anlise e interpretao nem sempre so triviais.
importante selecionar as informaes que melhor entendam o comportamento da
barragem, permitindo a previso e a resoluo de eventuais problemas que possam
ocorrer.
Uma interessante discusso sobre a avaliao de risco e de tomada de
deciso para a segurana de barragens apresentada em Bowles et al. (2003). Este
artigo prope uma matriz de justificativa e recomendao de deciso. As avaliaes
propostas so adaptveis a qualquer prtica atual de engenharia de barragens,
avaliao de risco de segurana de barragens e outros fatores de deciso. A
abordagem pode ser til em trs tipos de deciso: estabelecer metas de risco
tolerveis; identificar um caminho de reduo de riscos e administrar o risco residual.
Harrald et al. (2004) fazem uma reviso sobre alguns sistemas e
metodologias para a tomada de decises com o intuito de auxiliar na priorizao de
tarefas e diminuio do risco de falhas. Entre os sistemas e as metodologias
apresentadas no artigo esto a Metodologia de Avaliao de Risco para Barragens,
a Metodologia de Avaliao de Risco Portflio, o Sistema Modelo Baseado em Risco
para Segurana de Barragens, o ndice de Condio, entre outros. Os autores
apresentam ainda uma matriz de comparao dos mtodos de anlise de risco para
segurana de barragens.
A Usina Hidreltrica de Itaipu, maior geradora de hidroeletricidade do
mundo, possui mais de 2.200 instrumentos que monitoram seu comportamento
geotcnico e estrutural, os quais possuem leituras armazenadas em um banco de
dados h mais de 30 anos. A alta dimensionalidade e a grande quantidade de
18
registros contidos nas bases de dados so problemas no triviais tendo-se em vista
a busca pelo conhecimento a partir destes dados.
Este trabalho apresenta trs principais contribuies, dentre outras
consideradas secundrias, sendo ainda abordado um importante problema de
engenharia, a anlise de dados de instrumentao de grandes obras.
A primeira contribuio diz respeito aplicao de tcnicas de agrupamento,
dentre outras, no contexto de KDD, do ingls Knowledge Discovery in Databases
ou Descoberta de Conhecimento em Bases de Dados, tendo como objetivo a
identificao dos instrumentos que so realmente significativos anlise do
comportamento de uma barragem.
As novas propostas apresentadas ao algoritmo de Agrupamento baseado
em Colnia de Formigas formam a segunda grande contribuio deste trabalho. Esta
metaheurstica, relativamente nova, ainda exige muita investigao para melhorar
seu desempenho.
A terceira contribuio foi a aplicao deste algoritmo proposto a bases de
dados de sries temporais. Poucos algoritmos de agrupamentos, recentemente
criados, tm sido utilizados no agrupamento de sries temporais. Neste trabalho, os
mtodos de agrupamento foram aplicados diretamente s bases de dados de sries
temporais, sem a aplicao de um mtodo de pr-processamento dos dados visando
o agrupamento dos dados especificamente para sries temporais.
1.2 OBJETIVOS
1.2.1 Objetivo Geral
O objetivo principal deste trabalho apresentar uma metodologia,
enquadrada na rea de KDD, com o intuito de realizar o agrupamento e a
hierarquizao de instrumentos de monitoramento de barragens, maximizando a
eficcia e a eficincia das anlises das leituras, atravs da identificao de grupos
de instrumentos semelhantes e, tambm, detectando os principais instrumentos.
Vale salientar que tal metodologia, que envolve a proposta de um Algoritmo
para Agrupamento baseado em Colnias de Formigas, poder ser utilizada no
apenas aos dados de monitoramento de outras barragens, mas, tambm, a
quaisquer outras bases de dados.
19
1.2.2 Objetivos Especficos
a) Aplicar a Anlise de Agrupamento, atravs da Anlise Multivariada, em
cinco bases de dados reais e de sries temporais.
b) Aplicar a Anlise de Agrupamento, atravs das Redes Neurais de
Kohonen Unidimensional, s cinco bases de dados reais e de sries
temporais.
c) Propor alteraes e melhorias no algoritmo de Agrupamento baseado em
Formigas originalmente proposto por Deneubourg et al. (1991, apud
Handl, Knowles e Dorigo, 2006).
d) Aplicar a Anlise de Agrupamento, atravs do algoritmo de Agrupamento
baseado em Formigas proposto, s cinco bases de dados reais e de
sries temporais, comparando os resultados obtidos com outros dois
mtodos de agrupamento.
e) Aplicar a Anlise de Agrupamento, atravs do algoritmo de Agrupamento
baseado em Formigas proposto, aos dados de instrumentao
geotcnica-estrutural da Usina Hidreltrica de Itaipu, mais
especificamente, aos instrumentos chamados extensmetros, localizadas
no trecho F da barragem.
f) Aplicar a Anlise Fatorial aos extensmetros de cada grupo de
instrumentos, fazendo a hierarquizao dos mesmos.
1.3 JUSTIFICATIVA
A anlise minuciosa dos dados dos instrumentos de auscultao exige a
combinao de conhecimentos de engenharia com matemtica e estatstica, bem
como experincia prvia do engenheiro ou tcnico responsvel pela interpretao
destes dados, consumindo muito tempo e, muitas vezes, inviabilizando o
cumprimento desta tarefa de forma eficiente. Por esta razo, o uso de tcnicas e
ferramentas computacionais, que auxiliem o tomador de decises, extremamente
relevante.
Muitas vezes, um grande volume de dados contm informaes teis, as
quais pode-se chamar de conhecimento, sendo que, em geral, esta informao no
est facilmente disponvel ou identificada. Analistas humanos podem gastar
20
semanas para descobrir este conhecimento e, por este motivo, alguns bancos de
dados grandes nunca recebem uma anlise detalhada adequada como deveriam
(TAN, STEINBACH; KUMAR, 2005). Na medida em que h o aumento da
quantidade de dados h, tambm, o aumento da aplicao de tcnicas de Minerao
de Dados. Dados inteligentemente analisados constituem um valioso recurso para a
tomada de decises (WITTEN; FRANK, 2000).
Alm disso, no h registros da existncia de mtodos que realizem a
hierarquizao de instrumentos de monitoramento em barragens. Em caso de
necessidade de intensificao de leituras, esta hierarquizao poderia ser utilizado
para definir, dentre os instrumentos, aqueles que seriam os escolhidos.
Ainda, ao repetir-se o procedimento de anlise dos instrumentos em
perodos subseqentes, a mudana na situao de um instrumento indicaria a
necessidade de uma investigao mais aprofundada no mesmo.
1.4 ESTRUTURA DO TRABALHO
O texto est organizado da seguinte forma:
No captulo 2 apresentada uma reviso bibliogrfica sobre Segurana de
Barragens e Instrumentos de Monitoramento, explicitando a necessidade e a
importncia da instrumentao para garantir a segurana. Tambm apresentada a
descrio do Processo KDD, das tarefas de Minerao de Dados (agrupamento) e
dos mtodos que sero utilizados neste trabalho, sempre relacionando-os com
trabalhos j apresentados na literatura. Os mtodos utilizados para o agrupamento e
descritos neste captulo 2, so: tcnicas da rea de Anlise Multivariada dos Dados;
Redes Neurais de Kohonen e Agrupamento baseado em Formigas e, finalmente,
so apresentadas tcnicas para a avaliao de agrupamentos.
No captulo 3 so apresentadas seis bases de dados, com as quais se
trabalhou: reais (3); de sries temporais (2) e a dos dados de instrumentao da
barragem de Itaipu. As primeiras cinco bases de dados foram utilizadas com o intuito
de melhor compreender as tcnicas apresentadas na literatura, permitindo, ento, o
desenvolvimento de novas contribuies, como as j citadas.
Ainda neste captulo 3 apresentada a 1. fase do processo KDD (etapas de
seleo, pr-processamento e formatao dos dados) aplicada aos dados de
instrumentao de Itaipu. Em seguida, apresentada a maneira como os mtodos
21
de agrupamento para a Minerao dos Dados (2. fase do processo KDD), Anlise
Estatstica Multivariada e Redes Neurais de Kohonen sero aplicadas s bases de
dados. E, finalmente, as principais contribuies (modificaes e melhorias) para o
Agrupamento baseado em Colnias de Formigas so descritas.
No captulo 4 so apresentados os resultados, discusses e figuras
ilustrativas sobre a aplicao da proposta para o Agrupamento baseado em
Formigas, nas bases de dados reais e de sries temporais, bem como o seu
desempenho quando comparado aos outros dois mtodos aqui abordados (da
Anlise Multivariada e Redes Neurais de Kohonen). Tambm so apresentados os
resultados da aplicao do algoritmo proposto aos dados de instrumentao
geotcnica-estrutural da Itaipu.
Finalmente, no captulo 5, so apresentadas as concluses e as sugestes
para trabalhos futuros.
22
2. REVISO DE LITERATURA
Neste captulo so abordados os diversos temas tratados aqui neste trabalho
(Segurana de Barragens e o Processo KDD, do qual so destacadas as seguintes
etapas: Anlise Estatstica Multivariada; Redes Neurais de Kohonen; Metaheurstica
para Agrupamento baseada em Formigas; Agrupamento em Sries Temporais e
Avaliao de Agrupamento), assim como diversas referncias relacionadas aos
mesmos.
2.1 A SEGURANA DE BARRAGENS
O conceito de Segurana de Barragens envolve aspectos estruturais,
hidrulicos, geotcnicos, ambientais e operacionais. Estas caractersticas devem ser
consideradas durante toda a vida til da barragem. Um sistema de instrumentao
capaz de monitorar o comportamento geotcnico e estrutural de uma barragem
essencial para avaliar seu comportamento e integridade. Uma boa reviso sobre a
importncia da instrumentao para a avaliao da segurana de uma barragem
pode ser encontrada em Dibiagio (2000) e Duarte, Calcina e Galvn (2006).
Alguns objetivos da instrumentao de barragens e sua relao com
segurana estrutural so descritos em dois Manuais de Engenharia publicados por
U.S. Army Corp de Engenheiros (1987 e 1995). Nestes manuais, os principais
objetivos de um plano de instrumentao geotcnico so agrupados em quatro
categorias: avaliao analtica; predio de desempenho futuro; avaliao jurdica,
desenvolvimento e verificao de projetos futuros. A instrumentao pode alcanar
estes objetivos provendo dados quantitativos para acessar informaes teis como
presso piezomtrica, deformao, tenso total e nveis de gua. Com inspees
visuais e peridicas combinadas com anlise de dados cuidadosa uma condio
crtica pode ser revelada (FEMA, 2004).
Para Sar et al. (2006), o monitoramento de barragens assume diferentes
caractersticas e finalidades dependendo da etapa da obra que se deseja analisar.
Ao longo de sua vida til, podem-se detectar variaes nas condies de segurana.
Para Duarte, Calcina e Galvn (2006), a instalao de um sistema de
instrumentao geotcnica uma das medidas mais importantes e necessrias para
garantir um nvel de segurana adequado para uma barragem. Este sistema permite
23
acompanhar o nvel de segurana durante a vida til da obra, verificando se tudo se
mantm dentro das premissas estabelecidas em projeto.
A necessidade de construo de novas barragens, a preocupao com a
recuperao e manuteno de barragens j existentes, o fato de muitas destas
obras no receberam os cuidados necessrios sua manuteno, motivaram
Menescal (2009) a apresentar uma proposta de organizao institucional e de
procedimentos, a fim de dotar o Brasil com um Sistema Integrado de Gesto da
Segurana de Barragens. Segundo este autor somente com um grande esforo de
melhoria da gesto da segurana, as barragens podero atender s necessidades
da populao, sem representarem fonte de riscos permanentes.
Segundo Krger (2008), a construo de barragens um exemplo da
obrigatoriedade da considerao dos aspectos de incerteza e risco para a obteno
de uma estrutura com desempenho e segurana adequados. No Brasil, apesar do
grande nmero de barragens construdas e projetos em andamento, os critrios de
projeto so permanentemente questionados e revisados. No trabalho deste autor, o
principal objetivo foi desenvolver uma metodologia para a anlise de confiabilidade
estrutural de barragens de concreto. Foram desenvolvidas equaes de estado
limite para vrios modos de falha em barragens de concreto gravidade: flutuao,
tombamento, deslizamento e tenses normais. O procedimento desenvolvido foi
testado e validado a partir de dados do concreto compactado com rolo (CCR) da
barragem de Salto Caxias, situada no Rio Iguau, Estado do Paran.
Os princpios estabelecidos na NBR 8681 Aes e Segurana das
Estruturas (ABNT, 2003) conceituam a segurana das obras de concreto de uma
barragem. Em projetos de barragens de concreto gravidade, so necessrias
verificaes correspondentes anlise de estabilidade, visando avaliar a segurana
quanto aos movimentos: deslizamento, tombamento, flutuao, tenses na base da
fundao e na estrutura, deformaes, recalques e vibraes.
A estabilidade da barragem deve ser primeiramente analisada durante a fase
de projeto. A geometria das estruturas e as propriedades dos materiais envolvidos
devem ser consideradas bem como as condies de carregamento. Algumas
condies de carregamento bsicas so mostradas na figura 2.1.
Fisicamente se explica que a diferena de nvel de gua (montante-jusante)
gera um gradiente hidrulico entre montante e jusante da barragem, fazendo com
que a gua do reservatrio queira passar para jusante buscando o equilbrio
24
hidrulico. Para tal, a gua percola atravs do macio de fundao da barragem.
Durante este processo, a gua infiltrada gera foras verticais que atuam de baixo
para cima sob a barragem, denominadas subpresses na fundao. Representa-se
por Fsubpresso a resultante destas foras. Alm disso, gua do reservatrio gera
foras horizontais que atuam de montante jusante sobre a barragem, denominadas
presses hidrostticas contra a parede da barragem. Representa-se por Freservatrio a
resultante destas foras. Estas duas foras resultantes so chamadas foras
desestabilizadoras. J a fora P (o peso prprio da barragem) uma fora
estabilizadora da estrutura. A combinao Fsubpresso e de Freservatrio pode gerar o
tombamento e/ou deslizamento da barragem, tanto pelos esforos e momentos
diretamente aplicados quanto pelo alvio do peso prprio da estrutura (no caso das
subpresses).
Os efeitos das cargas na barragem, acima descritos, podem ser observados
na figura 2.1, onde so enfatizados o deslizamento (a) e o tombamento (b).
Figura 2.1 Condies de carga bsicas e formas de instabilizao de barragens de
gravidade de concreto.
As condies de carregamento e propriedades de materiais podem mudar
ao longo do ciclo de vida da barragem e a instrumentao pode identificar algumas
destas mudanas.
A figura 2.2 mostra as diferenas no comportamento da barragem quanto s
condies climticas caractersticas de vero e inverno, bem como suas
conseqncias. No vero ocorre uma dilatao no concreto, o que provoca o
tombamento do bloco montante. Este tombamento, por sua vez, faz com que o
25
bloco comprima a fundao. No inverno o concreto se contrai, provocando um
tombamento do bloco jusante, voltando a posio inicial. Isto faz com que a
presso exercida sobre a fundao, ocorrida no vero, seja aliviada. Pode-se ento
identificar um comportamento cclico da estrutura, intimamente condicionado a
condies ambientais que envolvem a obra.
Figura 2.2 Comportamento da barragem com relao s condies climticas
caractersticas de vero e inverno (Adaptada de Osako, 2002).
2.1.1 Os Instrumentos de Monitoramento
Segundo a FEMA (2004), a instrumentao deve ser usada como
suplemento s inspees visuais na avaliao do desempenho e da segurana das
barragens. A inspeo cuidadosa dos dados de instrumentao pode revelar uma
condio crtica.
A figura 2.3 apresenta as correlaes entre os tipos de instrumentos
usualmente empregados na auscultao de barragens de concreto e os principais
tipos de deteriorao de barragens de concreto (SILVEIRA, 2003). Observando-se
esta figura, o extensmetro mltiplo, por exemplo, est relacionado com o
monitoramento de deteriorao por escorregamento, recalque diferencial,
subsidncia do terreno, disteno no p de montante e reatividade lcali-Agregado.
A medio dos recalques de uma barragem de concreto uma das
observaes mais importantes na superviso do comportamento da estrutura
durante os perodos de construo, enchimento do reservatrio e operao da
barragem. A medio de recalque pode ser realizada por extensmetros mltiplos de
hastes instalados em furos de sondagem (SILVEIRA, 2003). A figura 2.4 mostra o
26
extensmetro mltiplo de haste e um exemplo de um perfil tpico de um
extensmetro mltiplo de haste na Itaipu.
Figura 2.3 Correlao entre os tipos de instrumentos e a deteriorao de
barragens de concreto (SILVEIRA, 2003).
Com o uso de vrias hastes, pode-se fazer a medio dos deslocamentos e
deformaes em vrios trechos da fundao, dentre eles, contato concreto-rocha,
juntas-falhas e outras descontinuidades subhorizontais na fundao. Esta
abordagem foi usada na barragem de Itaipu, onde diversos pontos do macio de
fundao foram instrumentados, em especial as descontinuidades geolgicas. A
figura 2.5 mostra um perfil geolgico tpico do macio de fundao do trecho sem
tnel da Barragem Lateral Direita da Itaipu, onde podem-se observar as principais
descontinuidades (contatos, brechas e juntas) daquele sitio. Nos blocos onde h
galerias de acesso transversais ao eixo (como na figura 2.6), a instalao de
extensmetros a montante e a jusante permite medir deslocamentos angulares da
barragem junto fundao (SILVEIRA, 2003).
A medio de deslocamentos horizontais da crista so parmetros de
relevante importncia, afetados por deflexes da estrutura de concreto, rotao da
27
base da estrutura (devido deformabilidade da fundao) ou influncias trmicas
ambientais. Estes deslocamentos so afetados por caractersticas do concreto ou
por propriedades do macio rochoso de fundao, resultando em importantes
informaes para a auscultao do comportamento da barragem e de sua fundao.
Os deslocamentos horizontais da crista podem ser medidos por pndulos diretos,
normalmente instalados ao final do processo construtivo. As medies ocorrem nas
fases de enchimento do reservatrio e operao da barragem (SILVEIRA, 2003).
Figura 2.4 Extensmetro mltiplo de haste e um exemplo de um perfil tpico de um
extensmetro mltiplo de haste na Itaipu (Adaptada de MATOS, 2002).
28
Figura 2.5 Perfil geolgico esquemtico da fundao da Itaipu (ITAIPU
BINACIONAL, 1995, apud OSAKO, 2002).
Figura 2.6 Blocos com galeria de acesso transversal ao eixo (ITAIPU, 2008).
A estabilidade da estrutura em termos de escorregamento, tombamento ou
flutuao diretamente afetada pelo nvel das presses piezomtricas na interface
concreto-rocha e nas descontinuidades subhorizontais de baixa resistncia
existentes na fundao. A medio das subpresses na fundao das barragens de
concreto importante para a superviso de suas condies de segurana. A
drenagem um dos meios mais eficientes para assegurar coeficientes de segurana
adequados. As medidas de subpresses so realizadas pelos piezmetros
(SILVEIRA, 2003).
Outra medio importante a das vazes de drenagem pela fundao e
infiltraes, atravs do concreto de uma barragem. Estas medies devem ser feitas
29
durante o enchimento do reservatrio e no perodo de operao, pois refletem
imediatamente muitos dos problemas que ocorrem com esse tipo de estrutura. As
medies podem ser realizadas com a instalao de medidores de vazo do tipo
triangular ao longo das canaletas de drenagem, junto ao piso das galerias
(SILVEIRA, 2003).
2.2 O PROCESSO KDD
Segundo Fayyad et al. (1996), o processo KDD, do ingls Knowledge
Discovery in Databases ou Descoberta de Conhecimento em Bases de Dados,
um processo no trivial de descoberta de padres vlidos, novos, teis e acessveis.
A principal vantagem do processo de descoberta que no so necessrias
hipteses, sendo que o conhecimento extrado dos dados sem conhecimento
prvio.
Muitas vezes a expresso Minerao de Dados (do ingls Data Mining
DM) usada como sinnimo do processo KDD. Segundo Diniz e Louzada-Neto
(2000), a minerao de dados uma parte do processo KDD que se relaciona com a
anlise de dados e o uso de ferramentas computacionais na busca de padres
(caracterstica, regras e regularidades) em um grande conjunto de dados.
O processo KDD um conjunto de atividades contnuas que so compostas,
basicamente, por cinco etapas: seleo dos dados, pr-processamento, formatao
ou transformao, Minerao de Dados e interpretao dos resultados, como
ilustrado na figura 2.7.
Primeiramente deve-se ter domnio da aplicao e objetivos claros. Na
primeira etapa so selecionados e coletados os dados necessrios. Na etapa de
pr-processamento verificam-se os dados faltantes ou inconsistentes. Na etapa de
transformao h uma preparao dos dados visando aplicao da Minerao de
Dados, usando mtodos de reduo de dimensionalidade dos dados, por exemplo. A
etapa de Minerao de Dados o ncleo do processo, onde so aplicados os
algoritmos para extrair padres dos dados. A etapa de Interpretao dos resultados
consiste em validar o conhecimento extrado (FAYYAD et al., 1996). Segundo Silver
(1996), as etapas de pr-processamento e formatao podem levar at 80% do
tempo necessrio de todo o processo.
30
Figura 2.7 Etapas do processo KDD, adaptada de Fayyad et al. (1996).
Dentro do contexto do processo KDD, alguns termos so muito usados e
esto bem definidos em Witten e Frank (2000). So eles:
Conceito: resultado do processo de aprendizado; Exemplos (tambm chamados de instncias ou padres): entradas do
processo de aprendizagem, um conjunto de caractersticas que definem
um objeto;
Atributos (tambm chamados de caractersticas): qualquer medio til extrada no processo de identificao do padro; podem ser nominais ou
numricos, contnuos ou discretos.
O principal objetivo do processo KDD extrair o conhecimento a partir de
informaes escondidas nos dados que sejam teis nas tomadas de decises,
utilizando mtodos, algoritmos e tcnicas de diferentes reas cientficas, que
segundo Tan, Steinbach e Kumar (2005) incluem Estatstica, Inteligncia Artificial,
Aprendizagem de Mquinas e Reconhecimento de Padres.
2.2.1 Tarefas e Mtodos de Minerao de Dados
As tarefas de Minerao de Dados podem ser preditivas ou descritivas. As
preditivas usam algumas variveis para prever valores desconhecidos ou futuros de
31
outras variveis, enquanto que as descritivas encontram padres para descrever os
dados. As principais tarefas de Minerao de Dados esto relacionadas
Classificao, Associao e Agrupamento de padres (FAYYAD et al., 1996).
Na Classificao, cada padro contm um conjunto de atributos e um dos
atributos denominado classe. O objetivo da classificao encontrar um modelo
para predio da classe como funo dos outros atributos (TAN; STEINBACH;
KUMAR, 2005). A regresso um caso particular da classificao, j que seu
objetivo encontrar um modelo para predio de um atributo contnuo como funo
dos outros atributos.
J na Associao, o objetivo produzir regras de dependncia que iro
predizer a ocorrncia de um atributo baseado na ocorrncia de outros atributos
(TAN; STEINBACH; KUMAR, 2005). Regras de associao no so diferentes de
regras de classificao, exceto pelo fato de que elas podem predizer algum atributo,
no necessariamente a classe (WITTEN; FRANK, 2000).
O Agrupamento ou Segmentao (Clustering) procura grupos de padres tal
que padres pertencentes a um mesmo grupo so mais similares uns aos outros e
dissimilares a padres em outros grupos. Segundo Hair Jr et al. (2005), a anlise de
agrupamentos uma tcnica analtica para desenvolver subgrupos significativos de
objetos. Seu objetivo classificar os objetos em um pequeno nmero de grupos
mutuamente excludentes. Para Freitas (2002), na anlise de agrupamento
importante favorecer um nmero pequeno de grupos.
2.2.1.1 A Tarefa de Agrupamento
Os algoritmos de agrupamento podem ser divididos em categorias de
diversas formas de acordo com as caractersticas. As duas principais classes de
algoritmos de agrupamento so: os mtodos hierrquicos e os mtodos de
particionamento.
Os mtodos hierrquicos englobam tcnicas que buscam de forma
hierrquica os grupos e, por isso, admitem obter vrios nveis de agrupamento. Os
mtodos hierrquicos podem ser subdivididos em divisivos ou aglomerativos. O
mtodo hierrquico aglomerativo considera, a princpio, cada padro como um grupo
e, iterativamente, agrupa o par de grupos com maior similaridade em um novo grupo
at formar um nico grupo contendo todos os padres. O mtodo hierrquico
32
divisivo, ao contrrio, inicia com um nico grupo e executa um processo de
sucessivas subdivises (DINIZ; LOUZADA-NETO, 2000).
Os mtodos de agrupamento hierrquicos mais populares so: Ligao
Simples, Ligao Completa, Ligao Mdia e Mtodo Ward. A forma mais comum de
representar um agrupamento hierrquico utiliza um dendrograma, que representa o
agrupamento dos padres e os nveis de similaridade em que os grupos se formam.
O dendrograma pode ser quebrado em diferentes nveis, mostrando diferentes
grupos (JAIN; MURTY; FLYNN, 1999). No dendrograma da figura 2.8, admitindo um
corte no nvel apresentado na referida figura, observam-se dois grupos, sendo o
primeiro composto pelos padres P1, P2 e P5 e o segundo composto pelos padres
P3 e P4.
Mtodos no-hierrquicos ou de particionamento procuram uma partio
sem a necessidade de associaes hierrquicas. Seleciona-se uma partio dos
elementos em k grupos, otimizando algum critrio (DINIZ; LOUZADA-NETO, 2000).
O mtodo mais conhecido entre os mtodos de particionamento o das k-
mdias (JOHNSON; WICHERN, 1998). Normalmente os k grupos encontrados so
de melhor qualidade do que os k grupos produzidos pelos mtodos hierrquicos. Os
mtodos de particionamento so vantajosos em aplicaes que envolvem grandes
sries de dados.
Figura 2.8 Exemplo de dendrograma.
33
Outra caracterstica importante que classifica algoritmos de agrupamento a
utilizao de grades. Os mtodos de agrupamento baseados em grade tm como
principal caracterstica a subdiviso do espao em clulas. So exemplos de
agrupamentos baseados em grade o Algoritmo de Agrupamento baseado em
Colnia de Formigas e as Redes Neurais de Kohonen (KOHONEN, 1995).
Neste presente trabalho, a tarefa de Minerao de Dados est relacionada
ao agrupamento de padres. Os mtodos a serem utilizados para realizar esta tarefa
so: da rea de Estatstica Multivariada (Ligao Simples, Mdia, Completa e
Mtodo Ward), da rea de Redes Neurais Artificiais (Redes Neurais de Kohonen
Unidimensional) e da rea de Metaheursticas (Agrupamento baseado em Colnia
de Formigas).
Os mtodos da rea de Estatstica Multivariada foram utilizados por serem
mtodos j consagrados. A Anlise Estatstica Multivariada um mtodo antigo mas
que foi viabilizado mais recentemente com a computao barata. As Redes Neurais
de Kohonen Unidimensional foram utilizadas porque, assim como o Agrupamento
baseado em Formigas, executam as tarefas de agrupamento e mapeamento
topogrfico, simultaneamente.
Alm disso, o algoritmo de Agrupamento baseado em Colnia de Formigas
foi escolhido para estudo, anlise e novas propostas, devido a diversos fatores.
Primeiramente, uma metaheurstica relativamente nova e tem recebido ateno
especial, principalmente porque ainda exige muita investigao para melhorar seu
desempenho, estabilidade e outras caractersticas, consideradas chaves, que
fariam de tal algoritmo uma ferramenta madura para minerao de dados
(BORYCZKA, 2009). Ainda, o referido algoritmo consegue descobrir,
automaticamente, a quantidade de grupos nos padres. Esta uma vantagem,
principalmente, na aplicao aos dados de instrumentao geotcnica-estrutural da
Itaipu, pois no h conhecimento prvio que indique a quantidade de grupos.
Vale salientar que estes algoritmos que fazem mapeamento topogrfico vo
alm de um mero agrupamento. Segundo Handl, Knowles e Dorigo (2006), eles no
so limitados descoberta de grupos homogneos nos dados, mas tambm
capturam relaes de vizinhana numa visualizao bi-dimensional de um espao
de dados de alta dimenso.
Outra questo, observada por Liao (2005), que so poucos os estudos de
agrupamentos relacionados a sries temporais que utilizam algoritmos de
34
agrupamento criados mais recentemente como, por exemplo, o Algoritmo de
Agrupamento baseado em Colnia de Formigas. Vale ressaltar que neste estudo, a
tarefa de agrupamento foi aplicada aos dados de instrumentao geotcnica-
estrutural da Itaipu, que so sries temporais, alm de outras bases de dados
conforme ser visto mais adiante.
Segundo Handl e Meyer (2007), o agrupamento com algoritmos baseados
em enxames (Swarm) est emergindo como uma alternativa aos mtodos mais
convencionais, tais como o agrupamento hierrquico e o k-mdias. Destes, o
agrupamento baseado em formigas destaca-se como o mais utilizado grupo de
algoritmos de agrupamento baseado em enxames.
2.3 ANLISE ESTATSTICA MULTIVARIADA
2.3.1 Anlise Fatorial
A Anlise Fatorial um mtodo estatstico cujo objetivo explicar as
correlaes entre um conjunto grande de variveis em termos de um conjunto de
poucas variveis aleatrias no-observveis chamadas fatores. Assim, seja o vetor
aleatrio UXU composto por p variveis aleatrias, ' ...1 2 3 = X x x x x p e se deseja
estudar a estrutura de covarincia desse vetor, ou seja, se UXU for observado n vezes
tem-se que os seus parmetros ( )=E X e ( )=V X podem ser estimados e o relacionamento entre as variveis representado pela matriz de covarincia ou de
correlao avaliadas. A anlise fatorial faz um agrupamento de variveis para
explicar a influncia de variveis latentes (no observveis) ou fatores. Dentro de um
mesmo grupo, as variveis so altamente correlacionadas entre si, sendo que de um
grupo para outro, as correlaes so baixas. Cada grupo representa um fator, o qual
responsvel pelas correlaes observadas.
A matriz de covarincia do vetor UXU pode ser colocada na forma exata: ( ) '= = +V X LL , onde a matriz LL tem na diagonal principal as chamadas
comunalidades definidas para cada varivel considerando-se m fatores por:
2 2 2 2...1 2
= + + +h mi i iA A A com i = 1, 2, ..., p. Assim, a comunalidade hBi PB2 P a parte da
varincia da varivel aleatria x Bi B que vem dos m fatores. E, a parte da varincia da
35
varivel aleatria xBi B devida aos fatores p - m no importantes chama-se varincia
especfica. Ento, 2( )= +V x hi i i . Existem vrios critrios para definir o nmero m de fatores. O critrio mais
utilizado o critrio de Kaiser (JOHNSON; WICHERN, 1998), que diz que o nmero
de fatores extrados deve ser igual ao nmero de autovalores maiores do que um.
Seja UXU um vetor aleatrio, com p componentes, mdia UU e matriz de covarincia . No modelo fatorial, UXU linearmente dependente sobre algumas variveis aleatrias no-observveis FB1 B, FB2 B, ... , FBm B chamadas fatores comuns e p
fontes de variaes aditivas: B1 B, B2 B, ... , Bp B, chamadas erros ou fatores especficos. O modelo de Anlise Fatorial obtido pelo sistema abaixo, onde Bi B a
mdia da i-sima varivel, BiB o i-simo erro ou fator especfico, FBj B o j-simo fator comum e ABij B o peso do j-simo fator FBj Bna i-sima varivel XBi B. A equao 2.1 mostra o modelo na forma matricial.
... 1,2,...,1 1 11 1 12 2 1 1... 1,2,...,2 2 21 1 22 2 2 2
...
... .1 1 2 2
X F F F i pmmX F F F j mmm
X F F F m pp p pm m pp p
= + + + + = = + + + + =
= + + + +
A A AA A A
A A A
'X LL= + + (2.1)
Nesse modelo ortogonal assume-se que E( UFU) = U0UBm x 1 B, V( UFU) = E(UFU UFU) = IBm x m B,
E( U U) = U0UBp x 1 B, V ( U U) = E( U U) = Bp x p B (matriz diagonal com 's na diagonal) e Cov ( U U, UFU ) = 0 Bp x m B.
Segundo Johnson e Wichern (1998), o modelo e as restries anteriores
constituem o Modelo Fatorial Ortogonal.
Para estimar os pesos ABij B e as varincias especficas Bi B, pode-se utilizar o mtodo das componentes principais, que descrito resumidamente a seguir
(JOHNSON; WICHERN, 1998).
Sejam os pares de autovalores-autovetores ( BiB, UeUBi B) da matriz de covarincia amostral S, com B1 B B2 B ... Bp B 0. Seja m < p o nmero de fatores comuns. A
36
matriz dos pesos estimados dos fatores dada por L = CDP1/2 P, onde C a matriz dos
autovetores e D uma matriz diagonal cujos elementos diagonais so os
autovalores.
Na aplicao desse mtodo, as observaes primeiramente so
centralizadas ou padronizadas. Neste caso, a matriz de covarincia amostral S a
matriz correlao amostral R. As varincias especficas Bi B estimadas so fornecidas pelos elementos diagonais da matriz = S LL'.
Em muitas aplicaes preciso estimar o valor de cada um dos fatores (no
observveis) para uma observao individual UXU, sendo que esses valores dos
fatores so chamados de escores fatoriais. Os escores fatoriais estimados para as
variveis originais so UFU = (L'L) P1 PL'( UXU X ) e para as variveis padronizadas so UFU =
(LL)Lz, desde que se use componentes principais para estimar os pesos.
Segundo Johnson e Wichern (1998), com a rotao dos fatores se obtm
uma estrutura para os pesos tal que cada varivel tenha peso alto em um nico fator
e pesos baixos ou moderados nos demais fatores. Kaiser sugeriu uma medida
analtica conhecida como critrio Varimax (JOHNSON; WICHERN, 1998).
Define-se por i ijij
hij
AA = , os coeficientes rotacionados escalonados pela raiz
quadrada das comunalidades. O procedimento Varimax seleciona a transformao
ortogonal T que torna V (dado pela equao 2.2) o maior possvel, ou seja, o
procedimento parte de ' 'LTT L= e fornece os pesos *A vindos de LT. Ento, o critrio maximizar V.
1 4 2* * /1 1 1
p pmV pij ijp j i i
= = = =A A (2.2)
2.3.2 Anlise de Agrupamento
O agrupamento de padres feito com base numa medida de similaridade
ou dissimilaridade. A medida de similaridade avalia se os objetos so similares, ou
seja, quanto maior o valor da medida mais parecidos so os objetos. A mais
conhecida medida de similaridade o coeficiente de correlao. A medida de
37
dissimilaridade avalia se os objetos so dissimilares, ou seja, quanto maior o valor
da medida menos parecidos sero os objetos. A mais conhecida medida de
dissimilaridade a distncia Euclidiana.
Na seo 2.2.1.1 foi citado que os mtodos hierrquicos fazem
agrupamentos ou divises (nos mtodos de agrupamento hierrquicos divisivos)
iterativas de pares de grupos. Estes agrupamentos ou estas divises so feitos por
meio de ligaes. Os tipos de ligaes mais comuns so: Ligao Simples, Ligao
Completa, Ligao Mdia e Mtodo Ward, conforme j comentado tambm.
Na ligao simples (ou vizinho mais prximo), a distncia entre dois grupos
a mnima das distncias entre todos os pares de padres i e j, i pertencente ao
primeiro grupo e j ao segundo (JAIN; MURTY; FLYNN, 1999). Por exemplo, se um
grupo 1 formado pelos padres U e V e um grupo 2 formado pelo padro W, a
distncia entre os grupos 1 e 2 calculada dB(1,2)B = min{dBUW B, dBVW B} (JOHNSON;
WICHERN, 1998).
Na ligao completa (ou vizinho mais distante), a distncia entre dois grupos
a mxima das distncias entre todos os pares de padres i e j, i pertencente ao
primeiro grupo e j ao segundo (JAIN; MURTY; FLYNN, 1999). Por exemplo, se um
grupo 1 formado pelos padres U e V e um grupo 2 formado pelo padro W, a
distncia entre os grupos 1 e 2 calculada dB(1,2)B = mx{dBUW B, dBVW B} (JOHNSON;
WICHERN, 1998).
J na ligao mdia, a distncia entre dois grupos a mdia das distncias
entre todos os pares de padres, sendo que cada padro do par de um grupo. Se
um grupo 1 formado pelos elementos U e V e um grupo 2 formado pelo elemento
W, a distncia entre os grupos 1 e 2 calculada dB(1,2)B = dBik B / NB1 B*NB2 B, onde dBik B a distncia entre o padro i no grupo 1 e o padro k no grupo 2, NB1 B o nmero de
padres no grupo 1 e NB2 B o nmero de padres no grupo 2 (JOHNSON; WICHERN,
1998).
Ainda segundo Johnson e Wichern (1998), o Mtodo Ward faz a juno de
dois grupos baseando-se na perda de informao. Considera-se como critrio de
perda de informao a soma do quadrado do erro (SQE). Para cada grupo i,
calcula-se a mdia (ou centride) do grupo e a soma do quadrado do erro do grupo i
(SQEBi B) que a soma do quadrado do erro de cada padro do grupo em relao
mdia. Para k grupos tm-se SQEB1 B, SQEB2 B, ..., SQEBk B, onde define-se SQE pela
equao 2.3.
38
SQE = SQE1 + SQE2 + ... + SQEk (2.3)
Para cada par de grupos m e n, primeiramente, calcula-se a mdia (ou
centride) do grupo formado (grupo mn). Em seguida, calcula-se a soma do
quadrado do erro do grupo mn (SQEmn), segundo a equao 2.4.
SQE = SQE1 + SQE2 + ... + SQEk SQEm SQEn + SQEmn (2.4)
Os grupos m e n que apresentarem o menor aumento na soma do erro
quadrtico (SQE) (menor perda de informao) sero unidos. Segundo Hair Jr et
al. (2005), este mtodo tende a obter grupos de mesmo tamanho devido a
minimizao de sua variao interna.
2. 4 REDES NEURAIS DE KOHONEN
Segundo Fausett (1994), Teuvo Kohonen, em 1982, desenvolveu o mtodo
de mapas de caracterstica auto-organizveis que faz uso de uma estrutura
topolgica para agrupar as unidades (padres). Self Organizing Map (SOM; ou
Mapas auto-organizveis), tambm conhecidos por Redes Neurais de Kohonen,
formam uma classe de Redes Neurais Artificiais em que a aprendizagem no
supervisionada.
Segundo Haykin (2001) o principal objetivo das Redes Neurais de Kohonen
transformar padres de entrada de dimenso arbitrria em um mapa discreto. Os
neurnios so colocados nos ns de uma grade, que pode ter qualquer
dimensionalidade, normalmente so utilizadas grades bidimensionais (chamado de
2D-SOM). Existem ainda o 1D-SOM e o 3D-SOM, que utilizam grades (ou mapas)
de uma e trs dimenses, respectivamente.
Segundo Fausett (1994), as Redes Neurais Auto-Organizveis so
conhecidas por preservar a topologia. Segundo a autora, esta propriedade
observada no crebro, mas no encontrado em outras redes neurais artificiais.
O processo de aprendizagem de uma Rede Neural de Kohonen baseado
no aprendizado competitivo, onde os neurnios de sada da grade competem entre
si para serem ativados. O neurnio de sada que vence a competio chamado de
neurnio vencedor. Todos os neurnios da grade devem ser expostos a um nmero
39
suficiente de padres de entrada para assegurar o amadurecimento apropriado do
processo de auto-organizao (HAYKIN, 2001).
Segundo Haykin (2001), alm do processo de competio, ainda so
essenciais os processos de cooperao e adaptao para a formao do mapa. No
processo de cooperao, o neurnio vencedor localiza o centro de uma vizinhana
topolgica de neurnios cooperativos. Para que o processo de auto-organizao
ocorra, no processo de adaptao os neurnios excitados tm seus pesos sinpticos
ajustados. O ajuste feito tal que a resposta do neurnio vencedor aplicao de
um padro de entrada similar melhorada.
2.4.1 O Algoritmo de Kohonen
O primeiro passo na execuo do algoritmo de Redes Neurais de Kohonen
a inicializao, onde se definem a taxa de aprendizagem inicial (0), o raio de
vizinhana inicial (0), os pesos sinpticos iniciais dos neurnios UwUBj B(0) e o nmero
mximo de iteraes N. Escolhem-se valores aleatrios para os vetores de pesos
iniciais e recomenda-se a padronizao dos dados no intervalo [0, 1].
No segundo passo, define-se o critrio de parada, que pode ser um nmero
mximo de iteraes, um nmero de iteraes sem a alterao dos valores da matriz
peso, dentre outros.
O terceiro passo o treinamento, que envolve as fases competitiva,
cooperativa e adaptativa, onde cada padro UxU deve ser apresentado rede. O
aprendizado pode ser seqencial ou por lote. Na aprendizagem por lote a
atualizao dos pesos dos neurnios acontece ao final de cada iterao e na
aprendizagem seqencial a atualizao ocorre aps a apresentao de cada
padro.
Na fase competitiva, calculam-se as distncias do padro a todos os
neurnios e verifica-se qual o neurnio vencedor, ou seja, aquele cuja distncia ao
padro seja a mnima. A distncia uma medida de dissimilaridade, ou seja, quanto
menor for a distncia, mais prximo o neurnio estar do padro analisado. A
distncia Euclidiana a medida de dissimilaridade mais comum. Nesta fase,
tambm pode ser usada uma medida de similaridade. Neste caso, quanto maior a
medida de similaridade, mais prximo o neurnio estar do padro analisado. A
40
correlao a medida de similaridade mais comumente utilizada. Outras medidas de
similaridade e de distncia so encontradas em Kohonen (1995).
Na fase cooperativa, localizam-se os vizinhos do neurnio vencedor. Na
figura 2.9 so mostradas duas topologias: retangular e hexagonal (para 2D-SOM) e
so identificados os vizinhos para raios de vizinhana iguais a zero, um e dois. Se o
raio de vizinhana zero, o neurnio no possui vizinhos e somente o neurnio
vencedor atualizado. Se o raio de vizinhana um, na grade retangular cada
neurnio tem oito vizinhos e na grade hexagonal cada neurnio tem seis vizinhos e
assim sucessivamente.
Na fase adaptativa, atualizam-se os pesos sinpticos dos neurnios vizinhos
ao neurnio vencedor segundo a equao 2.5, apresentada mais adiante. Nesta
atualizao leva-se em considerao a distncia do vizinho at o neurnio vencedor
e a atualizao mais intensa nos vizinhos mais prximos. Uma funo de
vizinhana, que varia com o tempo n, utilizada neste sentido e deve satisfazer a
duas exigncias: ser simtrica em relao ao seu ponto mximo (que atingido no
neurnio vencedor) e decrescer monotonamente com o aumento da distncia lateral.
A funo Gaussiana (equao 2.6) a mais utilizada.
UwUBj B(n+1) = UwUBj B(n) + (n) . hBj,i(x)B(n) . (UxU- UwUBj B(n)) (2.5)
hBj,i(x)B(n) =
2,22 ( )
dj in
e
(2.6)
Figura 2.9 Vizinhana para grades retangular e hexagonal com raios de vizinhana
iguais a zero, um e dois (FAUSETT, 1994).
41
O quarto passo consiste em atualizar a taxa de aprendizagem (equao 2.7)
e o raio de vizinhana (equao 2.8). Em seguida, retorna-se ao segundo passo at
que um critrio de parada seja satisfeito.
2( ) 0
nn e
= (2.7)
1( ) 0
nn e = (2.8)
Segundo Siqueira (2005), podem ser utilizadas vrias medidas de erro para
determinar a qualidade de um mapa. O autor utiliza em seu trabalho o erro de
quantizao, que representa o erro mdio correspondente diferena entre os
padres e os pesos dos neurnios vencedores; o erro topolgico, que representa o
percentual de neurnios vencedores que no possuem o segundo vencedor em uma
vizinhana de raio unitrio centrada no neurnio vencedor e o erro mdio quadrtico.
Uma forma para determinar os agrupamentos utiliza a matriz de densidade.
Nesta matriz cada elemento representa o nmero de padres associados ao
respectivo neurnio. Os neurnios com nmero reduzido de padres associados a
ele determinam as fronteiras entre os agrupamentos.
Existem diversas abordagens variantes das Redes Neurais de Kohonen. Os
algoritmos, inspirados no original, modificam alguns aspectos como, por exemplo,
critrio de vizinhana, forma de escolha do neurnio vencedor, o uso de mapas
hierrquicos, acelerao da aprendizagem, dentre outros (KOHONEN, 1995).
2.5 AGRUPAMENTO BASEADO EM FORMIGAS
2.5.1 Histrico
Sociedades de insetos sociais so sistemas distribudos que apresentam
uma organizao social altamente estruturada, apesar da simplicidade dos seus
indivduos. Como resultado desta organizao, colnias de formigas podem realizar
tarefas complexas que, em alguns casos, excede a capacidade individual de uma
nica formiga. Na rea de ''algoritmos de formigas'' estudam-se modelos inspirados
na observao do comportamento de formigas reais e usam-se estes modelos como
42
fonte de inspirao para o desenvolvimento de novos algoritmos para a soluo de
problemas de otimizao e de controle distribudo (DORIGO; STTZLE, 2004).
Entre os comportamentos dos insetos sociais, o mais amplamente
reconhecido a habilidade das formigas para trabalhar em grupo para desenvolver
uma tarefa que no poderia ser executada por um nico agente. Tambm visto em
sociedade humana, esta habilidade de formigas um resultado de efeitos
cooperativos. O efeito cooperativo recorre ao fato de que o efeito de dois ou mais
indivduos ou partes coordenadas mais alto do que o total dos efeitos individuais.
Alguns pesquisadores alcanaram resultados promissores em minerao de dados
usando uma colnia de formigas artificial. O nmero alto de indivduos em colnias
de formigas e a abordagem descentralizada para tarefas coordenadas (executadas
de forma simultnea) significam que colnias de formigas mostram graus altos de
paralelismo, auto-organizao e tolerncia a falhas. Estas caractersticas so
desejadas em tcnicas de otimizao modernas (BORICZKA, 2009).
Muitos pesquisadores focalizaram sua ateno em uma classe nova de
algoritmos, chamados de metaheursticos. Segundo Dorigo e Sttzle (2004), uma
metaheurstica um conjunto de conceitos algortmicos que podem ser usados para
definir mtodos heursticos aplicveis para um grande conjunto de diferentes
problemas.
Um metaheurstica, particularmente promissora, foi inspirada no
comportamento de formigas reais. Comeando com Sistema de Formigas, foram
desenvolvidas e aplicadas vrias abordagens algortmicas baseadas nas mesmas
idias com sucesso considervel para uma variedade de problemas de otimizao
combinatria, acadmicos e reais (DORIGO; STTZLE, 2004).
Otimizao por colnia de formigas (Ant Colony Optimization ACO) uma
metaheurstica em que a colnia de formigas artificiais coopera para encontrar boas
solues para problemas de otimizao discretos difceis (DORIGO; STTZLE,
2004). Dorigo, Caro e Gambardella (1999) apresentam uma avaliao de trabalhos
recentes em algoritmos de formiga para a otimizao discreta e introduzem a
metaheurstica ACO. Dorigo e Blum (2005) apresentam uma pesquisa sobre
resultados tericos em otimizao por colnia de formigas.
Segundo Boryczka (2009), muitos outros pesquisadores aplicaram o
mecanismo de Otimizao por Colnia de Formigas de Dorigo e Sttzle a muitos
43
problemas de otimizao combinatria e, ento, o estenderam a uma classe inteira
de problemas de otimizao.
Socha e Dorigo (2008) apresentam uma extenso do ACO para domnios
contnuos. No artigo, os autores mostram como o ACO, inicialmente desenvolvido
para otimizao combinatria, pode ser adaptado otimizao contnua sem
qualquer mudana conceitual na sua estrutura. Os autores apresentam a idia geral,
a implementao e os resultados obtidos, os quais foram comparados com outros
mtodos de otimizao contnua.
A fonte inspiradora do ACO um comportamento observado em formigas
reais. Ao procurar comida, inicialmente as formigas exploram aleatoriamente a rea
que cerca seu ninho. Quando uma formiga encontra uma fonte de comida, ela a leva
para o ninho. No caminho, a formiga deposita um rastro de feromnio, cuja
quantidade depende da quantidade e da qualidade da comida, que guia as outras
formigas para a fonte de comida (SOCHA; DORIGO, 2008).
O Problema do Caixeiro Viajante (ou Traveling Salesman Problem TSP)
um problema muito estudado na literatura. O TSP tambm tem um papel importante
na pesquisa de ACO: o primeiro algoritmo de ACO, chamado Sistema de Formiga
(Ant System - AS) foi testado primeiro no TSP (DORIGO; STTZLE, 2004).
Segundo Dorigo, Maniezzo e Colorni (1996), na escolha de um trajeto, uma
formiga influenciada pela intensidade dos rastros de feromnio. Um nvel mais alto
de feromnio d para uma formiga um estmulo mais forte e assim uma
probabilidade mais alta para escolh-lo. O resultado que uma formiga encontrar
um rastro mais forte em caminhos mais curtos. Como conseqncia, o nmero de
formigas que seguem estes caminhos ser mais alto. Isto far com que a quantidade
de feromnio no caminho mais curto cresa mais rpido do que no mais longo e,
ento, a probabilidade com que qualquer formiga escolhe um caminho para seguir
rapidamente tendenciada para o mais curto. O resultado final que muito depressa
todas as formigas escolhero o caminho mais curto.
Sistema de Colnia de Formigas (Ant Colony System ACS), descrito por
Dorigo e Gambardella (1997), difere do AS em trs pontos principais. Primeiro,
explora mais fortemente a experincia de busca acumulada pelas formigas.
Segundo, evaporao de feromnio e depsito de feromnio somente ocorrero nos
arcos que pertencem ao melhor caminho at o momento. Terceiro, cada vez que
44
uma formiga usa um arco, remove algum feromnio do mesmo, aumentando a
explorao de caminhos alternativos (DORIGO; STTZLE, 2004).
O estudo de colnias de formigas tem oferecido notvel contribuio, no s
na otimizao combinatria, mas tambm oferecendo idias novas para tcnicas de
agrupamento (Boriczka, 2009).
O Agrupamento baseado em Formigas foi proposto inicialmente por
Deneubourg et al. (1991, apud Handl, Knowles e Dorigo, 2006). Em contraste com o
ACO, nenhum feromnio artificial usado, sendo que o prprio ambiente serve
como varivel de estimergia (DORIGO; BONABEAU; THERAULAZ, 2000).
2.5.2 As Operaes de Carregar e Descarregar Padres
No Agrupamento baseado em Formigas proposto por Deneubourg et al.
(1991, apud Handl, Knowles e Dorigo, 2006), as formigas foram representadas como
agentes simples que se moviam aleatoriamente em uma grade quadrada. Os
padres foram dispersos dentro desta grade e poderiam ser carregados,
transportados e descarregados pelos agentes (formigas). Estas operaes so
baseadas na similaridade e na densidade dos padres distribudos dentro da
vizinhana local dos agentes, padres isolados ou cercados por dissimilares so
mais provveis de serem carregados e ento descarregados numa vizinhana de
similares.
As decises de carregar e descarregar padres so tomadas pelas
probabilidades PBpick B e PBdrop B dadas pelas equaes 2.9 e 2.10, a seguir,
respectivamente.
2
( )kpPpick k f ip
= + (2.9)
2( )( )
f iPdrop k f id
= + (2.10)
Nestas equaes, f(i) uma estimativa da frao de padres localizados na
vizinhana que so semelhantes ao padro atual da formiga e k Bp B e kBd B so constantes
reais. No trabalho de Deneubourg et al. (1991, apud Handl, Knowles e Dorigo,
45
2006), os autores usaram kBp B = 0,1 e kBd B = 0,.3. Neste trabalho, os autores obtiveram a
estimativa f, atravs de uma memria de curto prazo de cada formiga, onde o
contedo da ltima clula da grade analisada armazenado. Esta escolha da funo
de vizinhana f(i) foi essencialmente motivada pela sua facilidade de realizao por
robs simples.
Lumer e Faieta (1994, apud Handl, Knowles e Dorigo, 2006) introduziram um
nmero de modificaes ao modelo que permitiu a manipulao de dados numricos
e melhorou a qualidade da soluo e o tempo da convergncia do algoritmo. A idia
era definir uma medida de similaridade ou dissimilaridade entre os padres, j que
no algoritmo proposto inicialmente, os objetos eram similares se os objetos fossem
idnticos e dissimilares se os objetos no fossem idnticos. No referido trabalho
aparece pela primeira vez o mapeamento topogrfico.
Segundo Vizine et al. (2005), a idia geral deste algoritmo ter d