ALGORITMO DE APRENDIZAJE ACELERADO PARA … · - Simpósio de Automação Inteligente, 08 -10 de...

40. SBAI-Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

ALGORITMO DE APRENDIZAJE ACELERADO PARA BACKPROPAGATION

Miguel Strefezza BiancoUniversidad Simón BolivarDepartamento de Procesos y Sistemas

Tf: (02) 906-3327 / 906-33-04. Fax (02) 906-33-03e-mail: [email protected]

Resumen: El entrenamiento de redes neuronales utilizando elalgoritmo de backpropagation es muy utilizado y sufre porposeer una convergencia asimptótica lenta. En este artículo sepresenta un algoritmo para mejorar y acelerar el algoritmo debackpropagation mediante un aprendizaje intensivo de lasneuronas. Con estas modificaciones sobre el algoritmo originalse necesitan menos presentaciones de los datos entrada-sal ida alas neuronas para su entrenamiento. Se realizan variassimulaciones con redes neuronales multicapas, en la cual secompara el algoritmo aquí presentado con el método original ycon otros trabajos. Los resultados muestran una significativamejora en la velocidad de aprendizaje de las redes.

Palabras claves: Redes neuronales, backpropagation,aprendizaje, redes multicapas.

Abstract: The training of neural networks with thebackpropagation algorithm is very used, but it suffers fromslow asymtotic convergence. In this papaer, an algorithm thatimproves and accelerate the basíc backpropagation algorithm isproposed by using intensive learning method for the neurons.With these modifications on the basic algorithm, the number ofiterations of the input-output data to the networks is reduced.Many simulations with multilayer networks are carried out, theresults are compared with original method and with otherworks. These .results show that there is a significativeimprovement of the learning speed of the networks.

Keywords: Neural networks, backpropagation, learning,multilayer networks.

1 INTRODUCCIÓN.La aplicación de técnicas de inteligencia artificial a diferentessistemas se ha incrementado en los últimos aãos ya que éstashan demostrado ser capaces de producir buenos resultados alser utilizadas. Entre éstas se encuentran las redes neuronales,las cuales han sido utilizadas para reconocimientos de patrónes,identificación de sistemas, predicción, controI. AI igual lasredes neuronales bilógicas, pueden realizar procesamientoparalelo, aceptar entradas procedentes de diferentes sensores,además de poder aprender funciones no Iineales. Además esimportante mencionar que la información que poseen las redesneuronales no radica en las neuronas sino en la intensidad conla cual estén interconectadas todas ellas. Las redes neuronales

203

Yasuhiko DoteMuroran Institute ofTechnologyDivision of Production and

Information System EngineeringTf: (81143) 44-4181

e-mail: [email protected]

son estimadores que no necesitan un modelo matemático parasu descripción y tienen la capacidad de poder ser usados ensistemas donde se .posean problemas de datos incompletos,perturbados o contaminados con ruido.

Las redes neuronales son entrenadas en gran parte mediante elmétodo de backpropagation, el cuai es un algoritmo que poseeuna convergencia lenta. Para acelerar la convergencia ymejorar el aprendizaje de éstas, se han realizado . diferentesinvestigaciones. Estas técnicas incluyen el algoritmo deoptimización quasi-Newton, Bello(1992), algoritmos queutilizan información sobre la segunda derivada del error total,Stefanos et al (1988). También se han planteado métodosbasados en la optimización de la arquitectura de las redesneuronales, en las cuales son eliminados algunos pesos oalgunas neuronas que carecen de importancia en el aprend izaje,Karin(1990) Mozer et al (1989). Además de éstos, se hanptesentado otras modificaciones en el algoritmo Javed et al(1991) Parker(1987) Ricotti et ai (1988) Wilamows lei et al(19993) Zhou et aI (1991).

La convergencia dei algoritmo de backpropagation es lentocuando las neuronas tienen alta ganancia ocuando los estadosentre las neuronas son diferentes. En estos casos, el gradienteobtenido mediante el algoritmo de backpropagation sonpequenos y el error no se propaga en forma adecuada a travésde la red. Como consecuencia, el proceso de aprendizaje y elajuste de los pesos entre las neuronas es lento.

En este trabajo se presenta un algoritmo en el cual se hanrealizado varias modificaciones ai método original para asíobtener una mejora de éste, esto se logra mediante unaprendizaje intensivo de las neuronas y con cambios en lafunción de activaci6n. EI resultado es una red en la cual senecesitan menos presentaciones de los datos entrada-salidapara reducir el tiempo de convergencia.

2 ALGORITMO DE ENTRENAMIENTOPARALAS REDESNEURONALESEn este trabajo se entrenan las redes neuronales utilizando elmétodo de backpropagation, pero ai cual se le han hechociertas modificaciones para incrementar la velocidad deconvergencia Es un método supervisado de aprendizaje en· elcual la salida deseada es dado ai algoritmo y la diferencia entreentre este valor y la salida actual es usado para el mecanismo

[f(.):F

FUNCIONSIGMOIDALMODIFICADA

+4 . O +8 . o

.+ 4. o +8 . o

DERIVADA DE LA FUNCrONSIGMOIDALMODIFICADA

O

O

0.8

1(.)

-8 . o ' - 4 . O

-8. O -4 . o

esta forma el resultado obtenido de esta funci6n hace que loscambios de pesos entre la capas escondida y la capa de salidatengan variaciones mayores, produciendo una convergencia enmenor tiempo.d) Finalmente, el error local se obtiene como:

ej =[r(lj)ftet+1wk/O (9)kel

donde O es el número de salidas de la red neuronal.

FUNCIONSIGMOIDE

Fíg.I Modificación de la función sigmoidal

(5)

(2)

(3)

(4)

(1)

a) Entrada a la capa escondida o a la capa de salida.

fs s s-IIj = WjiXi;=1

b) Salida desde la(s) capa(s) escondida(s) y capa de salida.xj = f(lj)

c) Incremento de los pesos... s s s-I .. sAWj; =áe jXj +çAw ji(t-l)

donde 11 es el momento.d) Error en la capa de salida.

= -(dke) Error local.

o.s f(ls)" s+1ej = j LJek Wkj

k.el

dondej{x) es la funci6n sigmoidal.

Como es sabido. el método dei gradiente es lento y se hace máslento en las cercanias dei mínimo. Debido a que en muchoscasos es deseado entrenar a las redes neuronales con datos quese encuentran en los extremos dei rango de salida además devalores muy pequenos en la salida, la simple funci6n sigmoidalfalIa en estoscasos Jang et ai (1997). La modificación de dichafunción y su derivada es presentada por otros autores Jang et aI(1997 ).

40. SBAI - Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

de adaptací õn, siendo basicamente este algoritmo lento. So _ So s s gpresentadose varias modificaciones como se mencionó ek - -(dk - xk )lf'(Iko - (dk - xko »J (8)anteriormente. Pero alguna de elIas necesitan mucho uso de donde O<g<1. EI valor de esta variable hace que la derivada dememoria computacional o de cálculos complicados. Ia función sigmoidal cambie como se muestra en la Fig. 2. De

EI algoritmo aquí presentado está basado en un entrenarnientointensivo en donde dos de los incrementos pasados de peso sonutilizados como factores de ajuste dei peso actual, además otrasmodificaciones realizadas en él.Antes de presentar las cambios realizados, veamos primerolas ecuaciones básicas dei método:

En este trabajo se realizan cambios en las ecuaciones Driankovet ai (1993) Hayashi et aI (1989) Jang et al (1997) y Javed etai (1991), que no solo modifican la funci6n sigmoidal y suderivada sino también el resto dei algoritmo de entrenamiento.Las ecuaciones se transforman como siguen:a) En primer lugar. la salida de la(s) capa(s) y capas de

salida, se obtiene como:

xj = [f (Ij)r (6)

donde z> 1. Esto produce que ; i) la funci6n sigmoidal sedesplace hacia la derecha, ii) : los valores resultantes de lascapas escondidas o de salida son menores que con la funci6nsigmoidal original. esto se puede observar en la Fig. 1.b) En segundo lugar. el incremento de los pesos se modifica

como:Ãwj; =áe j x r l +çÃw Ji(t-I)/2+çÃw ji(t-2)/3 (7)

En este caso se introducen dos téminos de ajuste de peso . losrealizados en las dos últimas iteraciônes, Además poseen unfactor de divisiõndiferente, ya que si consideramos la neuronasbiológicas, estas no son capaces de recordar un 100% de loaprendido en el pasado, de igual forma es considerado en estecaso para las redes neuronales.c) El error en la capa de salida es calculado de la siguiente

manera:

Fig. 2 Modificación de la derivada de la función sigmoidal.

Todos los cambios realizados producen un impacto positivopara el aprendizaje de los datos y para su proceso deaceleración, siendo simple de implementar. Además con lasmodificaciones realizadas aún se cumple que la funci6nsigmoidal utilizada sigue siendo una función continua y queconverge a un valor cuando se evalua en ±oo.

3 SIMULACIONESCon el . algoritmo de backpropagation propuesto para elaprendizaje de las redes neuronales se reaIizaron diversasexperiencias, comparandose los resultados ' con el métodotradicional y en otros casos con algoritmos presentados conotros autores. En todos los casos se utilizaron redes neuronalescon tres capas.

.Entre los ejemplos seleccionados se encuentra elEXCLUSIVE Ok", para este caso se utilizaron 2 neuronas en

204

40. SBAI - Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08·10 de Setembro de 1999

Fig. 3. patrones utilizados para el aprendizaje de las letras.

Tabla 1. Datos de entrada-salida para obtener la función de pertenencia deI error (e) y ladeI cambio del error (ê) respectivamente.

ENTRADA NB NM NS ZO PS PM PB-3.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0-2.3 0.7 0.3 0.0 0.0 0.0 0.0 0.0-104 0.3 0.7 0.0 0.0 0.0 0.0 0.0-0.7 0.0 l.0 0.0 0.0 0.0 0.0 0.0-0.5. 0.0 0.7 0.3 0.0 0.0 0.0 0.0

0.0 0.3 0.7 0.0 0.0 0.0 0.0-0.1 0.0 0.0 1.0 0.0 0.0 0.0 0.0-0.07 0.0 0.0 0.7 0.3 0.0 0.0 0.0-0.03 0.0 0.0 0.3 0.7 0.0 0.0 0.00.0 0.0 0.0 0.0 1.0 0.0 0.0 0.00.03 0.0 0.0 0.0 0.7 0.3 0.0 0.00.07 0.0 0.0 0.0 0.3 0.7 0.0 0.00.1 0.0 0.0 0.0 0.0 1.0 0.0 0.00.3 0.0 0.0 0.0 0.0 0.7 0.3 0.00.5 0.0 0.0 0.0 0.0 0.3 0.7 0.0.0.7 0.0 0.0 0.0 0.0 0.0 1.0 0.0IA 0.0 0.0 0.0 0.0 0.0 0.7 0.32.3 0.0 0.0 0.0 0.0 0.0 0.3 0.7. 3.0 0.0 0.0 . 0.0 0.0 0.0 0.0 1.0

la capa escondida y se obtuvieron resultados satisfactorios con.solamente 140 iteraciones. Si comparamos esto con el métodotradicional esto neéesitará unas 7000. En el mejor caso de enpresentado por. Zhou et ai (1991), se necesítaron 1209iteraciones el caso; en e1 presentado en Javed et ai ( 1991)unas 250 y de Wilamowski et aI (1993), 500 presentaciones.

Como segundo ejemplo tenemos el problema de simetria, en elcual se utilizaron 5 neuronas en la capa escondida,necesitandose 180 iteraciones para el entrenamiento de la red.Con el método tradicional se necesitan unas 8000, y en e1mejor caso de Zhou et aI (1991), se necesitaron 1290.

Otro caso que se tomó fue el reconocimiento de letras, serealizaron experiencias con matrices de · llx11 y de 5x5,utilizandose las letras de la "A" hasta la "F', teniendose 5neuronas en la capa escondida, los patrones utilizados seobservan en la Fig. 3. Para el aprendizaje de estas redes se

ENTRADA NB NM ·NS ZO PS PM PB-004 1.0 0.0 0.0 0.0 0.0 0.0 0.0-0.34 0.7 0.3 0.0 0.0 0.0 0.0 0.0-0.26 0.3 0.7 0.0 0.0 0.0 0.0 0.0-0.2 0.0 1.0 0.0 0.0 0.0 0.0 0.0-0.16 0.0 0.7 0.3 0.0 0.0 0.0 0.0-0.09 0.0 0.3 0.7 0.0 0.0 0.0 0.0-0.05 0.0 0.0 1.0 0.0 0.0 0.0 0.0-0.035 0.0 0.0 0.7 0.3 0.0 0.0 0.0-0.015 0.0 0.0 0.3 0.7 0.0 0.0 0.00.0 0.0 0.0 0.0 1.0 0.0 0.0 0.00.015 0.0 0.0 0.0 0.7 0.3 0.0 0.00.035 0.0 0.0 0.0 0.3 0.7 0.0 0.00.05 0.0 0.0 0.0 0.0 1.0 0.0 0.00.09 0.0 0.0 0.0 0.0 0.7 0.3 0.00.16 0.0 0.0 0.0 0.0 0.3 0.7 0.00.2 0.0 0.0 0.0 0.0 0.0 1.0 0.00.26 0.0 0.0 0.0 0.0 0.0 0.7 0.30.34 0.0 0.0 0.0 0.0 0.0 0.3 0.7004 0.0 0.0 0.0 0.0 0.0 0.0 1.0

necesitaron con el algoritmo propuest 50 interaciones con loque obtenia una certeza deI 95% o más en el caso afirmativo y0.01% o menos para los casos negativos. También se consideróla presencia de ruido en los patrones de las letras, obteniendoseun 85% o más en los casos afirmativos. Con el algoritmooriginal esto necesitaría unas 3000 iteraciones.

Como último caso presentarernos el aprendizaje de funcionesde las pertenencia deI error (e) y deI cambio deI error (6), asícorno de la tab1a de búsqueda utilizada para controladoresborrosos, lo cual puede ser útil en el área de control Hayashi etaI (1989) Strefezza (1994) Yarnaokaet aI (1990).

Para las funciones de pertenencia, se entrenan dos redesneuronales, las cuales poseen respectivamente tres capas con 1,6 y 7 neuronas respectivamente. Esto implica que se estántornando siete variables borrosas. De igual forma, los datos deentrada-salida para cada una de las redes se muestran en la

205

Cambio deI Error ( é )Error(e) NB NM N's ZO PS PM PBNR NB NB NB NB NB NR NBNM NB NB NB NM NM NM NMNS NB NM NM NS NS NS NSZO NM NS ZO ZO ZO PS PMPS PS PS PS PS PM PM PBPM PM PM PM PM PB PB PNPB PB PB PB PB PB PB PB

40. SBAI-Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

Tabla 1 respectivamente. EI resultado deI entrenamiento deestas redes se pueden observar en las Fig. 4 Y Fig. 5respectivamente. Con :el algoritmo arriba propuesto, senecesitan menos de 260 presentaciones de los datos entrada-salida para entrenar a cada una de las redes, con el métodotradicional de backpropagarion son necesarias más de 3000presentaciones. .

En cuanto a la tabla de busqueda, también se utiliza una redneuronaI de tres capas con 14, 6 y 7 neuronas en cada capa. Latabla de busqueda utilizada se muestra en la Tabla 2, siendoutilizados soIamente 1's y O's para su entrenamiento. Con lasecuaciones modificadas se necesitaron menos de 100presentaciones de los datos entrada-salida para entrenar esta

Grado de pertenenecia1.0 deI error

Fig, 4. Función de pertenencía del error (e) obtenida Iuegode utilizar los datos de la labia 1.

Grado de pertenenciaI. o. dei cambio del error

Tabla 2. Tabla de busqueda utilizada para entrenar la redneuronal.

datos para obtener su convergencia y así reducir el tiempo deaprendizaje.

Se realizaron experiencias con diferentes tipos de data y depatrones, además de comparase con otros métodos propuestosen la literatura, obteniendose resultados satisfactorios.Comparando con eI algoritmo original. La diferencia entre losporcentajes de respuesta afirmativa y negativa a la salida de lared lo suficientemente grande, en casos de entrenamientos depatrones compuestos de O's y 1's, EI algoritmo presentadotambién puede ser utilizado en caso de diseiíar sistemas decontrol.

En el algoritmo presentado se deben ajustar ciertas variablespor ensayo y error, al igual que en otros algoritmos, por lo quesiempre existe la posibilidad de saturación de las neuronasimpidiendo un aprendizaje correcto de los patrones presentadosa las redes.

4 CONCLUSIONES

Fig. 5. Función de pertenencia dei cambio error (ti )obtenida Iuego de utilizar los datos de la tabla 1.

red. EI método convencional necesita más de 3000 para obtenerel mismo resultado.

5 REFERENCIAS BIBLIOGRÁFICASBello, M.G.(1992). Enhanced Training AIgorithms, and

integrated training/architecturc selection for MultilayerPerceptron .Networks. IEEE Transactions on NeuralNetworks, VoI. 3, November.

Driankov, D., HeIlendoorn, H. and Reinfrank, M. (1993). AnIntroduction to Fuzzy ControI. Springer-Verlag. .

Hayashi, 1., Nomura, H. and Wakami, N. (1989). ArtificialNeural Network Driven Fuzzy Control and its Applicationto the Lerarning of Inverted Pendulum System. 3rtf• IFSACongress, Japón (1989). 610-613.

Jang, J.-S.R., Sun,C.-T. and Mizutani, E.(1997l.Neuro-Fuzzyand Soft Computing. Prentice HaIl, 1997. .

Javed, M.A. and Sanders S.AC (1991).An Adaptive LearningProcedure for ' Neural Networks In ' engineeringApplications. Intelligent Engineering Systems ThroughArtificial Neyral Networks. Dagli, Kimura and ShinEditors, ASME Press.

Karnin, s,o. (1990). A Simple Procedure for Pruning Back-Propagation Trained Neural Networks. IEEE Transactionson Neural Networks, VoI. 1.

Mozer, M.C. and Smolensky, P.(1989). Using Relevance toReduce Network Size Automatically. Connection Science,VaI. 1.

Parker, D. (1987). OptimaI Algorithm for Adaptive Networks:Second Order Back Propagation, Second Order DirectPropagation and Second Order Hebbian Learning. ..

4.0

Cambio dei crror (xlO' l )-4.0

En este trabajo se han entrenado las redes neuronales con unalgoritmo modificado de backpropagation, el cual no es dificilde implementar ya que no necesita. Este reduce en un granporcentaje el número de iteraciones que hay que realizar de

206

40. SBAI - Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

Proceedings of IEEE First International Conference onNeural Networs, San Diego, USA.

Ricotti, L., Ragazzini, S. and Martinelli, G.(1988). Learning ofWord Stress in a Sub-optimal Second OrderBackpropagation Neural Network. Proceedings of IEEESecond Intemational Conference on Neural Networs, SanDiego, USA.

Stefanos, K. and Anastassiou D.(1988).Adaptive Training ofMultilayer Neural Networks using a Least-squaresEstimation Technique. Proceedings of the IEEEIntemational Conference on Neural Networks , (1), 3830

-

390.Strefezza, M. (1994). Neuro Fuzzy Robust Motion ControI.Doctoral thesis, Muroran Institute ofTechnology, Japan.

Uchikawa, Y., Horikawa, S. Furuhashi, T. and Okuma,S.(1990). AFuzzy Controller using a Neural Network andits capability to Learn Experts Control Rules. Proceedingsof the International Conference on Fuzzy Logic and NeuralNetworks, Japón. 103-106.

Wilamowski, B.M. and Torvik, L.M.(1993). Modification ofgradient Computation in the Back-Propagation A1gorithm.Intelligent Engineering Systems Through Artificial NeyralNetworks. Dagli, Kimura and Shin Editors, ASMEPress.

Yamaoka, M. and Mukaidomo, M. (1990). A LearningMethod of the Membership Function with NeuralNetworks. &h. Fuzzy System Symposium, Japón. 197-200..En Japonés.

Zhou, G. and Sun, Y.(1991). A Combined Gradient Learningalgorithm For Multi-layered Neural Networks.Proceedings ofthe IECON'91. Japón (1991).1492-]495.

207

ALGORITMO DE APRENDIZAJE ACELERADO PARA … · - Simpósio de Automação Inteligente, 08 -10 de...

Documents

Transcript of ALGORITMO DE APRENDIZAJE ACELERADO PARA … · - Simpósio de Automação Inteligente, 08 -10 de...