Métodos de aceleração da aprendizagem

Aprendizagem Automática

Mestrado em Engenharia Informática

13-04-2023 Aprendizagem Automática / Machine Learning

Sumário

Métodos de aceleração

2


Aceleração de Algoritmos Genéticos

Começar com pequenas populações / testes para eliminar rapidamente casos de espécimes inapropriados e focar zonas "interessantes"

Usar apenas mutação Usar conhecimento específico do

problema para minimizar a possibilidade de espécimes inapropriados 3


Aceleração de RL

Backward experience replay (Lin 92)

Shaping (Randløv & Alstrøm, 1998), (Selfridge et

al., 1985), (Matari´c, 1997), (Ng et al. 1999)

4


Aceleração Aprendizagem Supervisionada

Boosting (Kearns 88) Can a set of weak learners create a single strong

learner? Vários modelos ("aprendedores") "fracos" Adicionados com um peso associado Exemplos mal classificados tornam-se mais importantes

para o erro em cada iteração

Bagging - Bootstrap aggregating: (Breiman 96) Selecciona aleatoriamente subconjuntos de dados, Treina com vários "aprendedores", Classifica por votação.

5

Termo de momento (momentum) Duas vezes na mesma direcção, acelera, Em direcções contrárias, trava (ou não é

usado). Valor típico: 0.8

Aceleração de Backprop

)( ,1,,,1 ijtijtijtijt wwww

x

ijijt xw ,

A mesma taxa de aprendizagem para todos os pesos faz com que se mova com a mesma “velocidade” em todas as direcções

Solução: taxas de aprendizagem diferentes para cada peso


ALR (Adaptive Learning Rates):


x

ijijt xw , ijtijtijt www ,,,1

x

ijijt xw , ijtijtijtijt www ,,,,1

Ec

wwd

wwu

ijt

ijtijtijt

ijtijtijt

ijt

,

0,

0,

,

,,,

,,,

,

5.01

8.01

2.11

c

d

u


Referências

(Whitehead 91) Whitehead, S. D. (1991). A complexity analysis of cooperative mechanisms in reinforcement learning. Proc. of the 9th National Conf. on AI (AAAI-91), pp. 607–613.

(Lin 92) Lin, L.-J. (1992). Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine Learning, 8, 293–321.

F. M. Silva and L. B. Almeida, "Acceleration Techniques for the Backpropagation Algorithm", in L. B. Almeida and C. J. Wellekens (eds.), Neural Networks, Springer-Verlag, 1990.

9

http://web.ist.utl.pt/ist12048

http://www.lx.it.pt/~lbalmeida


Referências

Randløv, J., & Alstrøm, P. (1998). Learning to drive a bicycle using reinforcement learning and shaping. Proceedings of the 15th International Conference on Machine Learning (pp. 463.471).

Selfridge, O., Sutton, R. S., & Barto, A. G. (1985). Training and tracking in robotics. Proceedings of the Ninth International Joint Conference on Articial Intelligence (pp. 670.672).

Matari´c, M. (1997). Reinforcement learning in the multirobot domain. Autonomous Robots, 4, 73.83.

Ng, A., Harada, D., & Russell, S. (1999). Policy invariance under reward transformations: theory and application to reward shaping. Proceedings of the 16th International Conference on Machine Learning (pp. 278.287).

10


Referências

(Kearns 88) Michael Kearns. Thoughts on hypothesis boosting. Unpublished manuscript. 1988

(Schapire 90) Rob Schapire. Strength of Weak Learnability. Machine Learning Vol. 5, pages 197-227. 1990

(Breiman 96) Breiman, L., Bagging Predictors, Machine Learning, 24(2), pp.123-140, 1996.

11


Sumário

Métodos de aceleração e melhoria de resultados em Aprendizagem Supervisionada e por Reforço

12

Métodos de aceleração da aprendizagem

Documents

Transcript of Métodos de aceleração da aprendizagem