Q Learning Simulator
-
Upload
david-jardim -
Category
Documents
-
view
697 -
download
22
description
Transcript of Q Learning Simulator
Q-Learning Robolution
Reinforcement LearningSimulação de um Robô Autónomo em problemas de labirintosDavid Jardim 8730
Motivação
Simular um robô móvel que: Actue como um agente que possua
aprendizagem. Desloque-se num ambiente desconhecido,
efectuando a detecção de obstáculos. Obtenha informação sobre o ambiente,
através de um sistema sensorial. Defina estados consoante a informação
obtida.Machine Learning - David Jardim 2008/2009 2
Machine Learning - David Jardim 2008/2009
Dificuldades Encontradas
Simular o movimento de um robô real.
Desenhar os sensores com os ângulos pretendidos.
Actualizar as posições de forma correcta.
Definir os diferentes estados do robô.
Atribuir recompensas de forma correcta a cada estado.
Problemática dos becos sem saída.3
Machine Learning - David Jardim 2008/2009
Descrição do Cenário
As paredes são representadas por linhas
amarelas.
4
Machine Learning - David Jardim 2008/2009
Descrição do Agente
32010423 5
Acções possíveis: Virar à esquerda. Virar à direita. Mover-se para a frente.
Sistema Sensorial 3 Sensores para a detecção de obstáculos. 3 Sensores para obter o ângulo relativamente
ao farol. Distância discreta em relação ao farol.
Estados possíveis:
Machine Learning - David Jardim 2008/2009
Simular o Movimento do Robô
Matriz de Transformação: Translada o objecto. Roda o objecto em torno do seu centro.
Para actualizar as coordenadas dos Sensores: Actualizar o ponto inicial (centro do
robô). Actualizar o ponto final (extremidade do
sensor).
6
Machine Learning - David Jardim 2008/2009
Definição do Estado
Sensores de Contacto: Igual a 1 quando ocorre intersecção com uma parede. Igual a 0 quando não ocorre intersecção. Verifica intersecções apenas com as 4 paredes mais
próximas. Sensores de Orientação:
Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.
Distância: Foi necessário tornar a distância discreta, de forma a
reduzir o número de estados possíveis.
7
Recompensa
Atribuída consoante a acção efectuada: Rodar à esquerda ou à direita.
▪ Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.
Deslocar-se para a frente.▪ Depende do valor da distância discreta a que
o robô se encontra do farol. A recompensa é calculada de forma distinta,
para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.
Machine Learning - David Jardim 2008/2009 8
Machine Learning - David Jardim 2008/2009
Becos sem saída
Como escolher entre 2 caminhos que: Um conduz ao farol, mas com uma
recompensa imediata inferior. O outro não leva ao farol, mas possui
uma recompensa imediata superior. Solução:
Foi atribuída uma recompensa suficientemente grande aos estados finais.
9
Machine Learning - David Jardim 2008/2009
Distâncias Discretas
10
Machine Learning - David Jardim 2008/2009
Funcionalidades da Aplicação
11
Machine Learning - David Jardim 2008/2009
Funcionalidades da Aplicação
12
O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.
Machine Learning - David Jardim 2008/2009
Resultados
13
1 14 27 40 53 66 79 92 1051181311441571701831960
500
1000
1500
2000
2500
3000
3500
IteraçãoPassos
Machine Learning - David Jardim 2008/2009
Resultados
14
1 14 27 40 53 66 79 92 1051181311441571701831960
1000
2000
3000
4000
5000
6000
7000
8000
Iter-ação
Machine Learning - David Jardim 2008/2009
Limitações
A distância entre o robô e a parede não é calculada através da tensão do sensor (IR).
O deslocamento não é efectuado tendo em conta as rodas do robô.
Se o cenário for demasiado complexo, a convergência da solução é muito lenta.
15
Machine Learning - David Jardim 2008/2009
Questões
16