Q Learning Simulator

16
Q-Learning Robolution Reinforcement Learning Simulação de um Robô Autónomo em problemas de labirintos David Jardim 8730

description

Q Learning Simulator

Transcript of Q Learning Simulator

Page 1: Q Learning Simulator

Q-Learning Robolution

Reinforcement LearningSimulação de um Robô Autónomo em problemas de labirintosDavid Jardim 8730

Page 2: Q Learning Simulator

Motivação

Simular um robô móvel que: Actue como um agente que possua

aprendizagem. Desloque-se num ambiente desconhecido,

efectuando a detecção de obstáculos. Obtenha informação sobre o ambiente,

através de um sistema sensorial. Defina estados consoante a informação

obtida.Machine Learning - David Jardim 2008/2009 2

Page 3: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Dificuldades Encontradas

Simular o movimento de um robô real.

Desenhar os sensores com os ângulos pretendidos.

Actualizar as posições de forma correcta.

Definir os diferentes estados do robô.

Atribuir recompensas de forma correcta a cada estado.

Problemática dos becos sem saída.3

Page 4: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Descrição do Cenário

As paredes são representadas por linhas

amarelas.

4

Page 5: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Descrição do Agente

32010423 5

Acções possíveis: Virar à esquerda. Virar à direita. Mover-se para a frente.

Sistema Sensorial 3 Sensores para a detecção de obstáculos. 3 Sensores para obter o ângulo relativamente

ao farol. Distância discreta em relação ao farol.

Estados possíveis:

Page 6: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Simular o Movimento do Robô

Matriz de Transformação: Translada o objecto. Roda o objecto em torno do seu centro.

Para actualizar as coordenadas dos Sensores: Actualizar o ponto inicial (centro do

robô). Actualizar o ponto final (extremidade do

sensor).

6

Page 7: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Definição do Estado

Sensores de Contacto: Igual a 1 quando ocorre intersecção com uma parede. Igual a 0 quando não ocorre intersecção. Verifica intersecções apenas com as 4 paredes mais

próximas. Sensores de Orientação:

Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.

Distância: Foi necessário tornar a distância discreta, de forma a

reduzir o número de estados possíveis.

7

Page 8: Q Learning Simulator

Recompensa

Atribuída consoante a acção efectuada: Rodar à esquerda ou à direita.

▪ Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.

Deslocar-se para a frente.▪ Depende do valor da distância discreta a que

o robô se encontra do farol. A recompensa é calculada de forma distinta,

para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.

Machine Learning - David Jardim 2008/2009 8

Page 9: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Becos sem saída

Como escolher entre 2 caminhos que: Um conduz ao farol, mas com uma

recompensa imediata inferior. O outro não leva ao farol, mas possui

uma recompensa imediata superior. Solução:

Foi atribuída uma recompensa suficientemente grande aos estados finais.

9

Page 10: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Distâncias Discretas

10

Page 11: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Funcionalidades da Aplicação

11

Page 12: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Funcionalidades da Aplicação

12

O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.

Page 13: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Resultados

13

1 14 27 40 53 66 79 92 1051181311441571701831960

500

1000

1500

2000

2500

3000

3500

IteraçãoPassos

Page 14: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Resultados

14

1 14 27 40 53 66 79 92 1051181311441571701831960

1000

2000

3000

4000

5000

6000

7000

8000

Iter-ação

Page 15: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Limitações

A distância entre o robô e a parede não é calculada através da tensão do sensor (IR).

O deslocamento não é efectuado tendo em conta as rodas do robô.

Se o cenário for demasiado complexo, a convergência da solução é muito lenta.

15

Page 16: Q Learning Simulator

Machine Learning - David Jardim 2008/2009

Questões

16