Modelagem e Simulação de um Sistema de Aprendizado de ... · 3DEPARTAMENTO DE ENGENHARIA...
Transcript of Modelagem e Simulação de um Sistema de Aprendizado de ... · 3DEPARTAMENTO DE ENGENHARIA...
Modelagem e Simulação de um Sistema de Aprendizado de Reforço para Robôs
André Luiz Carvalho Ottoni1; Rubisson Duarte Lamperti2; Erivelton Geraldo Nepomuceno3; Marcos Santos de Oliveira4;
Fernanda Felipe de Oliveira5.
1DEPARTAMENTO DE ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected] DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected]
3DEPARTAMENTO DE ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected] DE MATEMÁTICA E ESTATÍSTICA - UFSJ. Email: [email protected]
5DEPARTAMENTO DE CIÊNCIAS ADMINISTRATIVAS E CONTÁBEIS - UFSJ. Email: [email protected]
Introdução
As máquinas inteligentes ou robôs estão cada vez mais presentes na sociedade e nas indústrias.
Participam de operações que necessitam de alta precisão. Além disso, poupam o esforço e a vida
humana ao executar tarefas consideradas perigosas. Em algumas indústrias os robôs participam
dos processos de produção e são importantes para garantir o sucesso final da tarefa. Mas para
garantir um produto de qualidade, é necessário que esses robôs estejam programados de forma
eficiente.
O Aprendizado por Reforço é uma técnica de aprendizado de máquina, na qual o agente
aprende por meio de interação direta com o ambiente e seu algoritmo converge para uma situação
de equilíbrio (Sutton and Barto, 1998). No AR, um agente pode aprender em um ambiente não
conhecido previamente, por meio de experimentações. Dependendo de sua atuação, o agente
recebe uma recompensa ou uma penalização e, desta forma, o algoritmo encontra um conjunto de
ações que levam o agente a percorrer o caminho ótimo. A este conjunto, formado pelas melhores
ações, dá-se o nome de política ótima.
Objetivos
Baseando-se na importância da robótica atualmente e nas pesquisas de inteligência artificial
que envolve o futebol de robôs, pretende-se alcançar com esse projeto a resolução de problemas
de cooperação em sistemas multiagentes, via aprendizado por reforço. Dessa forma, os objetivos
deste trabalho foram:
Modelagem e simulação de um sistema de Aprendizado por Reforço para um sistema
multiagente (multirrobô) cooperativo. A plataforma adotada é o futebol de robôs simulado em
duas dimensões da Robocup (Fig. 1).
Análise da evolução do desempenho de um sistema multiagente cooperativo que utiliza o
algoritmo Q-learning de Aprendizado por Reforço, através do índice de aprendizagem.
Fig. 1: Imagem do Simulador2D da Robocup.
Metodologia
A metodologia adotada para a desenvolvimento da estratégia de aprendizagem é dividida em
quatro etapas, as quais são:
1. Definição e discretização das ações dos agentes:
• Drible Lento; Drible Lento; Drible Normal; Passe/Chute; Avançar.
2. Definição e discretização dos estados do ambiente no qual os agentes estão inseridos;
• Adversário Longe Atrás; Adversário Perto Atrás; Adversário Muito Perto Atrás;
Adversário Longe Frente; Adversário Perto Frente; Adversário Muito Perto
Frente.
3. Definição dos valores dos reforços da tabela R, para cada par Estado (S) X Ação (A);
4. Implementação no Simulador RcSoccerSim da Robocup de Futebol de Robôs.
Tabela 1: Matriz de Recompensa Imediata.
Estado/Ação A1 A2 A3 A4 A5 A6
E1 -1 -1 -1 20 -1 -1
E2 0 -1 0 -1 -1 0
E3 5 -1 -1 -1 -1 -1
E4 -1 -1 -1 20 -1 -1
E5 -1 5 0 0 -1 0
E6 -1 -1 -1 10 10 -1
Análise dos Resultados
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79
-6
-5
-4
-3
-2
-1
0Saldo de Gols
Jogos
Fig. 2: Média de Saldo de Gols Acumulado.
Fig. 3: Índice de Aprendizagem.
Agradecimentos: Agradecemos ao UaiSoccer2D, UAIrobots, GCoM, PPGEL,
FAPEMIG e UFSJ.
Na tentativa de analizar os resultados das simulações foi proposto o índice de aprendizagem.
Esse índice indica a predominância de uma sequência de resultados acima da média de saldo gols
(índice positivo) ou a predominância de resultados abaixo da média de saldo de gols (índice
negativo). Os calculos demostraram que entre as simulações 31 e 60 o time de robôs obtiveram
convergência positiva do índice. Ou seja, nesse trecho o sistema de aprendizado mais aproximou
de um controle ótimo dos robôs.
Conclusões