UmEstudosobreAprendizadopor ReforçoMultiagentee Reward …rgrunitzki/papers/Grunitzki2014ti.pdf ·...

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SULINSTITUTO DE INFORMÁTICA

PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO

RICARDO GRUNITZKI

Um Estudo sobre Aprendizado porReforço Multiagente e Reward

Shaping

Trabalho Individual ITI-401

Profa. Dra. Ana L. C. BazzanOrientador

Porto Alegre, Junho de 2014

SUMÁRIO

LISTA DE ABREVIATURAS E SIGLAS . . . . . . . . . . . . . . . . . . . 4

LISTA DE SíMBOLOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3 Organização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 APRENDIZADO POR REFORÇO . . . . . . . . . . . . . . . . . . . . 122.1 Aprendizado por Reforço Monoagente . . . . . . . . . . . . . . . . 122.1.1 Processo de Decisão de Markov . . . . . . . . . . . . . . . . . . . . . 142.1.2 Principais Métodos de RL . . . . . . . . . . . . . . . . . . . . . . . . 152.2 Aprendizado por Reforço Multiagente . . . . . . . . . . . . . . . . 172.2.1 Processo de Decisão de Markov Multiagente . . . . . . . . . . . . . . 182.2.2 Equilíbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.3 Ótimo de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.4 Principais Métodos de MARL . . . . . . . . . . . . . . . . . . . . . . 202.3 Aprendizado por Reforço Baseado em Conhecimento . . . . . . 212.3.1 Reward Shaping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.2 Potential-Based Reward Shaping . . . . . . . . . . . . . . . . . . . . . 222.3.3 Potential-Based Advice . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3.4 Plan-Based Reward Shaping . . . . . . . . . . . . . . . . . . . . . . . 252.3.5 Reward Shaping em Sistemas Multiagente . . . . . . . . . . . . . . . 26

3 POTENTIAL-BASED REWARD SHAPING EM TEORIA . . . . . . . 293.1 PBRS Dinâmico não é Equivalente a Inicialização da Tabela Q 293.2 Equilíbrio de Nash Consistente e Política Invariante . . . . . . . 323.3 Reprodução de Trabalhos Correlatos . . . . . . . . . . . . . . . . . 333.3.1 Política Invariante: Labirinto Monoagente . . . . . . . . . . . . . . . 333.3.2 Equilíbrio de Nash Consistente: Jogo de Coordenação Multiagente . . 35

4 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

LISTA DE ABREVIATURAS E SIGLAS

DP Programação DinâmicaJA Ação ConjuntaJAL Joint-Action Learner

MARL Aprendizado por Reforço MultiagenteMAS Sistema MultiagenteMDP Processo de Decisão de MarkovMMDP Processo de Decisão de Markov MultiagentePBRS Potential-Based Reward Shaping

POMDP Processo de Decisão de Markov Parcialmente ObservávelRL Aprendizado por ReforçoRS Reward Shaping

TD Diferença Temporal

LISTA DE SÍMBOLOS

A Conjunto de ações do agentea Determinada ação de um agentea′ Determinada ação futura de um agenteD Função de recompensa difference rewardsF Função reward shapingG(z) Recompensa total dos z agentesG(z− zi) Recompensa total dos agentes z menos o agente ziO Probabilidade de observaçãoP Conjunto de agentesQ Valor de um determinado par estado-açãoR Função de recompensar Determinada recompensat Determinado passo de tempoS Conjunto de estados do ambientes Determinado estado do ambientes′ Determinado estado futuro do ambienteT Função de transição de estadosα Taxa de aprendizagemγ Fator de descontoε Taxa de exploraçãoΩ Espaço de observaçõesΠ Conjunto de políticasπ Determinada política de transição de estadosπ∗ Política ótima de transição de estadosΦ Função potencial do potential-based reward shapingτ Parâmetro de temperatura da exploração de BoltzmannV π Expectativa de recompensa a ser recebida por seguir determinada política

LISTA DE FIGURAS

2.1 Interação agente-ambiente. Adaptado de (SUTTON; BARTO,1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2 Curva de aprendizado para de um agente com (advice) e semPBRS (WIEWIORA; COTTRELL; ELKAN, 2003). . . . . . . . . 23

2.3 Plan-based reward shaping (DEVLIN, 2013) . . . . . . . . . . . . 262.4 Um exemplo de paradoxo de Braess. Adaptado de (TUMER;

WOLPERT, 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1 Mapa do labirinto (DEVLIN; KUDENKO, 2012) . . . . . . . . . 343.2 Número médio de passos utilizados pelo agente para se desloque

de S para G, para três abordagens distintas: sem PBRS, PBRSaleatório uniforme e PBRS aleatório negativo. (DEVLIN; KU-DENKO, 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.3 Jogo de coordenação de Boutilier (DEVLIN; KUDENKO, 2012) . 353.4 Percentual de comportamento adquirido no jogo de Boutilier para

a abordagem sem PBRS . . . . . . . . . . . . . . . . . . . . . . . 373.5 Percentual de comportamento adquirido no jogo de Boutilier para

a abordagem com função PBRS aleatória uniforme . . . . . . . . 383.6 Percentual de comportamento adquirido no jogo de Boutilier para

a abordagem com função PBRS aleatória negativamente enviesada 38

RESUMO

O aprendizado por reforço há muito tempo vem sendo apresentado como umatécnica promissora na resolução de problemas onde um comportamento, até entãodesconhecido, deve ser aprendido. A literatura apresenta as mais diversas aplica-ções desta técnica, envolvendo problemas de caráter monoagente e multiagente. Adificuldade em aprender um comportamento aumenta em função da complexidadedo problema, complexidade esta que é sensível às características do ambiente e aonúmero de agentes aprendendo. Quando a complexidade aumenta, o tempo ne-cessário para aprender um comportamento também pode aumentar. Técnicas deincorporação de conhecimento de domínio, dentre as quais destacam-se o rewardshaping e potential-based reward shaping, vem sendo apresentadas como soluçõespromissoras para contornar este problema. Neste contexto, este trabalho apresentaum levantamento bibliográfico sobre aprendizado por reforço e as principais técnicasde reward shaping, em especial o potential-based reward shaping. Além disso, doisproblemas apresentados na literatura são aqui reproduzidos para demonstrar queo uso de potential-based reward shaping mantém a política invariante, em cenáriosmonoagente, e convergência para um equilíbrio de Nash, em problema multiagentede dois jogadores. Experimentações empíricas realizadas nestes cenários confirmamas teorias presentes na literatura.

Palavras-chave: Reward shaping, aprendizado por reforço multiagente, sistemasmultiagente.

ABSTRACT

A Study of Multiagent Reinforcement Learning and Reward Shaping

Reinforcement learning has been presented for a long time as a promising tech-nique in solving problems where a behavior, previously unknown, must be learned.The literature presents several applications of this technique involving problemsmonoagent and multiagent. The difficulty in learning a behavior increases withthe complexity of the problem, which is sensitive to environmental conditions andthe number of learning agents. As the complexity increases, the time needed tolearn a behavior may also increase. Techniques for incorporating domain knowl-edge, among which, reward shaping and potential-based reward shaping stand out,have been presented as promising solutions to overcome this problem. In this con-text, this work presents a literature review on reinforcement learning and rewardshaping techniques, especially potential-based reward shaping. In addition, twoproblems presented in the literature are reproduced here to demonstrate that theuse of potential-based reward shaping maintains the invariant policy in monoagentscenarios, and convergence to a Nash equilibrium for the multiagent case. Empiricalresults in these scenarios confirm theories presented in literature.

Keywords: Reward shaping, multiagent reinforcement learning, multiagent sys-tems.

9

1 INTRODUÇÃO

Um sistema multiagente, de acordo com (WOOLDRIDGE, 2009), é compostopor múltiplos agentes que interagem entre si. Cada agente atua sobre o ambiente epossui, portanto, uma “esfera” de influência sobre ele. As esferas de influência dediferentes agentes podem se sobrepor e isso pode gerar relações entre os agentes.(FRANKLIN; GRAESSER, 1997) definem agente como uma entidade capaz de per-ceber seu ambiente, por meio de sensores e de agir sobre esse ambiente ao longo dotempo, por meio de atuadores, com um objetivo próprio. Embora exista uma grandevariedade de aplicações onde sistemas multiagente possam ser aplicados, pode-sedestacar aplicações onde os agentes são implementados (i) com comportamentosespecíficos, como operações de resgate em situações de desastre (terremotos, inun-dações, furacões, entre outros); e (ii) problemas em que se faz necessário aprenderos comportamentos online. Nos problemas deste segundo caso, tanto o desempenhodo agente quanto o desempenho total do sistema são refinados gradativamente. Estemétodo de aprendizado é denominado aprendizado por reforço (RL - reinforcementlearning).

O RL lida com o problema de um agente aprender um comportamento atravésda sua interação com o ambiente. Essa interação permite a inferência de relações decausa e efeito sobre as consequências das ações do agente e o que ele deve fazer paraatingir seus objetivos. Através do RL, o agente aprende como mapear situaçõespara ações, de modo a maximizar um sinal numérico de recompensa recebido doambiente. O agente tem que lidar com um problema de decisão sequencial, istoé, suas ações podem afetar não apenas a recompensa imediata, mas também asrecompensas subsequentes oriundas de sua situação futura.

Quando o problema possui múltiplos agentes aprendendo e interagindo no mesmoambiente, a complexidade da tarefa de aprendizagem aumenta consideravelmente.Nestas situações, o desempenho individual dos agentes é influenciado por suas açõesindividuais e das consequências das ações dos demais agentes. Além disso, carac-terísticas do ambiente como: observável ou não observável, estático ou dinâmico,discreto ou contínuo e etc. contribuem para o aumento desta complexidade doproblema. Embora exista uma série de algoritmos desenvolvidos para realizar estatarefa de aprendizado por reforço multiagente, técnicas como as que consideramo uso de ações conjuntas dos agentes (que será visto neste trabalho) na tomadade decisão individual necessitam de um número ainda maior de experiências paraaprender uma política de ação. Ainda, as garantias de convergência para soluçãoótima não se aplicam na presença de diversos agentes (BABES; COTE; LITTMAN,2008).

No aprendizado por reforço em geral, tanto monoagente quanto multiagente, os

10

agentes geralmente são implementados sem nenhum conhecimento a priori do domí-nio. Entretanto, dado um tempo significante para aprender, uma adequada repre-sentação dos estados e uma função de recompensa informativa, os agentes atuarãono ambiente de modo que sua recompensa seja maximizada. No entanto, traba-lhos como (BABES; COTE; LITTMAN, 2008; MARTHI, 2007; MATARIĆ, 1997;STONE; VELOSO, 1999) provam que a utilização adequada de conhecimento dedomínio, por parte do projetista, pode proporcionar uma série de benefícios aosalgoritmos de aprendizado.

Existem várias formas de se inserir conhecimento em algoritmos de aprendizadopor reforço, das quais podemos destacar: inicialização do modelo de tomada dedecisão dos agentes, exclusão de características não relevantes para a tomada dedecisão e transferência de aprendizado. Porém, a utilização destas técnicas muitasvezes é inviabilizada pelas restrições de aplicação do domínio ou pela convergênciaprematura para estados não ótimos.

A incorporação do conhecimento, tipicamente já conhecido pelo projetista do sis-tema, se aplicada de maneira adequada pode reduzir significativamente o número deações sub-ótimas tomadas pelo agente para aprender um comportamento desejável.Consequentemente, obtêm-se uma aceleração no processo de aprendizado. Potential-based reward shaping (PBRS) é uma técnica que tem se mostrado muito eficientena incorporação de conhecimento de domínio para se atingir este objetivo. O co-nhecimento é inserido no processo de aprendizado através do envio de recompensasadicionais ao agente. Apesar de haver um número crescente de trabalhos apresen-tando abordagens neste sentido, a maioria destes apresentam resultados com baseem experimentações empíricas e em cenários de caráter monoagente.

Para os cenários de caráter monoagente, trabalhos subsequentes como (WIEWI-ORA, 2003) apresentam algumas considerações teóricas sobre as garantias de políticainvariante para a utilização do PBRS. No entanto, apesar de alguns trabalhos como(BABES; COTE; LITTMAN, 2008; MARTHI, 2007) evidenciarem que em cenáriosonde existem múltiplos agentes aprendendo estas garantias se mantém, somente em(DEVLIN; KUDENKO, 2011) as devidas demonstrações teóricas são apresentadas.

Este trabalho individual apresenta um estudo que abrange os principais tópi-cos relacionados ao aprendizado por reforço e a utilização de PBRS, bem como umabreve apresentação das principais técnicas utilizadas para a incorporação de conheci-mento de domínio no processo de aprendizagem por reforço. Ainda dentro do PBRSserão apresentadas as provas de política invariante para problemas monoagente eequilíbrio de Nash consistente em problemas multiagente, bem como a reproduçãode estudos empíricos realizados por (DEVLIN; KUDENKO, 2012) que confirmamtais afirmações.

1.1 Objetivos

O objetivo deste trabalho é fornecer uma visão abrangente sobre o que vem sendopublicado a respeito das técnicas de aprendizagem por reforço e incorporação de co-nhecimento de domínio, com foco em potential-based reward shaping. Não espera-sefazer apenas um levantamento teórico sobre o assunto, mas também reproduzir asprincipais abordagens em problemas de caráter monoagente e multiagente, compro-vando assim que o uso de PBRS não compromete a qualidade dos algoritmos deaprendizado por reforço.

11

1.2 MotivaçãoO aprendizado por reforço tem se mostrado muito eficiente na resolução de pro-

blemas onde métodos de aprendizagem de máquina tradicionais costumam falhar.Uma grande desvantagem desta técnica é a necessidade de um custoso e iterativoprocesso de treinamento até que se adquira uma solução dita ótima. O PBRS surgejustamente para amenizar os efeitos deste problema, trabalhos como (DEVLIN;KUDENKO, 2012) fundamentam esta afirmação. A grande limitação em utilizaresta técnica é a inexistência de um método genérico para criação do estímulo ex-tra (recompensa) que é dado ao agente. Diante disto, um estudo abrangente quecompreenda as principais vantagens e desvantagens das técnicas de incorporação deconhecimento em métodos de aprendizado por reforço é um bom passo inicial parafuturas investigações de desenvolvimento de funções de recompensa.

1.3 OrganizaçãoO restante deste trabalho está estruturado da seguinte maneira.

• Capítulo 2: Apresenta os principais conceitos sobre os métodos de aprendizadopor reforço monoagente, multiagente e baseados em conhecimento.

• Capítulo 3: Apresenta as principais provas teóricas envolvendo o uso de PBRS,bem como a reprodução de trabalhos que comprovam tais provas.

• Capítulo 4: Concluí este trabalho e apresenta perspectivas de continuidade.

12

2 APRENDIZADO POR REFORÇO

2.1 Aprendizado por Reforço MonoagenteO aprendizado por reforço tem suas raízes no aprendizado animal. É muito

comum fazer um cão responder com um comportamento desejado punindo-o ourecompensando-o apropriadamente. Um exemplo bem conhecido disto é o treina-mento de cães para encontrar vítimas de crimes ou desastres naturais como terremo-tos. Para que isto seja possível, os cães são treinados em simulações para encontrarobjetos com odores específicos. Sempre que eles encontram um objeto são recom-pensados com comida. Com base nesta recompensa, o cão adapta seu aprendizadogradativamente para encontrar o objeto (vítima, drogas e etc.) que retorna a maiorrecompensa. Para garantir que a solução seja encontrada, o RL recompensa oscomportamentos desejados e pune os indesejados, provocando assim uma mudançacomportamental. De modo geral, o objetivo do RL é descobrir uma política de ação,através do mapeamento de estados e ações que maximize o reforço total recebido(TUYLS; WEISS, 2012).

Do ponto de vista da ciência da computação, o RL é um tipo de aprendiza-gem de máquina. Aprendizagem de máquina é o processo pelo qual o computadoraprende a aperfeiçoar o seu desempenho a partir de exemplos ou observações. Doisoutros tipos muito comuns de aprendizagem de máquina são: supervisionado e nãosupervisionado (MITCHELL, 1997).

No aprendizado supervisionado existe a necessidade de um especialista de domí-nio para rotular tipos de exemplos, dos quais os algoritmos de aprendizado super-visionado podem identificar padrões e aprender como identificar novos exemplos. Oaprendizado não supervisionado identifica padrões em dados e os agrupa em gruposde dados semelhantes, sem a necessidade de um especialista. Já RL encontra-se en-tre o aprendizado supervisionado e não supervisionado. No RL não há a necessidadede um especialista de domínio para explicitar se uma ação tomada é certa ou errada.Entretanto, utiliza-se uma entrada recebida do ambiente como reforço para o queacredita ser a melhor forma de agir (MITCHELL, 1997).

Por meio do RL, o agente aprende uma política de ação para realizar uma ta-refa, através das suas interações com o ambiente. No RL monoagente, isto é, onde sóexiste um agente aprendendo, considera-se ambiente tudo além do agente (SUTTON;BARTO, 1998). O agente é a entidade que aprende e toma decisões no ambientede forma autônoma. Em outras palavras, é um programa capaz de tomar decisões,com base em suas próprias motivações de como se comportar em determinada situ-ação. Além disso, um agente que aprende por reforço, aprende como satisfazer suaspróprias motivações, através de suas experiências passadas no ambiente.

13

Para ganhar experiência o agente interage repetidas vezes com o ambiente, comoilustrado pela Fig. 2.1. A interação é um ciclo, iniciando com o ambiente queapresenta a sua situação atual ao agente, na forma de uma representação de estado.O agente, então, escolhe, a partir de um conjunto de ações dadas, o que fazerneste estado. A ação que o agente irá realizar causará algum efeito no ambientee, portanto, pode alterar o estado atual. Em seguida, o ambiente retorna o novoestado e uma recompensa numérica para o agente. Esta recompensa é uma entradaquantificada que reforça o que o agente acredita ser o correto modo de agir. O cicloé repetido pelo agente ao tomar uma nova ação (SUTTON; BARTO, 1998).

Agente

açãoatst

recompensart

rt+1st+1

estado

Ambiente

Figura 2.1: Interação agente-ambiente. Adaptado de (SUTTON; BARTO, 1998)

O agente usa a recompensa recebida do ambiente para gerar sua política de ação.A política do agente é um mapeamento de estados para ações numa tentativa demaximizar a recompensa que irá receber no futuro. Em RL a política é representadacomo uma função valor (em inglês: value function). A função valor mapeia o estados e ação a para a recompensa que será recebida ao longo do tempo em que o agenteestá no estado s, realiza a ação a e continua a seguir a mesma política durante orestante das interações (SUTTON; BARTO, 1998).

As funções valor podem ser inicializadas pessimistamente, otimistamente ou ale-atoriamente. Uma inicialização pessimista define todos os pares estado-ação o valormínimo possível (isto é, se todas as recompensas dadas são maiores ou iguais a 0,o valor inicial 0 é pessimista). Alternativamente, uma inicialização otimista definepara todos os pares estado-ação o máximo valor possível. A inicialização pessimistaassegura que todas as ações são testadas em todos os estados antes que a conver-gência para um comportamento fixo ocorra. Enquanto isso, a otimização otimistapermite que políticas se tornem favorecidas pelo agente mais rápido, mas não irádescobrir a política ótima até que esta seja encontrada pelo processo de exploração.Já a inicialização aleatória se beneficia dos benefícios de ambos os métodos.

Para maximizar a recompensa recebida pelas interações, o agente deve balancearcuidadosamente a necessidade de explorar com o desejo de aproveitar. Especifica-mente, em cada estado, o agente deve escolher quando vale a pena aproveitar umaação já conhecida ou explorar novas opções e, potencialmente, descobrir um parestado-ação mais benéfico. Com a exploração o agente deve ocasionalmente escolherações aleatórias para aprender suas recompensas e descobrir se elas levam a estadoscom recompensas superiores. Isto impede o agente de agir de forma ótima. Porém,sem exploração, o agente nunca irá ter conhecimento para agir de forma ótima. Oequilíbrio entre exploração e aproveitamento é uma chave para o sucesso quando seprojeta soluções com RL (SUTTON; BARTO, 1998).

14

Uma técnica muito utilizada para balancear as ações do agente é agir de formagulosa na maior parte do tempo e, as vezes, agir de forma aleatória. Desta forma,se garante que uma boa ação não seja perdida ao longo do tempo. Este método deexploração é conhecido como ε-guloso (em inglês: ε-greedy), no qual a opção gulosaé escolhida com uma probabilidade alta 1− ε, e as ações aleatórias são realizadascom uma pequena probabilidade ε. Outra alternativa é utilizar a abordagem soft-max ou exploração de Boltzmann (SUTTON, 1990), onde as ações boas têm umaprobabilidade exponencialmente alta de serem selecionadas e o grau de exploração ébaseado em um parâmetro de temperatura τ . Assim, uma ação aj é escolhida comprobabilidade:

Pj = eQ(s,aj)

τ∑i e

Q(s,ai)τ

(2.1)

o parâmetro de temperatura é utilizado para fazer o balanço entre exploração eaproveitamento. Quando τ → 0 é equivalente ao aproveitamento, já quando τ →∞as ações são puramente aleatórias.

2.1.1 Processo de Decisão de MarkovGrande parte das pesquisas envolvendo aprendizado por reforço monoagente é

baseada no processo de decisão de Markov (MDP - Markov decision process) (PU-TERMAN, 2005). Um MPD é uma tupla < S,A,T,R >, onde S representa o con-junto finito de estados do ambiente e A é o conjunto finito de ações do agente.De acordo com a propriedade de Markov, a dinâmica do futuro, transições erecompensas são completamente dependentes do estado atual, isto é, uma açãoa ∈A em um estado s ∈ S resulta em um estado s′, baseado na função de transiçãoT : S×A×S→ [0,1]. A probabilidade de parar em um estado s′ após a realização deuma ação a é denotada como T (s,a,s′). A função de recompensa R : S→< retornaa recompensa R (s,a) após o agente tomar uma ação a a partir de um estado s.

A função de transição T e a função de recompensa R, juntas, são definidas comoo modelo que o agente tem do ambiente. A tarefa de aprendizagem em um MDP éencontrar uma política π : S→ A para selecionar ações de maior retorno futuro. Aqualidade de uma política é indicada por uma função valor V π. O valor de V π (s)específica a quantidade total de recompensa que um agente pode acumular no futuro,iniciando no estado s e então seguindo a política π. Em um MDP com horizonteinfinito descontado, a expectativa de recompensa acumulada é denotada por:

V π (s) = E

[ ∞∑t=0

γtR (st) | s0 = s

](2.2)

Um fator de desconto γ ∈ [0,1) é introduzido para assegurar que as recompen-sas retornadas estejam limitadas em um valor finito. Esta variável determina arelevância da recompensa futura na atualização.

O valor para uma dada política π, expressa pela Eq. 2.2, pode ser iterativamentecomputada pela equação de Bellman (BELLMAN, 1957). Esta função, tipicamente,é inicializada com valores de função escolhidos arbitrariamente e, a cada iteração,para todo s ∈ S, o valor das funções são atualizados com base na recompensa ime-diata e na estimativa atual de Vπ, definida por:

V πt+1 (s) =R (s) +γ

∑s′∈S

T(s,π (s) , s′

)V πt

(s′)

(2.3)

15

O objetivo do MDP é encontrar uma política de estados e ações ótima quemaximize a recompensa recebida. A política ótima π∗ (s) é tal que V π∗ (s)≥ V π (s)para todo s ∈ S e todas as políticas π.

2.1.1.1 Processo de Decisão Semi-MarkovianoAssume-se que toda ação em um MDP leva a mesma quantidade de tempo para

ser realizada. No entanto, em muitas aplicações práticas esta afirmação não é ver-dadeira. Por exemplo, considerando um cenário onde um robô, que está aprendendoa se movimentar, possui as seguintes ações: avançar um passo e girar no eixo. Paramanter a estabilidade é provável que a ação de girar precise ser mais lenta do que ade avançar um passo.

Os SMDPs são generalizações dos MDPs que permitem abstrair ações que po-dem levar múltiplos passos de tempo e que podem ter diferentes durações para asoutras ações disponíveis ao agente em um mesmo estado. Esta técnica é comumenteutilizada em abordagens de aprendizado por reforço hierárquico.

2.1.1.2 Processo de Decisão de Markov Parcialmente ObservávelNo MDP presume-se que o agente pode observar com precisão o ambiente todo

e a qualquer tempo. Quando consideramos aplicações para problemas do mundoreal esta afirmação frequentemente não é verdadeira. Por exemplo, em cenáriosonde robôs recebem informações ruidosas de sensores que podem apenas perceber oambiente local.

Para modelar este tipo de aplicação deve-se considerar a extensão dos MDPspara POMDPs (KAELBLING; LITTMAN; CASSANDRA, 1998). Um POMDP éuma tupla < S,A,T,R,Ω,O >, onde:

• S é o espaço de estados: um conjunto de todos os possíveis estados;

• A é o espaço de ações: um conjunto de todas as possíveis ações;

• T é a função probabilidade de transição T (s,a,s′) = Pr (s′|s,a): a probabili-dade de que uma ação a em um estado s irá levar ao estado s′;

• R é a função de recompensa R (s,a,s′) ∈ <: a recompensa recebida quando aação a leva o agente de um estado s para s′;

• Ω é o espaço de observação, ou seja, o conjunto de todas as possíveis observa-ções;

• O é a função probabilidade de observação O (s′,a,o) = Pr (o|s′,a): a probabi-lidade de receber a observação o quando a ação a gera uma transição para oestado s′;

2.1.2 Principais Métodos de RL

A maior parte dos algoritmos de RL para resolver um MDP pode ser agrupadaem três categorias gerais: programação dinâmica, aprendizado por diferença tem-poral e métodos de Monte Carlo. Esta seção, mesmo que brevemente, discute todasestas categorias. Programação dinâmica pode ser utilizada quando as funções de re-compensa e transição são conhecidas. Se elas não são conhecidas, mas a propriedade

16

de Markov é consistente para um determinado domínio de problema, o aprendizadopor diferença temporal pode ser utilizado neste caso. Se as funções de recompensae transição são desconhecidas e o domínio do problema não sustenta a propriedadede Markov, métodos de Monte Carlo são mais apropriados.

Para uma leitura mais aprofundada sobre algoritmos de aprendizado por reforçomonoagente, recomenda-se a leitura de (SUTTON; BARTO, 1998).

2.1.2.1 Programação Dinâmica

O termo programação dinâmica (PD, em inglês: dynamic programming) refere-seà coleção de algoritmos que podem ser utilizados para computar a política ótima deum MDP conhecido e perfeito. Algoritmos clássicos de PD são bastante limitadosem RL, devido à sua suposição de modelo de ambiente perfeito e custo computacio-nal. Porém, ainda assim são importantes teoricamente. De acordo com (SUTTON;BARTO, 1998), os métodos de PD fornecem fundamentos essenciais para compre-ender os demais métodos de RL existentes.

Um conhecido algoritmo de programação dinâmica é o policy iteration. Estealgoritmo é inicializado com uma política aleatória e, para cada estado, é verificadose uma melhor ação pode ser realizada. Desta forma, alterando apenas um parestado-ação por vez para um com recompensa maior, o algoritmo pode garantirmonotonicamente melhorar a política geral do agente (PUTERMAN, 2005). Outrosalgoritmos conhecidos de programação dinâmica são: policy improvement, valueinteration, asynchronous dynamic programming e generalized policy iteration. Umaleitura abrangente sobre estes algoritmos pode ser encontrada no Capítulo 4 de(SUTTON; BARTO, 1998).

2.1.2.2 Aprendizado por Diferença Temporal

Algoritmos de aprendizado por reforço por diferença temporal (TD, em inglês:temporal difference) são métodos iterativos, atualizados online, durante as intera-ções do agente com o ambiente. A cada interação com o ambiente o algoritmo reduzgradativamente a diferença entre a expectativa de recompensa e a recompensa re-cebida, através da atualização das funções valor. Por isso, converge para soluçãoótima.

O algoritmo Q-learning (WATKINS; DAYAN, 1992) é o mais conhecido exemplode algoritmo de aprendizado por reforço por TD. Além disso, este algoritmo é livre demodelo. Fato que implica no modelo de mundo do agente, que pode ser incrementado(expandido) de acordo com as interações agente-ambiente. Outra característicaimportante deste algoritmo é a sua independência de política. Isto permite ao agenteatualizar sua função valor, enquanto segue uma política qualquer. De forma maisespecífica, após qualquer transição de estados, o Q-learning atualiza a função valoratravés da seguinte regra:

Q(s,a)→ (1−α)Q(s,a) +α[r+γmax

a′ Q(s′,a′

)](2.4)

onde α é a taxa de aprendizagem, e γ o fator de desconto, s é o estado inicial, a éa ação tomada e s′ é o estado resultante.

Tanto a taxa de aprendizagem quanto o fator de desconto são parâmetros indivi-duais de cada problema. O fator de aprendizagem implica nos efeitos de quão grandeserá a atualização de um valor Q. Já o fator de desconto determina a importância

17

das recompensas futuras.Segundo (SUTTON; BARTO, 1998), o Q-learning tem provado convergir para

política ótima em um MDP, se as seguintes restrições forem satisfeitas:

• Todos os pares estado-ação são experienciados por um infinito número de vezes;

• A exploração seja reduzida a zero;

• A taxa de aprendizagem (α) seja reduzida a zero;

• A propriedade de Markov seja satisfeita;

2.1.2.3 Métodos de Monte CarloMétodos de aprendizado por reforço puramente baseados em TD, atualizam ape-

nas o valor do último par estado-ação. No entanto, se a propriedade de Markov nãoé satisfeita, o histórico de estados e ações pode ser responsável pela recompensa re-cebida. Os métodos de Monte Carlo consideram todos os pares estado-ação durantea interação com o ambiente e atualiza-os apenas uma vez, ao fim da interação. Alémdisso, para problemas onde a propriedade de Markov não é satisfeita, métodos deMonte Carlo são mais adequados para a tarefa de aprendizado (SUTTON; BARTO,1998).

Os métodos de Monte Carlo aprendem funções valor e políticas ótimas a partirde experiências em exemplos - na forma de episódios. Segundo (SUTTON; BARTO,1998), em relação aos métodos de PD, este aprendizado episódico tem pelo menostrês vantagens. Primeira, eles podem ser utilizados para aprender um comporta-mento ótimo diretamente da interação com o ambiente, ou seja, sem um modelo dadinâmica do ambiente. Segundo, eles podem ser utilizados com a simulação ou mo-delos de exemplo. Terceiro, sua aplicação em um pequeno subconjunto de estados ésimples e eficiente.

O Capítulo 5 de (SUTTON; BARTO, 1998) apresenta uma leitura abrangentesobre esta categoria de algoritmos de RL.

2.2 Aprendizado por Reforço MultiagenteNo problema de aprendizagem por reforço multiagente (MARL - em inglês: mul-

tiagent reinforcement learning), um agente precisa aprender seu comportamentoótimo na presença de outros agentes, que também são capazes de aprender. Nesteproblema, todos os agentes estão situados em um ambiente em comum, o qual, emfunção da adição de mais agentes, tem um aumento significativo na quantidade devariáveis observáveis (BUŞONIU; BABUSKA; DE SCHUTTER, 2008).

Existem muitas técnicas propostas para realizar a tarefa de aprendizagem porreforço neste problema. Entretanto, como será apresentado na Seção 2.2, estas abor-dagens podem aumentar significativamente a complexidade do problema, em funçãodo número de agentes aprendendo e da quantidade de estados e ações disponíveis.Embora apresente problemas como este, os benefícios proporcionados pelo MARLsão imensos, dos quais (BUŞONIU; BABUSKA; DE SCHUTTER, 2008) destacam:• Aceleração do processo de aprendizagem: possível graças à computação para-

lela proporcionada pela estrutura descentralizada das tarefas. (GUESTRIN;LAGOUDAKIS; PARR, 2002; BUŞONIU; De Schutter; BABUŠKA, 2005)apresentam um estudo detalhado nesta direção;

18

• Compartilhamento de experiência: permite que agentes com tarefas similaresaprendam melhor e mais rapidamente. Assim, através da comunicação, agentesmais habilidosos podem servir como professores para o aprendiz, ou o aprendizpode assistir e imitar agentes habilidosos;

• Robustez: quando um ou mais agentes falham em um sistema multiagente, osagentes restantes podem assumir algumas de suas tarefas.

As seções subsequentes apresentam a extensão do MDP monoagente para o casode múltiplos agentes (Seção 2.2.1), suas implicações na qualidade da solução en-contrada (Seções 2.2.2 e 2.2.3) e principais categorias de algoritmos de MARL,como: múltiplos aprendizes independentes (Seção 2.2.4.1), joint action learner (Se-ção 2.2.4.2), jogos competitivos (Seção 2.2.4.3), jogos cooperativos (Seção 2.2.4.4) ejogos de soma geral (Seção 2.2.4.5) Uma maior discussão sobre o assunto pode serencontrada em (BUŞONIU; BABUSKA; DE SCHUTTER, 2008). Neste trabalhosão apresentadas as principais técnicas de MARL, bem como os principais desafios eaplicações da área. Para um panorama geral e atualizado sobre MARL recomenda-seo trabalho de (TUYLS; WEISS, 2012).

2.2.1 Processo de Decisão de Markov MultiagenteQuando muitos agentes interagem através de seus processos de aprendizagem,

o modelo básico do MDP não é robusto o bastante para representar a tarefa deaprendizado. Jogos estocásticos, também conhecidos como processo de decisão deMarkov multiagente (MMDP, em inglês: multiagent Markov decision process) ge-neralizam jogos repetidos (sem estado) e MPD (monoagente) para um caso geralde múltiplos estados e múltiplos agentes. Nesta abordagem, a cada etapa, o jogoestá em um estado específico, com uma determinada função de recompensa e umconjunto admissível de ações para cada jogador. Os jogadores, por sua vez, tomamações simultaneamente e em seguida recebem uma recompensa imediata em funçãode suas ações conjuntas. Uma função de transição mapeia o espaço de ações con-juntas (JA, em inglês: joint actions) para uma distribuição de probabilidades sobretodos os estados que, por sua vez, determina a probabilidade de mudança de estado.Portanto, assim como no MDP em MMDP as ações influenciam diretamente nastransições de estado.

Um MMDP para n agentes é formalmente definido por uma tupla2n+ 2〈S,A1 . . . ,An,T,R1, . . .Rn〉 onde:

• S é o espaço de estados, um conjunto de todos os estados possíveis;

• Ai é o espaço de ações do agente i, um conjunto de todas as ações possíveisdo agente i;

• T é a função probabilidade de transição: T (s,a,s′) = Pr (s′ | s,a), a probabi-lidade de que a ação conjunta a, no estado s, levará ao estado s′;

• Ri é a função de recompensa do agente i: Ri (s,a,s′) ∈ <, a recompensa rece-bida quando a ação conjunta a transita um agente do estado s para s′.

O primeiro trabalho a utilizar MMDP como estrutura para MARL foi (LITT-MAN, 1994). No entanto, sua abordagem apresentou problemas de escalabilidade, jáque o espaço de estado-ações cresce rapidamente em função do número de agentes e

19

ações a eles disponíveis. Para resolver este problema, trabalhos subsequentes surgemcom formas mais compactas (KOK; VLASSIS, 2004, 2006; OLIVEIRA; BAZZAN,2009) e descentralizadas (BERNSTEIN et al., 2002) de implementação de MARL.

Existem três formas de MMDPs: completamente cooperativos (em inglês: fullycooperative), completamente competitivos (em inglês: fully competitive) ou uma mis-tura de ambos. Em MMDPs completamente cooperativos a função de recompensade todos os agentes é a mesma. Ao contrário disso, em jogos de dois jogadores, ondea soma das recompensas recebidas para cada par de estados e ações conjuntas ézero, denomina-se MMDP completamente competitivo. Já os jogos com elementoscompetitivos e cooperativos são conhecidos como jogos de soma geral (em inglês:general-sum games).

Ao contrário do que acontece em um MDP, em MMDPs não há um conceitoclaro de política ótima. No entanto, a teoria dos jogos apresenta muitos conceitosalternativos que podem ser utilizados para solucionar este problema. Teoria dos jo-gos e MARL estão muito ligadas, já que os algoritmos de MARL combinam aspectosde programação dinâmica e/ou aprendizado por diferença temporal com teorias docampo (BUŞONIU; BABUSKA; DE SCHUTTER, 2008).

Tipicamente, no MARL os agentes aprendem uma política de ação conjunta, aqual representa um equilíbrio de Nash. Porém, em alguns casos pode ser preferívelaos agentes aprender uma política conjunta Pareto ótima. Tanto o equilíbrio deNash quanto Pareto ótima são discutidos nas próximas seções.

2.2.2 Equilíbrio de Nash

O equilíbrio de Nash (Nash Equilibrium) é uma política conjunta onde nenhumagente se beneficia ao mudar sua própria política, assumindo que todos os outrosagentes irão manter sua política inalterada. Existem dois tipos de políticas onde oequilíbrio de Nash está presente: pura e mista. Na política pura cada agente sempreseleciona a mesma ação; já na mista, para cada ação atribui-se uma probabilidadede escolha.

Este conceito foi proposto por John Nash (1951), para jogos não cooperativos eé largamente utilizado em MARL. O autor afirma que em jogos com finito númerode agentes e com finito número de ações existe pelo menos um equilíbrio de Nashpresente. A definição formal de uma política conjunta πNE é dada por:

∀i∈1...n,πi ∈∏|Ri

(πNEi

⋃πNE−i

)>Ri

(πi⋃πNE−i

)(2.5)

onde n é o número de agentes, ∏i é o conjunto de todas as possíveis políticas para oagente i, Ri é a função de recompensa para o agente i, πNi E é uma política específicapara o agente i e πNE−i é uma política conjunta de todos os agentes menos o agentei, seguindo suas próprias políticas específicas e fixas.

2.2.3 Ótimo de Pareto

Uma política conjunta πa é dita Pareto dominante de uma outra política con-junta πb se, ao usar πa, um ou mais agentes recebem uma recompensa maior e todosos demais agentes recebem a mesma recompensa. Qualquer outra política conjuntaque não é Pareto dominada por outra é Pareto ótima. Assim, se uma política con-junta é Pareto ótima, não há política conjunta que possa melhorar a recompensa dealgum agente sem que a recompensa de outro agente seja reduzida (FUDENBERG;

20

TIROLE, 1991).

2.2.4 Principais Métodos de MARL

2.2.4.1 Múltiplos Aprendizes Independentes

Uma forma muito utilizada para contornar o problema de escalabilidade emMMDPs é dada através da modelagem individual do processo decisório dos agentes.Desta forma, cada agente possui seu MDP descentralizado e aprende sem conside-rar as ações dos demais agentes. Neste caso, um agente entende o aprendizado emudança de comportamento dos demais agentes como uma mudança na dinâmicado ambiente. Nesta abordagem, os agentes são chamados aprendizes independentes(em inglês: multiple idependent learners). A grande desvantagem desta técnica é quealgoritmos como Q-learning não são tão robustos quanto em cenários monoagente(CLAUS; BOUTILIER, 1998). Além disso, o aprendizado de agentes sem considerara adaptação dos outros agentes no processo de decisão, pode convergir para mínimoslocais, onde os agentes param de aprender e, portanto, não é matematicamente jus-tificável (LITTMAN; DEAN; KAELBLING, 1995). Apesar disso, trabalhos como(LITTMAN; DEAN; KAELBLING, 1995) atingem resultados satisfatórios com essaabordagem.

2.2.4.2 Joint-Action Learner

Joint action learner (JAL) é uma extensão do algoritmo Q-learning para umúnico agente. A diferença entre os métodos está na tabela Q, onde o JAL aprendeos valores Q para ações conjuntas em vez de ações individuais. As experiências dosagentes são obtidas através dos resultados destas ações conjuntas. Isto implica quecada agente pode observar as ações de outros agentes. Para determinar os valores dasações conjuntas em relação de suas ações individuais, cada agente mantém crençassobre as estratégias de outros agentes.

Embora este algoritmo se beneficie da completa observação do ambiente e desua dinâmica, o espaço necessário para armazenar os valores Q e o número de ex-periências necessárias para aprender crescem exponencialmente com cada agenteadicionado (CLAUS; BOUTILIER, 1998). Desta forma, em problemas como rote-amento de veículos em redes viárias onde o número de agentes aprendendo podechegar a milhares ou milhões, o uso de JAL se torna inviável.

2.2.4.3 Jogos Competitivos

O algoritmo mini-max Q-learning, introduzido por (LITTMAN, 1994), foi o pri-meiro trabalho a combinar aprendizado por diferença temporal com a teoria dos jo-gos, para resolver um subconjunto de problemas de MARL. O mini-max Q-learningé uma modificação do JAL para jogos completamente competitivos (isto é: jogos dedois jogadores, soma-zero). A cada seleção de ação, um agente mini-max Q-learningirá escolher a ação com maior valor assumindo que o agente oposto irá buscar mini-mizar a recompensa que o agente aprendendo pode receber. Este algoritmo possuigarantias de convergência para uma política fixa que recebe a maior recompensapossível contra o pior oponente possível (i.e. o agente oponente que tenta minimizara recompensa do agente). Caso o agente oponente não seja o pior possível, o agenteaprendendo com mini-max Q-learning irá receber a maior recompensa possível.

21

2.2.4.4 Jogos Cooperativos

(LAUER; RIEDMILLER, 2000) propõem uma extensão de múltiplos aprendizesindependentes para jogos completamente cooperativos, chamada Q-learning distri-buído (distributed Q-learning). Em ambientes determinísticos completamente co-operativos, se uma recompensa recebida por um agente, em um determinado parestado-ação, for menor do que a recompensa recebida pelo mesmo agente, mas emuma experiência anterior neste par, pode-se assumir que outro agente é culpado pelaqueda na recompensa. Por essa razão, no Q-learning distribuído os agentes nuncareduzem o valor de suas tabelas Q. Além disso, se todos os agentes em um ambientedeterminístico completamente cooperativo utilizarem o Q-learning distribuído, elesirão convergir para uma política ótima.

Uma alternativa para ambientes completamente cooperativos, porém estocás-ticos é proposta por (WANG; SANDHOLM, 2002). Nesta abordagem os autoresapresentam uma modificação do JAL, chamada aprendizado adaptativo ótimo (eminglês: optimal adaptative learning), o qual possui garantias de convergência paraum equilíbrio de Nash.

2.2.4.5 Jogos de Soma Geral

Em jogos de soma geral (em inglês: general-sum games) o algoritmo mais clássicoé o Nash Q-learning (HU; WELLMAN, 2003), o qual tem por objetivo encontrara melhor política para um agente em relação a outros agentes. Para fazer isso,os agentes precisam aprender as políticas dos demais agentes e construir a melhorresposta frente a isso. O processo de aprendizado de políticas dos demais agentesenvolve a formação de suposições sobre o comportamento deles. Pode-se adotar umaabordagem puramente comportamental, inferindo políticas do agente diretamentecom base em padrões observados ou pode-se considerar que os outros agentes sãoracionais e fazem suposições sobre as ações que os demais agentes tomarão.

(HU; WELLMAN, 2003) provam que o Nash Q-learning converge para umequilíbrio de Nash sob condições estritas. Na prática, (BUŞONIU; BABUSKA;DE SCHUTTER, 2008) mostram que às vezes o algoritmo converge sem as condi-ções necessárias e que é mais provável que convirja quando comparado ao uso demúltiplos aprendizes independentes, em jogos de soma geral.

2.3 Aprendizado por Reforço Baseado em Conhecimento

No RL as funções valor são geralmente inicializadas com valores aleatórios, ouseja, expectativas pessimistas ou otimistas da recompensa a ser recebida em cadapar estado-ação. Durante a fase de desenvolvimento dos mecanismos de aprendizadopor reforço, o projetista possui conhecimento específico do problema que pode guiaro processo de aprendizagem.

O aprendizado por reforço baseado em conhecimento (em inglês: knowledge-basedreinforcement learning) é o estudo da incorporação de conhecimento de domínioem agentes que aprendem por reforço, com o objetivo de guiar a exploração doambiente. Esta incorporação de conhecimento traz como principais benefícios apossibilidade de redução do número de decisões sub-ótimas tomadas pelo agente e,consequentemente, a redução do impacto da explosão do espaço de busca.

Esta técnica pode ser analogamente comparada a busca A∗. Uma vez que a

22

utilização de conhecimento heurístico para guiar a busca pode melhorar significati-vamente o desempenho de algoritmos de busca. Intuitivamente, pode-se afirmar queos benefícios desta abordagem também podem ser benéficos para o RL.

As seções subsequentes apresentam as principais abordagens existentes para in-corporação de conhecimento de domínio no processo de aprendizado por reforço.

2.3.1 Reward Shaping

Uma abordagem promissora para incorporar conhecimento de domínio em RL éo reward shaping (RS). A ideia central do RS é reduzir o número de ações sub-ótimastomadas e o tempo necessário para aprender uma política ótima de ação, atravésdo fornecimento de recompensas adicionais ao agente (RANDLOV; ALSTROM,1998; NG; HARADA; RUSSELL, 1999). As recompensas adicionais fornecem umarepresentação intuitiva do conhecimento do domínio, especialmente para o projetistaque pode também ter projetado a função de recompensa do ambiente. Além disso,a implementação desta técnica não requer modificações no agente ou ambiente, fatoque torna a sua implementação relativamente simples.

Em um algoritmo tradicional de RL, como o Q-learning (Eq. 2.4), a incorpora-ção de conhecimento de domínio pode ser representada pelo termo F (s,s′), comoapresenta a Eq. 2.6. Este termo representa, de forma geral, o reforço adicionalatribuído a um agente qualquer, ao transitar de s para s′.

Q(s,a)→ (1−α)Q(s,a) +α[r+F

(s,s′

)+γmax

a′ Q(s′,a′

)](2.6)

Embora o RS possa proporcionar resultados satisfatórios, em muitos casos, o usodesta técnica pode causar mudanças na política, se utilizada de forma inadequada.(RANDLOV; ALSTROM, 1998) demostram que, se utilizado de forma inadequada,o RS pode ser prejudicial ao aprendizado. Para um problema onde um agenteprecisa aprender a andar de bicicleta, os autores descobrem que é mais benéficopara o agente andar em círculos do que até o destino. Isto acontece em função doreforço adicional ser inadequado. Desta forma, o uso inadequado do RS fez com queo agente convergisse para uma política que nunca o leva a solução do problema.

2.3.2 Potential-Based Reward Shaping

Para evitar os problemas de convergência mencionados na Seção 2.3.1, (NG;HARADA; RUSSELL, 1999) propõem uma extensão chamada potential-based rewardshaping. Esta abordagem define que a recompensa adicional é dada como a diferençade potenciais entre o estado de origem (s) e resultante (s′). Assim, formalmentetem-se:

F(s,s′

)= γΦ

(s′)−Φ(s) (2.7)

onde γ deve ser o mesmo fator de desconto utilizado na regra de atualização dosagentes (Eq. 2.6) e Φ é a função potencial que mapeia estados para potencias.

Um potencial de estado Φ(s) representa a preferência do projetista de que oagente esteja no estado s. Por exemplo, é muito comum definir potenciais altospara estados de objetivos e, desta forma, decrementar estes potenciais linearmenteem função de sua distância do objetivo. Assim, o BPRS irá encorajar o agente a sedeslocar em direção ao objetivo.

23

Neste mesmo trabalho, (NG; HARADA; RUSSELL, 1999) provam que PBRS,quando aplicado de acordo com a Eq. 2.7, em um problema monoagente, garante oaprendizado de uma política ótima, equivalente a uma aprendida sem RS.

Mais tarde, (WIEWIORA; COTTRELL; ELKAN, 2003) prova que um agenteaprendendo com PBRS e sem inicialização da tabela Q, irá se comportar identica-mente a um agente sem RS, quando a última função valor do agente é inicializadacom a mesma função potencial. No entanto, (DEVLIN; KUDENKO, 2012) provamque esta afirmação só é válida em casos onde a função de PBRS é estática.

A Fig. 2.2 apresenta as curvas de aprendizado para um agente aprendendocom o sem PBRS - presumindo que uma boa heurística é utilizada para a funçãopotencial. Este exemplo é apresentado por (WIEWIORA; COTTRELL; ELKAN,2003), no qual um agente aprende o seu comportamento, no clássico problema deRL moutain car, com e sem PBRS (ou “advice”).

Figura 2.2: Curva de aprendizado para de um agente com (advice) e sem PBRS(WIEWIORA; COTTRELL; ELKAN, 2003).

Neste exemplo, fica evidente a superioridade do agente com PBRS, em termosde tempo de aprendizado, em relação ao agente sem PBRS. Isto ocorre devido aequivalência entre inicialização da tabela Q e PBRS. Em ambos os casos o agenteconverge para uma solução ótima. No entanto, o agente com PBRS realiza o pro-cesso de aprendizado de forma mais eficiente do que o agente sem, principalmentenos episódios (Trial) iniciais. Este menor tempo de convergência representa umgrande benefício, principalmente em problemas de RL com domínios complexos (porexemplo, um problema roteamento de veículos em redes de tráfego).

2.3.3 Potential-Based AdviceDa forma com que (NG; HARADA; RUSSELL, 1999) definem o PBRS, apenas a

incorporação de conhecimento em relação a preferência de estados é possível. Paraincluir conhecimento de domínio em relação as ações favoráveis em reward shaping,mantendo as garantias de política invariante, outras condições devem ser conhecidas(WIEWIORA; COTTRELL; ELKAN, 2003). Mais específicamente, (WIEWIORA;

24

COTTRELL; ELKAN, 2003) identificam dois métodos: look-ahead advice, formal-mente definido pela Eq. 2.8, e look-back advice, formalmente definido pela Eq. 2.11.Como se pode notar, nos dois métodos o potencial é definido como uma função paraambos os estados e ações, ao invés de apenas um estado, como ocorre no PBRS (Eq.2.7).

O método look-ahead advice modela a recompensa do agente quando o mesmorealiza a transição de estados de s para s′ através da ação a, baseado na diferença depotenciais entre os pares estado-ação (s,a) e (s′,a′), onde a′ é definido nas regras deatualização do agente. Portanto, se estiver utilizando o algoritmo SARSA, a′ será apróxima ação que o agente irá realizar ou, se estiver utilizando o Q-learning, a′ seráa ação com maior valor no estado s′. Formalmente tem-se:

F(s,a,s′,a′

)= γΦ

(s′,a′

)−Φ(s,a) (2.8)

Para garantir que o método look-ahead advice mantém as garantias de políticainvariante, a política do agente deve escolher a ação com a máxima soma de Q-valuee potencial. Logo:

π (s) = argmaxa

(Q(s,a) + Φ(s,a)) (2.9)

onde π (s) é a política (ação que o agente deve escolher) no estado s, Q(s,a) é aatual estimativa de valor tomando a ação a no estado s e Φ(s,a) é o potencial dopar estado-ação (s,a).

Isto se faz necessário para manter a garantia de política invariante. Assim,considerando o uso de recompensas adicionais desta forma, os verdadeiros valoresde todos os pares estado-ação tornam-se:

Q∗Φ (s,a) =Q∗ (s,a)−Φ(s,a) (2.10)onde Q∗Φ (s,a) é o valor recebido por tomar a ação a no estado s, quando se recebePBRS, Q∗ (s,a) é o verdadeiro valor recebido por tomar a ação a no estado s,quando está recebendo apenas a recompensa original do ambiente, por fim, assimcomo anteriormente, Φ(s,a) é o potencial do par estado-ação (s,a).

Dado que os valores de diferentes ações dentro de um mesmo estado podem sermodificadas por diferentes quantias, o ordenamento de preferências sobre as açõesdentro de um mesmo estado pode mudar. Contudo, se um agente escolhe suas açõespela Eq. 2.8, a ordenação é mantida uma vez que a convergência é alcançada.

Um problema da abordagem look-aheaad advice é que a ação a′ ainda não éexecutada quando a recompensa adicional é recebida. Alternativamente, o métodolook-back advice modela a recompensa do agente quando ele está transitando parao estado s′′, após a ação a′ ser utilizada no estado s′, com base na diferença depotenciais entre os pares estado-ação (s,a) e (s′,a′), os quais já aconteceram. Destaforma, tem-se:

F(s,a,s′,a′

)= Φ

(s′,a′

)−γ−1Φ(s,a) (2.11)

Os autores recomendam o uso do look-back advice com algoritmos de aprendi-zado on-policy (como o SARSA) e um método de seleção de ação como ε-guloso ouBoltzmann.

Apesar de os autores não apresentarem provas teóricas de que o uso do métodolook-back advice mantém a política invariante, resultados empíricos demonstram

25

convergir para os mesmos valoresQ, do que o agente que não recebe reforço adicional.Além disso, nenhum contra exemplo tem sido publicado para ilustrar um caso ondeo look-back advice altera a política ótima.

(WIEWIORA; COTTRELL; ELKAN, 2003) recomendam o uso do look-aheadadvice quando o conhecimento a priori predominantemente identifica quais estadossão preferenciais, enquanto que o look-back advice é aconselhado para os casos ondeo conhecimento a priori predominantemente recomenda ações. Se o conhecimentodado é inteiramente baseado em estados, então a utilização de PBRS sozinho ésuficiente.

2.3.4 Plan-Based Reward Shaping

O reward shaping é, na maioria das vezes, implementado sob medida para cadanovo ambiente, através do uso de um conhecimento heurístico, específico do ambi-ente (BABES; COTE; LITTMAN, 2008). Porém alguns esforços tem sido realizadospara automatizar (GRZES; KUDENKO, 2008a) ou semi-automatizar (GRZES; KU-DENKO, 2008b) a codificação do conhecimento para um sinal de recompensa. Aautomação do processo não requer conhecimento prévio e pode ser aplicado, deforma geral, em qualquer domínio de problema.

Os resultados são tipicamente melhores quando comparados aos agentes que nãorecebem reforço extra, mas piores para os casos onde os agentes são modelados comreforço extra, extraído a partir do conhecimento a priori do projetista. Os métodossemi-automatizados requerem conhecimento a priori para serem inseridos, porémeles se encarregam de automatizar o processo de transformação de conhecimento emfunção potencial.

Plan-based reward shaping é um método semi-automatizado que utiliza um pla-nejador de STRIPS para gerar planos de alto nível. O plano de STRIPS é entãoconvertido para uma representação baseada em estados, como ilustra a Fig. 2.3,onde cada estado no plano de alto nível é mapeado para um ou mais no ambientede baixo nível. Esta representação é codificada em uma função de potencial onde osestados subsequentes no plano recebem um potencial superior aos mais baixos oufora do plano. A definição formal é dada por:

Φ(s) = CurrentStepInP lan∗ω (2.12)

onde o ω é o fator de escala e CurrentStepInP lan é o número de estados anterioresao correspondente estado de alto nível, na representação baseada em estados, doplano do agente.

Esta função potencial é então utilizada pelo PBRS para encorajar o agente aseguir seu plano, sem que haja alteração no objetivo do agente. O processo deaprendizado das ações de baixo nível, necessárias para executar o plano de altonível, é significativamente mais simples do que o aprendizado das ações de baixonível para maximizar a recompensa em um ambiente desconhecido. Logo, comeste conhecimento, o agente tende a aprender a política mais rapidamente. Alémdisso, (GRZES; KUDENKO, 2008a) ressaltam que como muitos desenvolvedores sãofamiliarizados com planejadores de STRIPS, o processo de implementação de PBRSse torna mais acessível e menos específico do domínio.

26

Figura 2.3: Plan-based reward shaping (DEVLIN, 2013)

2.3.5 Reward Shaping em Sistemas Multiagente

Nesta seção são apresentadas as principais abordagens para incorporação deconhecimento em sistemas multiagente.

2.3.5.1 Difference Rewards

Difference Rewards são formas específicas de modelagem de recompensa, re-sultantes de um trabalho anterior de Tumer e Wolpert (2004) sobre “inteligênciacoletiva”. Muitos pesquisadores, enquanto implementam soluções MARL, desenvol-vem funções de recompensa privadas para cada agente e procuram observar o com-portamento emergente do MAS. Pesquisas em inteligência coletiva exploram comoinverter este processo. Desta forma, focando-se na utilidade global (ou utilidade dosistema), tais pesquisas investigam como projetar funções de recompensa individuaisque combinadas melhoram o desempenho do sistema. Uma grande preocupação daspesquisas nesta área é assegurar que os agentes não atuarão no MAS contra o de-sempenho global. Aplicações como (TUMER; WOLPERT, 2000; TUMER; KHANI,2009; AGOGINO; TUMER, 2012) ilustram como as abordagens baseadas em dif-ference rewards podem contornar típicos problemas de agentes se comportando deforma gulosa, para maximizar sua recompensa individual.

Um típico exemplo deste problema, conhecido como paradoxo de Braess, é apre-sentado por Tumer e Wolpert (2000), em um cenário de escolha de rotas em redede tráfego. Como ilustrado pela Fig. 2.4, ambas as redes apresentam rotas entre aorigem O e o destino D. Para n agentes viajando de O para D, passar pelas cidadesc1 custa 10n, c2 custa 50 + 10n e c3 custa 10 + 10. A única diferença entre as duasredes é a adição de uma rota significativamente menos custosa. Intuitivamente, ocusto médio de todos os agentes cruzando a Rede B deve ser menor do que o da RedeA. Contudo, para estes problemas, um caminho mais curto (ou menos custoso) nãoconsidera a utilidade global e pode, potencialmente, aumentar o custo de todos osagentes. Em função disto, eleva-se o custo de todos os agentes - e consequentementeo custo global - o que leva ao surgimento do paradoxo de Braess.

Para solucionar este problema, os autores alinharam a função de recompensa à

27

O

c3

D

c1 c2

c4c3

O

D

c1 c2

c1c2

Rede A Rede B

Figura 2.4: Um exemplo de paradoxo de Braess. Adaptado de (TUMER; WOL-PERT, 2000).

função de utilidade do sistema. Dessa maneira, ao invés de receber a recompensaglobal, cada agente foi recompensado com a diferença entre a função de utilidadedo sistema e o que essa função seria caso o agente não estivesse atuando no sistema.Esta função de recompensa resultou em uma recompensa maior em comparação aoagente que age de forma individual se, e somente se, um aumento correspondenteocorre na função de utilidade global. Esta técnica de modelagem de função derecompensa em MARL é conhecida como difference rewards (AGOGINO; TUMER,2012), e sua definição formal é dada por:

Di ≡G(z)−G(z− zi) (2.13)

onde Di é a recompensa recebida pelo agente i, G(z) é a recompensa que todosos agentes deveriam receber do ambiente e G(z− zi) é a recompensa que todos osagentes deveriam receber do ambiente se o agente i não estivesse na simulação.

Ao contrário de PBRS, difference rewards tem sido muito utilizada em jogosestocásticos completamente cooperativos. Além disso, como o termo contrafactualnão é dependente do estado anterior, difference rewards e PBRS não são equivalentes.Ambos são métodos de reward shaping, porém os reforços gerados por G(z− zi) eF (s,s′) são muito diferentes. Apesar desta não equivalência, em (DEVLIN et al.,2014) é apresentada uma abordagem para utilizar estas duas técnicas em conjunto.

2.3.5.2 PBRS Multiagente

A primeira aplicação envolvendo o uso de uma decomposição automática defunção aprendida, para ser distribuída entre múltiplos agentes, foi apresentada por(MARTHI, 2007). Este trabalho demonstrou que, a partir de resultados empíricos,que o principal benefício desta técnica são: o aumento da taxa de aprendizageme resultados equivalentes a não utilização de PBRS. No entanto, o autor utilizauma versão decomposta do algoritmo de RL SARSA, que necessita de um agentecentralizado para fazer as escolhas de ações dos demais agentes. Apesar disso, foium passo importante para a aplicação de PBRS em MARL.

Um estudo mais recente, apresentado por (BABES; COTE; LITTMAN, 2008),aplica PBRS no algoritmo de aprendizado por reforço Q-learning no jogo de soma

28

geral dilema do prisioneiro iterativo. Entre os experimentos realizados pelos autores,eles avaliaram um cenário com dois agentes. Um aprendendo sempre com Q-learninge sem PBRS, e um segundo agente, que também utiliza Q-learning, mas com opçãode utilizar ou não PBRS. Os resultados para estes experimentos apontaram que, nocaso em que o segundo agente aprende com PBRS, a convergência para a políticaótima acontece mais rapidamente do que para o caso onde o segundo agente nãoutiliza PBRS.

Até então, todas as abordagens que utilizam PBRS, em cenários multiagente,apresentavam uma série de resultados apontando o PBRS como sendo uma formapromissora para aceleração do processo de MARL. Entretanto, seus fundamentosestavam baseados em resultados de experimentações empíricas. (DEVLIN, 2013)foi o pioneiro a apresentar considerações teóricas sobre as provas que motivaramtrabalhos subsequentes que implementavam PBRS em MAS. Em sua tese, o autorsumariza suas pesquisas relacionadas ao tema, dentre os quais destacam-se: (DE-VLIN et al., 2014; DEVLIN; KUDENKO, 2012, 2011). Em (DEVLIN; KUDENKO,2011) os autores provam que o uso de PBRS em MARL, quando a função potencialé estática, não altera a política aprendida sem PBRS. Neste mesmo trabalho osautores também provam que, para o caso onde a função de PBRS é estática, a apli-cação desta técnica é equivalente a inicialização da tabela Q. Porém, em (DEVLIN;KUDENKO, 2012) os autores estendem os mesmo cenários para o caso onde a fun-ção de PBRS é dinâmica. Nesta abordagem, apesar da função de PBRS apresentarcomponentes aleatórios, a política final aprendida é a mesma sem a utilização doPBRS. Apesar disso, a prova de equivalência do PBRS a inicialização da tabela Qnão é mantida para este caso onde a função de PBRS é dinâmica, ou seja, o potencialpara uma mesma transição é variável em função do tempo.

O próximo capítulo apresenta as demonstrações e provas teóricas que fundamen-tam os argumentos dos autores, em relação as garantias de política invariante econvergência do uso de PBRS em sistemas multiagente.

29

3 POTENTIAL-BASED REWARD SHAPING EM TEO-RIA

Antes apresentar as principais provas teóricas envolvendo o uso de PBRS, algunsconceitos chave devem ser esclarecidos. Existem dois tipos de PBRS: estático edinâmico. PBRS é dito estático quando a função potencial Φ(s) retornar sempre omesmo potencial para o estado s. Isto deve ocorrer independentemente do tempo,ações do agente ou da dinâmica do ambiente. Quando o valor da função potencialde s é variável ao longo do tempo, define-se a este método de incorporação deconhecimento com PBRS dinâmico.

Esta seção está organizada da seguinte forma. A Seção 3.1 apresenta a provade que o uso de PBRS dinâmico não é equivalente a inicialização da tabela Q.A Seção 3.2 apresenta as provas de que garantem que o uso de PBRS mantém apolítica invariante (em cenário monoagente) e equilíbrio de Nash consistente (emcenário multiagente). A Seção 3.3 apresentam alguns resultados que confirmam asafirmações feitas na Seção 3.2.

3.1 PBRS Dinâmico não é Equivalente a Inicialização daTabela Q

(WIEWIORA; COTTRELL; ELKAN, 2003) provam que, tanto para cenáriosmonoagente quanto multiagente, um agente aprendendo com PBRS estático é equi-valente a um agente aprendendo com a devida inicialização da tabela Q. Destaforma, tem-se:

∀s,a |Q(s,a) = Φ(s) (3.1)onde Φ(·) é o mesmo potencial utilizado pelo agente que utiliza PBRS.

No entanto, (DEVLIN; KUDENKO, 2012) demonstram que, para os casos ondea função potencial é dinâmica, esta propriedade não se mantém. A prova requer queum agente com PBRS e um agente com tabela Q inicializada (como o mencionadoanteriormente) tenham a mesma distribuição de probabilidades sobre sua próximaação. Distribuição essa que é gerada a partir de um mesmo histórico de estados,ações e recompensas.

Se a tabela Q é inicializada com um potencial de estados a priori para os expe-rimentos (Φ(s, t0)), então qualquer mudança futura nos potenciais não será consi-derada no agente com tabela Q inicializada. Além disso, após o agente com PBRStomar uma ação onde a sua função potencial tenha mudado, a distribuição de proba-bilidades sobre as escolhas de ações subsequentes no estado anterior serão diferentes

30

para cada agente.A prova formal desta afirmação é dada por (DEVLIN; KUDENKO, 2012) da

seguinte forma: considerando que um agente L que recebe função PBRS dinâmicae um agente L′ que não recebe, mas tem sua tabela Q inicializada de acordo com aEquação 3.1. O agente L irá atualizar seus valores Q pela seguinte regra:

Q(s,a)←Q(s,a) +α(ri+F

(s, t,s′, t′

)+γmax

a′Q(s′,a′

)−Q(s,a)

)︸︷︷︸

δQ(s,a)

(3.2)

onde ∆Q(s,a) = αδQ(s,a) é o valor pelo qual Q será atualizado.Os atuais valores Q do agente L podem ser formalmente representados pelo valor

inicial mais a mudança, desde que:

Q(s,a) =Q0 (s,a) + ∆Q(s,a) (3.3)

onde Q0 (s,a) é o valor Q inicial do par estado-ação (s,a). Similarmente, o agenteL′ atualiza sua tabela Q pela seguinte regra:

Q′ (s,a)←Q′ (s,a) +α(ri+γmax

a′Q′(s′,a′

)−Q′ (s,a)

)︸︷︷︸

δQ′(s,a)

(3.4)

Desta forma, seus atuais valores Q podem ser formalmente representados por:

Q′ (s,a) =Q0 (s,a) + Φ(s, t0) + ∆Q′ (s,a) (3.5)

onde Φ(s, t0) é o potencial para o estado s antes do processo de aprendizado iniciar.Para que ambos os agentes ajam de mesma forma, eles devem escolher as mesmas

ações. Aliás, a respectiva ordenação da escolha das ações também deve ser mantidapara ambos os agentes. Formalmente tem-se:

∀s,a,a′ |Q(s,a)>Q(s,a′

)⇔Q′ (s,a)>Q′

(s,a′

)(3.6)

No caso base, esta afirmação mantém-se verdadeira, já que tanto ∆Q(s,a) quanto∆Q′ (s,a) são iguais a zero, antes de qualquer ação ser tomada. Porém, após isso,esta prova não se mantém, devido ao fato da função potencial ser dinâmica.

De modo mais específico, quando ocorre a primeira transição dos agentes paraum estado onde o potencial tenha mudado, o agente L irá atualizar Q(s,a) por:

δQ(s,a) = ri+F(s,s′

)+γmax

a′Q(s′,a′

)−Q(s,a)

= ri+γΦ(s′, t′

)−Φ(s, t) +γmax

a′

(Q0(s′,a′

)+ ∆Q

(s′,a′

))−Q0 (s,a)−∆Q(s,a)

= ri+γΦ(s′, t′

)−Φ(s, t0) +γmax

a′

(Q0(s′,a′

)+ ∆Q

(s′,a′

))−Q0 (s,a)−∆Q(s,a) (3.7)

e o agente L′ irá atualizar Q′ (s,a) por:

31

δQ′ (s,a) = ri+γmaxa′

Q′(s′,a′

)−Q′ (s,a)

= ri+γmaxa′

(Q0(s′,a′

)+ Φ

(s′, t0

)+ ∆Q′

(s′,a′

))−Q0 (s,a)−Φ(s, t0)−∆Q′ (s,a)

= ri+γmaxa′

(Q0(s′,a′

)+ Φ

(s′, t0

)+ ∆Q′

(s′,a′

))−Q0 (s,a)−Φ(s, t0)−∆Q(s,a)

= ri+γΦ(s′, t0

)−Φ(s, t0) +γmax

a′

(Q0(s′,a′

)+ ∆Q

(s′,a′

))= −Q0 (s,a)−∆Q(s,a)= δQ(s,a)−γΦ

(s′, t′

)+γΦ

(s′, t0

)(3.8)

Porém os dois termos não são iguais:

Φ(s′, t′

)6= Φ

(s′, t0

)(3.9)

Desta forma, para este par estado-ação em específico temos:

Q′ (s,a) =Q(s,a) + Φ(s, t0)−αγΦ(s′, t′

)+αγΦ

(s′, t0

)(3.10)

mas para todas as demais ações no estado s, temos:

Q′ (s,a) =Q(s,a) + Φ(s, t0) (3.11)

Uma vez que tenha ocorrido uma diferença de valores Q, entre os agentes L eL′, para o estado s, esta diferença não será mais constante nas demais ações. Seesta diferença é o suficiente para alterar a ordem das ações (i.e. Equação 3.6 éviolada), então a política de um agente racional irá possuir diferentes distribuiçõesde probabilidades sobre as escolhas de ações subsequentes no estado s.

De acordo com os autores, em problemas monoagente, desde que as condiçõesnecessárias sejam conhecidas, esta diferença na ordenação das ações irá apenas sertemporária. Já que tanto os agentes que inicializam sua tabela Q quanto os querecebem PBRS dinâmico irão convergir para uma política ótima. Neste caso emespecial, esta diferença temporária irá afetar apenas a exploração dos agentes, masnão seu objetivo. No entanto, para os cenários multiagente, a alteração na exploraçãopode alterar a política conjunta e, portanto, a ordenação diferente pode permanecer.Apesar disso, (DEVLIN; KUDENKO, 2012) provam que esta diferença não é umindicativo de mudança nos objetivos dos agentes.

Para ambos os casos, os autores provam que um agente com da tabela Q iniciali-zada de acordo com a Equação 3.1, após uma mesma experiência, pode comportar-sede forma diferente a um agente recebendo PBRS dinâmico. Isto se dá pelo fato deque o valor inicial dado para um estado não pode capturar as mudanças subse-quentes em seu potencial. Diante destes argumentos, (DEVLIN; KUDENKO, 2012)concluem que nenhum método de inicialização de tabela Q é capaz de garantir umcomportamento equivalente ao de um agente recebendo PBRS dinâmico.

32

3.2 Equilíbrio de Nash Consistente e Política InvarianteEsta prova teórica apresentada por (DEVLIN; KUDENKO, 2012) é uma extensão

de um trabalho anterior (DEVLIN; KUDENKO, 2011), onde os autores provamque as garantias de equilíbrio de Nash e política invariante são mantidas para oscasos onde a função de PBRS é estática. Neste trabalho mais recente, os autoresinserem o parâmetro tempo na função potencial para que seja possível tornar afunção potencial Φ dinâmica. Informalmente, os autores afirmam que se a diferençaem potencial é calculada a partir de potenciais de estados no momento em que elesforam visitados, as garantias de política invariante e equilíbrio de Nash consistentesão mantidas. Isto pode ser formalmente representado por:

F(s, t,s′, t′

)= γΦ

(s′, t′

)−Φ(s, t) (3.12)

onde t é o tempo em que o agente chegou no estado anterior s e t′ é o tempo atualquando o agente chega no estado atual s′ (i.e. t < t′).

Para provar que a política se mantém invariante no caso monoagente e equilíbriode Nash consistente no caso multiagente, (DEVLIN; KUDENKO, 2012) consideramsuficiente demostrar que o retorno recebido por um agente ao seguir uma sequênciafixa de estados e ações deve ser sempre o mesmo, independente do uso de PBRS.Portanto, considerando que Ui seja o retorno de um agente arbitrário i quandoestá seguindo a sequência s em uma estrutura descontada sem PBRS, formalmentetem-se:

Ui (s) =∞∑j=0

γjrj,i (3.13)

onde rj,i é a recompensa recebida do ambiente no tempo j, por um agente i. Apartir desta definição de retorno, os verdadeiros valores Q podem ser formalmentedefinidos por:

Q∗i (s,a) =∑s

Pr (s|s,a)Ui (s) (3.14)

Agora, considerando o mesmo agente, mas com uma função de recompensa mo-dificada, a qual recebe uma função PBRS da forma em que é definida pela Equação3.12. O retorno Ui,Φ de um agente experimentando a mesma sequência s é:

Ui,Φ (s) =∞∑j=0

γj (rj,i+F (sj , tj , sj+1, tj+1))

=∞∑j=0

γj (rj,i+γΦ(sj+1, tj+1)−Φ(sj , tj))

=∞∑j=0

γjrj,i+ ∞∑j=0

γj+1Φ(sj+1, tj+1)−∞∑j=0

γjΦ(sj , tj)

= Ui (s) +∞∑j=1

γjΦ(sj , tj)−∞∑j=1

γjΦ(sj , tj)−Φ(s0, t0)

= Ui (s)−Φ(s0, t0) (3.15)

33

Então através da combinação da Eq. 3.14 com a Eq. 3.15, a função Q modeladaé:

Q∗i,Φ (s,a) =∑s

Pr (s |, s,a)Ui,Φ (s)

=∑s

Pr (s |, s,a)(Ui (s)−Φ(s, t))

=∑s

Pr (s |, s,a)Ui (s)−∑s

Pr (s |, s,a)Φ(s, t)

=Q∗i,Φ (s,a)−Φ(s, t) (3.16)

onde t é o tempo atual.Devido ao fato de que a diferença entre os valores Q dos agentes com e sem PBRS

não são dependentes da ação tomada, para um estado qualquer, a melhor ação per-manece constante, apesar do PBRS. Com base nisso, (DEVLIN; KUDENKO, 2012)concluem que as garantias de política invariante e equilíbrio de Nash consistente sãomantidas.

3.3 Reprodução de Trabalhos CorrelatosNo intuito de validar as provas apresentadas por (DEVLIN; KUDENKO, 2012),

esta seção apresenta a reprodução dos experimentos realizados pelos autores. Paravalidar suas teorias, os autores avaliam os efeitos do PBRS em dois cenários dis-tintos. O primeiro cenário, de caráter monoagente, tem como objetivo comprovaras suposições de política invariante. Já para as suposições de equilíbrio de Nashconsistente, os autores utilizam como cenário um jogo de coordenação de dois joga-dores (multiagente), o qual possui múltiplos equilíbrios. Os resultados e discussõesda reprodução destas abordagens são apresentados nas seções subsequentes.

3.3.1 Política Invariante: Labirinto MonoagentePara demonstrar que a política aprendida por um agente com PBRS dinâmico é

invariante em relação a de um agente que não utiliza PBRS, (DEVLIN; KUDENKO,2012) realizam estudos empíricos em um cenário discreto e determinístico, em formade grade. Neste problema, existe um agente que precisa aprender a se mover deS para G no labirinto ilustrado na Figura 3.1. A política ótima (caminho commenor custo) deste problema necessita de 41 movimentos. Diante disso, para queas garantias de política invariante apresentadas por (DEVLIN; KUDENKO, 2012)sejam consistentes, esta política deve ser aprendida pelo agente, independentementedo recebimento de PBRS ou da forma com que esta função é modela (estática oudinâmica).

No experimento apresentado a seguir, o desempenho do agente é avaliado em trêsfunções PBRS distintas. Na primeira, chamada pelos autores de uniform randomshaping, a cada transição de estados, o potencial do novo estado será dado por umvalor entre 0 e 50 e inserido no agente de acordo com a Equação 2.7. Já na segundaabordagem, chamada negative bias random shaping, o potencial do novo estado serádado por um valor aleatório entre 0 e a distância atual do agente até o seu objetivo(G). Na terceira abordagem, o agente não recebe recompensa adicional duranteas transições de estados, ou seja, não utiliza PBRS. A função de recompensa R

34

Figura 3.1: Mapa do labirinto (DEVLIN; KUDENKO, 2012)

utilizada em todos os casos é implementada da seguinte forma: a cada movimentoo agente recebe −1 de recompensa do ambiente. Ao atingir o objetivo final (chegarem G), um sinal numérico de +100 é enviado do ambiente ao agente. A quantidademáxima de movimentos do agente por episódio está limitada em 1000 passos. Casoo agente não encontre o seu objetivo neste limite de passos, um novo episódio seráiniciado, e o agente volta para a posição inicial (S). O algoritmo de aprendizadopor reforço utilizado neste problema é o Q-learning (WATKINS; DAYAN, 1992),com política de exploração ε-gulosa. Os parâmetros do algoritmo de aprendizagemforam fixados em: α = 0.05, γ = 1.0 e ε iniciando em 0.4 e reduzindo linearmentepara 0 nos primeiros 500 episódios.

Todas as abordagens foram executadas por 1000 episódios e repetidas 100 vezes.Os resultados destes experimentos são ilustrados na Figura 3.2. Neste experimento,avaliou-se o número médio de passos ao longo dos episódios para que agente atinjaseu objetivo. As barras de erro representam o desvio padrão das 100 repetições.Como pode ser observado, em todos os casos o agente converge para a soluçãoótima até o fim dos episódios. A abordagem PBRS aleatório uniforme apresentauma taxa de convergência visualmente equivalente a abordagem que não utilizaPBRS, enquanto que a abordagem que utiliza a função PBRS aleatória negativa foia que apresentou a pior taxa de convergência. Apesar disso, todas foram capazes deconvergir para a política ótima.

Embora a abordagem que visualmente converge mais rapidamente para a soluçãoótima seja a que não utiliza a função de PBRS, a finalidade deste experimentonão é demonstrar que um agente aprendendo por reforço com PBRS é capaz deaprender mais rapidamente do que um mesmo agente sem PBRS. O real objetivodeste experimento é justamente para demonstrar que apesar da utilização do PBRScom uma função potencial não convergente, o algoritmo de aprendizado por reforçoainda é capaz de convergir para uma solução ótima. O trabalho de (DEVLIN;KUDENKO, 2012) foi o pioneiro a publicar um exemplo de agente aprendendo porreforço que converge para uma política ótima nestas condições. Sendo assim, comos resultados de um experimento como este, os autores confirmam sua teoria depolítica invariante em problemas monoagente, apesar do uso de PBRS.

35

0 100 200 300 400 500 600 700 800 900 1000

0

200

400

600

800

1000

Episódio

Passo d

e T

em

po

PBRS Aleatório Uniforme

PBRS Aleatório Negativo

Sem PBRS

Figura 3.2: Número médio de passos utilizados pelo agente para se desloque deS para G, para três abordagens distintas: sem PBRS, PBRS aleatório uniforme ePBRS aleatório negativo. (DEVLIN; KUDENKO, 2012)

3.3.2 Equilíbrio de Nash Consistente: Jogo de Coordenação MultiagentePara demonstrar que o equilíbrio de Nash se mantém consistente, independente-

mente do uso de PBRS dinâmico, (DEVLIN; KUDENKO, 2012) validam suas teoriasem um estudo empírico, aplicado no jogo de coordenação de Boutilier (BOUTILIER,1999). Esta seção apresenta a reprodução deste trabalho. Assim como nos experi-mentos da seção anterior, serão avaliadas três abordagens, duas com PBRS e umasem.

O jogo de Boutilier, ilustrado pela Figura 3.3, possui seis estados e dois agentes.Cada agente é capaz de realizar duas ações (a ou b). No estado inicial s1, a cadaepisódio os agentes decidem se irão se mover para um estado com garantias de re-compensa mínima para ambos (s3) ou para um estado onde eles devem se coordenarpara receber uma recompensa maior. Porém, no estado s2 os agentes correm o riscode receberem uma grande recompensa negativa caso não escolham a mesma ação.

Figura 3.3: Jogo de coordenação de Boutilier (DEVLIN; KUDENKO, 2012)

Na Figura 3.3, cada transição é rotulada com um ou mais pares de ação, tal que,o par a,∗ significa que essa transição ocorre quando o agente 1 escolhe a ação a e oagente 2 escolhe a mesma ação. Quando um par de ação múltipla resulta na mesmatransição os pares são separados por um ponto e vírgula (;).

O jogo possui múltiplos equilíbrios de Nash. As políticas de ações podem optar

36

por um estado seguro s3 ou optar por se mover para o estado s2, onde os agentesdevem cooperar para que ambos escolham as ações a ou b que maximizam a recom-pensa. Qualquer política de ação conjunta que receba uma recompensa negativa nãoé um equilíbrio de Nash.

Três conjuntos de agentes são avaliados nestes experimentos, dois que recebemPBRS e um onde os agentes não recebem reward shaping. A função aleatória uni-forme irá, assim como na Seção 3.3.1, escolher potenciais em um intervalo entre0 e 50. Vale a pena ressaltar que, neste domínio, a recompensa recebida pelo RSfrequentemente será maior do que a recebida do ambiente, quando estiver seguindouma política ótima. Já a segunda função, aleatória com viés negativo, irá escolherpotenciais em um intervalo entre 35 e 50 para o estado s5 (estado sub-ótimo) ou 0 a15 para todos os demais estados. Esta função potencial, como ressaltam os autores,é um viés para a política sub-ótima, já que qualquer transição de estado para s5será recompensada por pelo menos uma recompensa alta.

Todos os conjuntos de agentes, com ou sem PBRS, utilizam o algoritmo deaprendizado por reforço Q-learning, com política de exploração ε-guloso e represen-tação do ambiente tabular. Os parâmetros do algoritmo foram definidos em α= 0.5,γ = 0.99 e ε = 0.3 decaindo por 0.99 a cada episódio. Os autores definiram estesparâmetros com base em resultados de testes preliminares. Eles ainda ressaltamque apesar da taxa de aprendizagem ser alta, isto não deve interferir nas garantiasteóricas mencionadas. Todos os experimentos foram executados por 500 episódiose repetidos por 100 vezes. Os resultados ilustrados a seguir apresentam o percen-tual de comportamento adquirido, ou seja, a convergência do sistema para um dosestados ótimo seguro e sub-ótimo respectivamente.

A Figura 3.4 apresenta os resultados obtidos para a abordagem que não utilizaPBRS. Como pode ser observado, na maior parte dos casos, os agentes convergempara um dos equilíbrios de Nash. Sendo que a política convergida com mais frequên-cia foi a segura. Estes resultados servirão como baseline para demonstrar que, apesarda utilização de PBRS dinâmico, os agentes devem convergir para um dos equilí-brios de Nash para que a teoria de equilíbrio de Nash consistente, apresentada por(DEVLIN; KUDENKO, 2012), seja válida.

No segundo experimento, foram avaliados agentes que utilizam PBRS com funçãopotencial aleatória uniforme. Como pode ser observado na Figura 3.5, apesar douso de PBRS, os agentes convergem para um dos equilíbrios de Nash, na maiorparte das vezes. Aliás, neste caso, os agentes optaram pela solução ótima na maiorparte das vezes. Enquanto que a solução sub-ótima foi encontrada em menos de 5%dos casos nos episódios finais. Isto demostra que as garantias de equilíbrio de Nashconsistente, mesmo com a utilização do PBRS, são mantidas.

Neste terceiro experimento, são avaliados agentes que utilizam uma função po-tencial PBRS dinâmica e negativamente enviesada. Nesta abordagem, os agentesrecebem um incentivo maior para optarem por ações que os levem à solução sub-ótima. No entanto, como pode ser observado na Figura 3.6, apesar deste incentivoa tomar ações negativas, os agentes convergem para um dos equilíbrios de Nash(solução ótima ou segura).

Assim como no domínio monoagente, o uso de PBRS se mostrou não prejudicialpara a qualidade do aprendizado por reforço, em domínios multiagente. Isto aconteceporque o reward shaping proporciona uma mudança na exploração do ambiente, fatoeste que pode levar a convergência para um novo equilíbrio de Nash. Como pode

37

0 50 100 150 200 250 300 350 400 450 5000

20

40

60

80

100

Episódio

Per

cent

ual d

e C

ompo

rtam

ento

Adq

uirid

o

SeguraÓtimaSub−ótima

Figura 3.4: Percentual de comportamento adquirido no jogo de Boutilier para aabordagem sem PBRS

ser observado na Fig. 3.5 e Fig. 3.6, em nenhum dos casos os agentes convergirampara a política sub-ótima. Ao invés disso, eles convergiram para um dos equilíbriosde Nash. Estes resultados validam a teoria de (DEVLIN; KUDENKO, 2012) sobrea consistência do equilíbrio de Nash, em situações onde os agentes recebem PBRSdinâmico.

Mais uma vez, vale ressaltar que o objetivo deste experimento não é aceleraro processo de aprendizagem, mas provar que o uso PBRS não interfere na soluçãoemergente. Para que haja uma redução significativa na curva de aprendizagem, sefaz necessário o uso de funções potencias mais expressivas. Para uma leitura in-trodutória sobre modelagem de funções de recompensa (que também pode ser utili-zada como função potencial) recomenda-se o trabalho de (SINGH; LEWIS; BARTO,2009).

38

0 50 100 150 200 250 300 350 400 450 5000

20

40

60

80

100

Episódio

Per

cent

ual d

e C

ompo

rtam

ento

Adq

uirid

o

ÓtimaSeguraSub−ótima

Figura 3.5: Percentual de comportamento adquirido no jogo de Boutilier para aabordagem com função PBRS aleatória uniforme

0 50 100 150 200 250 300 350 400 450 5000

20

40

60

80

100

Episódio

Per

cent

ual d

e C

ompo

rtam

ento

Adq

uirid

o

SeguraÓtimaSub−ótima

Figura 3.6: Percentual de comportamento adquirido no jogo de Boutilier para aabordagem com função PBRS aleatória negativamente enviesada

39

4 CONCLUSÕES

Neste trabalho, realizou-se um levantamento bibliográfico das principais técni-cas de incorporação de conhecimento em algoritmos de aprendizado por reforço. Oaprendizado por reforço tem aplicações nas mais diversas áreas, desde tarefas sim-ples, que envolvem apenas um agente aprendendo, até mesmo tarefas mais complexasas quais podem existir milhares de agentes aprendendo (por exemplo: cenários deaprendizado de rotas em redes de tráfego). Uma grande desvantagem desta técnicaé a necessidade de um custoso e iterativo processo de aprendizagem, o qual necessitade um número considerável (e variável de acordo com o problema) de experiências(episódios) para aprender. Diante disto, estudos envolvendo métodos de aceleraçãode aprendizagem são muito importantes para viabilizar o uso de aprendizado porreforço em determinadas tarefas. Dentre estas técnicas, uma que se mostra promis-sora é o reward shaping. Apesar disto, foi provado que o uso de reward shaping podeinterferir na qualidade da política aprendida. Para resolver este problema, o PBRSfoi apresentado como solução promissora acelerar a aprendizagem, mas sem alteraro objetivo do sistema.

Vários trabalhos evidenciaram que, se utilizado de maneira adequada, os algorit-mos de aprendizado por reforço podem se beneficiar do PBRS para aprender maisrapidamente. Dentre os vários marcos que levaram ao atual estado da arte desta téc-nica podemos destacar a existência de duas formas de modelar agentes com PBRS.A primeira se da através do uso de funções potenciais estáticas, as quais apresentamresultados satisfatórios e equivalentes a inicialização da tabela Q. A segunda formaé através do uso de funções potenciais dinâmicas, ou seja, que variam em função dotempo. (DEVLIN; KUDENKO, 2012) provam que para este segundo caso a equiva-lência a inicialização da tabela Q não se aplica. Porém, ambas possuem as mesmasgarantias de convergências para soluções ótimas, no caso monoagente, ou para umequilíbrio de Nash, nos casos multiagente. Estas provas podem ser encontradas em(DEVLIN; KUDENKO, 2011, 2012).

Para comprovar que tais afirmações são verdadeiras, este trabalho reproduziudois problemas conhecidos na literatura e avaliou os resultados obtidos com e semo uso de PBRS. Para o cenário monoagente, observou-se que o agente é capaz deconvergir para a política ótima independente do uso de PBRS dinâmico. Já para ocenário multiagente, observou-se que os agentes convergiram para um dos equilíbriosde Nash existentes, indiferente do uso de PBRS. Estes fatos mostram que o uso destatécnica além de promissor também é seguro para o processo de aprendizagem.

Embora em ambos os cenários houve a convergência desejada, nestes proble-mas, os autores não se preocuparam em melhorar o tempo de aprendizagem. Paramelhorar o tempo de aprendizagem, além do uso de uma técnica consistente de

40

incorporação de conhecimento, como o PBRS, também se faz necessário o desen-volvimento adequado de funções potenciais. Um potencial, neste contexto, seriarepresentado por uma energia de um estado, ou seja, o conhecimento de domínio doprojetista que deve ser transformado em um sinal numérico a ser processado peloagente. Uma grande dificuldade seria transformar as características que represen-tam o conhecimento do domínio em sinal numérico. Por exemplo, em cenários maiscomplexos e ricos em informações como roteamento de veículos em redes viárias,existem diversos atributos do ambiente que podem ser utilizados pelo projetista,para a consolidação do potencial, dentre os quais podemos destacar:

• Quantidade atual de veículos na via;

• Velocidade média da via;

• Tamanho médio dos veículos;

• Velocidade máxima permitida;

• Ocupação média;

A grande dificuldade em desenvolver funções potenciais está justamente em pon-derar a contribuição de cada um destes parâmetros utilizados na consolidação dopotencial. Além disso, seria desejável que a função potencial fosse tolerante a ine-xistência ou indisponibilidade de algum destes parâmetros. Outra variante desteproblema seria a utilização de funções potenciais que também levem em conside-ração características do agente - já que podem haver, por exemplo, veículos comdiferentes dimensões, acelerações, velocidade máxima, consumo de combustível eetc. Desta forma, a função poderia estimular o uso de uma determinada via paraum veículo e desestimular para outro. Este comportamento é muito comum em ce-nários reais, já que veículos de grandes dimensões, quando possível, evitam transitarem vias de menor capacidade.

Esta questão, referente a modelagem de função potencial, foi aqui levantada porser promissora como trabalhos futuros no desenvolvimento de mecanismos de apren-dizagem por reforço multiagente mais eficientes. Consequentemente, este trabalhoserve como um levantamento teórico do estado da arte do PBRS para que em pro-blemas, como o mencionado anteriormente, possa ser tirado o máximo de proveitodas técnicas de reward shaping existentes, em especial do PBRS.

41

REFERÊNCIAS

AGOGINO, A. K.; TUMER, K. A multiagent approach to managing air traffic flow.Autonomous Agents and Multi-Agent Systems, [S.l.], v.24, n.1, p.1–25, 2012.

BABES, M.; COTE, E. M. D.; LITTMAN, M. L. Social reward shaping in the prisi-oner’s dilemma. In: INT. JOINT CONF. ON AUT. AGENTS AND MULTIAGENTSYSTEMS, 7. Proceedings. . . IFAAMAS, 2008. p.1389–1392.

BELLMAN, R. E. Dynamic Programming. Princeton: Princeton UniversityPress, 1957.

BERNSTEIN, D. S. et al. The Complexity of Decentralized Control of Markov Deci-sion Processes. Mathematics of Operations Research, Institute for OperationsResearch and the Management Sciences (INFORMS), Linthicum, Maryland, USA,v.27, n.4, p.819–840, 2002.

BOUTILIER, C. Sequential Optimality and Coordination in Multiagent Systems. In:SIXTEENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL IN-TELLIGENCE. Proceedings. . . Morgan Kaufmann Publishers Inc., 1999. p.478–485.

BUŞONIU, L.; BABUSKA, R.; DE SCHUTTER, B. A comprehensive survey ofmultiagent reinforcement learning. Systems, Man, and Cybernetics, Part C:Applications and Reviews, IEEE Transactions on, [S.l.], v.38, n.2, p.156–172,2008.

BUŞONIU, L.; De Schutter, B.; BABUŠKA, R. Multiagent reinforcement learningwith adaptive state focus. In: BELGIUM-NETHERLANDS CONFERENCE ONARTIFICIAL INTELLIGENCE (BNAIC 2005), 17., Brussels, Belgium. Procee-dings. . . [S.l.: s.n.], 2005. p.35–42.

CLAUS, C.; BOUTILIER, C. The Dynamics of Reinforcement Learning in Coo-perative Multiagent Systems. In: FIFTEENTH NATIONAL CONFERENCE ONARTIFICIAL INTELLIGENCE. Proceedings. . . [S.l.: s.n.], 1998. p.746–752.

DEVLIN, S. Potential-Based Reward Shaping for Knowledge-Based,Multi-Agent Reinforcement Learning. 2013. Tese (Doutorado em Ciência daComputação) — University of York.

DEVLIN, S. et al. Potential-Based Difference Rewards for Multiagent Reinforce-ment Learning. In: THIRTEENTH INTERNATIONAL JOINT CONFERENCE

42

ON AUTONOMOUS AGENTS AND MULTIAGENT SYSTEMS, Paris, France.Proceedings. . . [S.l.: s.n.], 2014.

DEVLIN, S.; KUDENKO, D. Theoretical considerations of potential-based rewardshaping for multi-agent systems. In: THE 10TH INTERNATIONAL CON-FERENCE ON AUTONOMOUS AGENTS AND MULTIAGENT SYSTEMS-VOLUME 1. Anais. . . [S.l.: s.n.], 2011. p.225–232.

DEVLIN, S.; KUDENKO, D. Dynamic Potential-based Reward Shaping. In: IN-TERNATIONAL CONFERENCE ON AUTONOMOUS AGENTS AND MULTIA-GENT SYSTEMS - VOLUME 1, 11., Richland, SC. Proceedings. . . InternationalFoundation for Autonomous Agents and Multiagent Systems, 2012. p.433–440. (AA-MAS ’12).

FRANKLIN, S.; GRAESSER, A. It is an Agent, or Just a Program? A Taxonomy forAutonomous Agents. In: SPRINGER (Ed.). Intelligent Agents. [S.l.]: Jennings,N. and Wooldridge, M., 1997. v.III.

FUDENBERG, D.; TIROLE, J. Game Theory. [S.l.]: The MIT Press, 1991. (MITPress Books).

GRZES, M.; KUDENKO, D. Plan-based reward shaping for reinforcement learning.In: INTELLIGENT SYSTEMS, 2008. IS 08. 4TH INTERNATIONAL IEEE CON-FERENCE. Anais. . . [S.l.: s.n.], 2008. v.2, p.10–22–10–29.

GRZES, M.; KUDENKO, D. Multigrid Reinforcement Learning with Reward Sha-ping. In: KURKOVA, V.; NERUDA, R.; KOUTNIK, J. (Ed.). Artificial NeuralNetworks - ICANN 2008. [S.l.]: Springer Berlin Heidelberg, 2008. p.357–366.

GUESTRIN, C.; LAGOUDAKIS, M. G.; PARR, R. Coordinated ReinforcementLearning. In: NINETEENTH INTERNATIONAL CONFERENCE ON MACHINELEARNING (ICML), San Francisco, CA, USA. Proceedings. . . Morgan Kauf-mann, 2002. p.227–234.

HU, J.; WELLMAN, M. P. Nash Q-learning for General-sum Stochastic Games. J.Mach. Learn. Res., [S.l.], v.4, p.1039–1069, 2003.

KAELBLING, L. P.; LITTMAN, M. L.; CASSANDRA, A. R. Planning and Actingin Partially Observable Stochastic Domains. Artificial Intelligence, [S.l.], v.101,n.1–2, p.99–134, 1998.

KAELBLING, L. P.; LITTMAN, M.; MOORE, A. Reinforcement Learning: a sur-vey. Journal of Artificial Intelligence Research, [S.l.], v.4, p.237–285, 1996.

KOK, J. R.; VLASSIS, N. Sparse cooperative Q-learning. In: INTERNATIONALCONFERENCE ON MACHINE LEARNING (ICML), 21., New York, USA. Pro-ceedings. . . ACM Press, 2004. p.481–488.

KOK, J.; VLASSIS, N. Collaborative Multiagent Reinforcement Learning by PayoffPropagation. Journal of Machine Learning Research, [S.l.], v.7, p.1789–1828,2006.

43

LAUER, M.; RIEDMILLER, M. An Algorithm for Distributed Reinforcement Lear-ning in Cooperative Multi-Agent Systems. In: INTERNATIONAL CONFERENCEON MACHINE LEARNING, 17. Proceedings. . . Morgan Kaufmann: San Fran-cisco: CA, 2000. p.535–542.

LITTMAN, M. L. Markov Games as a Framework for Multi-Agent ReinforcementLearning. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING,ML, 11., New Brunswick, NJ. Proceedings. . . Morgan Kaufmann, 1994. p.157–163.

LITTMAN, M. L.; DEAN, T. L.; KAELBLING, L. P. On the complexity of solvingMarkov decision problems. In: ANNUAL CONFERENCE ON UNCERTAINTYIN ARTIFICIAL INTELLIGENCE, UAI, 11., Montreal, Québec, Canada. Proce-edings. . . [S.l.: s.n.], 1995. p.394–402.

MARTHI, B. Automatic shaping and decomposition of reward functions. In:INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 24. Procee-dings. . . [S.l.: s.n.], 2007. p.601–608.

MATARIĆ, M. J. Reinforcement learning in the multi-robot domain. In: Robotcolonies. [S.l.]: Springer, 1997. p.73–83.

MITCHELL, T. M. Machine Learning. 1.ed. New York, NY, USA: McGraw-Hill,Inc., 1997.

NASH, J. F. Non-Cooperative Games. Annals of Mathematics, [S.l.], v.2, n.54,p.286–295, 1951.

NG, A. Y.; HARADA, D.; RUSSELL, S. Policy invariance under reward transforma-tions: theory and application to reward shaping. In: IN PROCEEDINGS OF THESIXTEENTH INTERNATIONAL CONFERENCE ON MACHINE LEARNING.Anais. . . Morgan Kaufmann, 1999. p.278–287.

OLIVEIRA, D. de.; BAZZAN, A. L. C. Multiagent Learning on Traffic Lights Con-trol: effects of using shared information. In: BAZZAN, A. L. C.; KLÜGL, F. (Ed.).Multi-Agent Systems for Traffic and Transportation. Hershey, PA: IGI Glo-bal, 2009. p.307–321.

PUTERMAN, M. L. Markov Decision Processes: discrete stochastic dynamicprogramming. New York, NY, USA: Wiley–Interscience, 2005. (Wiley Series in Pro-bability and Statistics).

RANDLOV, J.; ALSTROM, P. Learning to drive a bicycle using reinforcementlearning and shaping. In: FIFTEENTH INTERNATIONAL CONFERENCE ONMACHINE LEARNING. Proceedings. . . [S.l.: s.n.], 1998. p.463–471.

RUSSELL, S.; NORVIG, P. Artificial Intelligence: a modern approach. 2.ed.Upper Saddle River, N.J: Prentice-Hall, 2003. 1081p.

RUSSELL, S.; ZIMDARS, A. Q-decomposition for reinforcement learning agents.In: ICML. Anais. . . [S.l.: s.n.], 2003. p.656–663.

44

SHAPLEY, L. A Value for n-Person Games. In: CONTRIBUTIONS TO THE THE-ORY OF GAMES, Princeton. Anais. . . University Press, 1953. v.2.

SINGH, S.; LEWIS, R. L.; BARTO, A. G. Where do rewards come from. In:OF THE ANNUAL CONFERENCE OF THE COGNITIVE SCIENCE SOCIETY.Proceedings. . . [S.l.: s.n.], 2009. p.2601–2606.

STONE, P.; VELOSO, M. Team-partitioned, Opaque-transition Reinforcement Le-arning. In: THIRD ANNUAL CONFERENCE ON AUTONOMOUS AGENTS,New York, NY, USA. Proceedings. . . ACM, 1999. p.206–212. (AGENTS ’99).

SUTTON, R.; BARTO, A. Reinforcement Learning: an introduction. Cam-bridge, MA: MIT Press, 1998.

SUTTON, R. S. Integrated Architectures for Learning, Planning, and Reacting Ba-sed on Approximating Dynamic Programming. In: INTERNATIONAL CONFE-RENCE ON MACHINE LEARNING, 7. Proceedings. . . [S.l.: s.n.], 1990. p.216–224.

TUMER, K.; KHANI, N. Learning from Actions Not Taken in Multiagent Systems.Advances in Complex Systems, [S.l.], v.12, n.4-5, p.455–473, 2009.

TUMER, K.; WOLPERT, D. Collective Intelligence and Braess’ Paradox. In: SE-VENTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE.Proceedings. . . AAAI Press, 2000. p.104–109.

TUMER, K.; WOLPERT, D. A Survey of Collectives. In: TUMER, K.; WOLPERT,D. (Ed.). Collectives and the Design of Complex Systems. [S.l.]: Springer,2004. p.1–42.

TUYLS, K.; WEISS, G. Multiagent Learning: basics, challenges, and prospects. AIMagazine, [S.l.], v.33, n.3, p.41–52, 2012.

WANG, X.; SANDHOLM, T. Reinforcement learning to play an optimal nash equi-librium in team markov games. In: ADVANCES IN NEURAL INFORMATIONPROCESSING SYSTEMS 15 (NIPS-2002). Anais. . . [S.l.: s.n.], 2002.

WATKINS, C. Learning from Delayed Rewards. 1989. Tese (Doutorado emCiência da Computação) — University of Cambridge.

WATKINS, C. J. C. H.; DAYAN, P. Q-learning. Machine Learning, Hingham,MA, USA, v.8, n.3, p.279–292, 1992.

WIEWIORA, E. Potential-based shaping and Q-value initialization are equivalent.J. Artif. Intell. Res.(JAIR), [S.l.], v.19, p.205–208, 2003.

WIEWIORA, E.; COTTRELL, G.; ELKAN, C. Principled methods for advisingreinforcement learning agents. In: TWENTIETH INTERNATIONAL CONFE-RENCE ON MACHINE LEARNING. Proceedings. . . [S.l.: s.n.], 2003. p.792–799.

WOOLDRIDGE, M. J. An Introduction to MultiAgent Systems. Chichester:John Wiley & Sons, 2009. 461p. 2nd edition.

UmEstudosobreAprendizadopor ReforçoMultiagentee Reward …rgrunitzki/papers/Grunitzki2014ti.pdf ·...

Documents

Transcript of UmEstudosobreAprendizadopor ReforçoMultiagentee Reward …rgrunitzki/papers/Grunitzki2014ti.pdf ·...