Qual a relação entre teoria dos jogos e aprendizado por reforço?

11

Estou interessado em (Deep) Reinforcement Learning (RL) . Antes de mergulhar neste campo, devo fazer um curso em Teoria dos Jogos (GT) ?

Como o GT e o RL estão relacionados?

Kiuhnm
fonte
2
Eles são tão intimamente relacionados quanto martelos e chantilly. Provavelmente, você pode encontrar um problema em que pode usar os dois, mas isso não é comum.
Don Reba
4
@DonReba Não de acordo com dois pesquisadores conhecidos no Aprendizado por Reforço: udacity.com/course/… Acho que a Teoria dos Jogos lhe diz qual é a política ideal, enquanto a RL diz como os agentes podem aprender a melhor ou a melhor política.
Kiuhnm
3
@ DonReba, talvez em termos do conteúdo usual ensinado neles. No entanto, os propósitos dos dois campos não são tão diferentes. O aprendizado por reforço pode ser encarado como um jogo de informações imperfeitas, geralmente para um jogador. Ou como um jogo para dois jogadores, no qual o outro jogador, a natureza, segue um conjunto de regras que você deseja descobrir.
conjectures
11
Isso foi educativo. :)
Don Reba

Respostas:

12

No Aprendizado por Reforço (RL), é comum imaginar um Processo de Decisão de Markov (MDP) subjacente. Então, o objetivo da RL é aprender uma boa política para o MDP, que geralmente é apenas parcialmente especificado. Os MDPs podem ter objetivos diferentes, como recompensa total, média ou com desconto, em que a recompensa com desconto é a suposição mais comum para RL. Existem extensões bem estudadas de MDPs para configurações de dois jogadores (ou seja, jogos); veja, por exemplo,

Filar, Jerzy e Koos Vrieze. Processos decisórios competitivos de Markov . Springer Science & Business Media, 2012.

Existe uma teoria subjacente compartilhada pelos MDPs e suas extensões aos jogos para dois jogadores (soma zero), incluindo, por exemplo, o teorema de ponto fixo de Banach, Iteração de Valor, Optimalidade de Bellman, Iteração de Política / Melhoria de Estratégia etc. No entanto, enquanto houver essas conexões estreitas entre os MDPs (e, portanto, o RL) e esses tipos específicos de jogos:

  • você pode aprender sobre RL (e MDPs) diretamente, sem o GT como pré-requisito;
  • de qualquer forma, você não aprenderia sobre isso na maioria dos cursos de GT (que normalmente seriam focados em, por exemplo, jogos de forma estratégica, de forma extensiva e repetidos, mas não nos jogos infinitos baseados no estado que generalizam MDPs).
Rahul Savani
fonte
0

RL: Um único agente é treinado para resolver um problema de decisão de Markov (MDPS). GT: Dois agentes são treinados para resolver jogos. Um aprendizado de reforço multi-agente (MARL) pode ser usado para resolver jogos estocásticos.

Se você está interessado no aplicativo de agente único da RL no aprendizado profundo, não precisa fazer nenhum curso de GT. Para dois ou mais agentes, talvez você precise conhecer as técnicas da teoria dos jogos.

Khalid Ibrahim
fonte