(1) como a subamostragem resolveria o problema de não estacionariedade
A idéia de amostrar uma variedade de subpolíticas para outros agentes executarem durante o treinamento é que isso introduz mais variedade no comportamento dos agentes concorrentes, em vez de sempre apenas treinar contra a "versão" mais recente dos adversários (o que pode resultar em "sobreajuste" contra esses agentes). Se houver variedade no comportamento dos oponentes, seu agente será forçado a tentar aprender uma política robusta, no sentido de que tentará aprender uma política que possa lidar com todos os oponentes. Sem essa variedade, se você sempre selecionasse sempre as versões mais recentes dos oponentes, seu agente seria incentivado a aprender apenas uma política forte contra essas versões mais recentes dos oponentes.
Considere, por exemplo, o jogo de pedra-papel-tesoura. DeixeiP1 1 e P2denotam dois agentes que estão aprendendo simultaneamente. Suponha que eles apenas treinariam um contra o outro (em vez de ter parceiros de treinamento mais variados por meio de amostragem). SuponhaP1 1 é inicializado aleatoriamente para tocar apenas Rock, e P2 é inicializado aleatoriamente para reproduzir apenas Paper.
P2 ganhará inicialmente a maioria de seus jogos e P1 1aprenderá a tocar tesoura com muita frequência. Uma vezP1 1 aprendeu isso, P2vai começar a aprender a tocar rock com muita frequência. Feito isso,P1 1começará a aprender a jogar Paper com muita frequência. Os dois agentes continuam em círculos como esse, sempre aprendendo apenas a combater o comportamento mais recente do outro jogador.
Se, em vez disso, introduzirmos mais variedade nos parceiros de treinamento, amostrando a partir de um conjunto de várias políticas aprendidas, teremos maior probabilidade de convergir para a estratégia ideal de selecionar ações uniformemente aleatoriamente; essa é a única estratégia que provavelmente terá bom desempenho em relação a um conjunto de políticas variadas.
(2) por que os agentes individuais teriam mais de uma (sub) política possível - não deveria haver uma única política ideal para cada agente?
Em última análise, geralmente queremos convergir para uma única política * ideal para todos os agentes, sim. Mas normalmente ainda não o temos ... é por isso que estamos aprendendo o reforço de reforço em primeiro lugar! Não sabemos como é uma política ótima (ou mesmo apenas uma boa); precisamos aprender isso primeiro. Durante esse processo de aprendizado, se quisermos (o que fazemos com base no raciocínio de minha resposta à sua pergunta anterior), podemos facilmente aprender um conjunto de políticas diferentes, em vez de aprender uma única política. Isso pode, por exemplo, ser feito simplesmente treinando cada sub-política em um subconjunto diferente da experiência que coletamos.