O site de inteligência artificial define o aprendizado fora da política e dentro da política da seguinte maneira:
"Um aluno fora da política aprende o valor da política ideal independentemente das ações do agente. Q-learning é um aluno fora da política. Um aluno fora da política aprende o valor da política sendo executada pelo agente, incluindo as etapas de exploração . "
Gostaria de pedir seu esclarecimento sobre isso, porque eles não parecem fazer nenhuma diferença para mim. Ambas as definições parecem idênticas. O que eu realmente entendi é o aprendizado sem modelo e com base em modelo, e não sei se eles têm algo a ver com os que estão em questão.
Como é possível que a política ideal seja aprendida independentemente das ações do agente? A política não é aprendida quando o agente executa as ações?
Respostas:
Primeiro de tudo, não há razão para que um agente tenha que fazer a ação gananciosa ; Os agentes podem explorar ou podem seguir as opções . Não é isso que separa a aprendizagem dentro e fora da política.
A razão pela qual o aprendizado de Q está fora da política é que ele atualiza seus valores Q usando o valor Q do próximo estado e a ação gananciosa . Em outras palavras, ele estima o retorno (total de recompensa futura com desconto) para pares de ação estatal, assumindo que uma política gananciosa foi seguida, apesar do fato de não estar seguindo uma política gananciosa.s′ a ′ a′
A razão pela qual a SARSA está dentro da política é que ela atualiza seus valores Q usando o valor Q do próximo estado e a ação atual da política a . Ele estima o retorno dos pares de ação do estado, assumindo que a política atual continua a ser seguida.s′ a′′
A distinção desaparece se a política atual for uma política gananciosa. No entanto, esse agente não seria bom, pois nunca explora.
Você já viu o livro disponível gratuitamente on-line? Richard S. Sutton e Andrew G. Barto. Aprendizado por reforço: uma introdução. Segunda edição, MIT Press, Cambridge, MA, 2018.
fonte
Os métodos dentro da política estimam o valor de uma política enquanto a usam para controle.
Nos métodos fora da política , a política usada para gerar comportamento, chamada política de comportamento , pode não estar relacionada à política avaliada e aprimorada, chamada política de estimativa .
Uma vantagem dessa separação é que a política de estimativa pode ser determinística (por exemplo, gananciosa), enquanto a política de comportamento pode continuar a amostrar todas as ações possíveis.
Para mais detalhes, consulte as seções 5.4 e 5.6 do livro Aprendizado por Reforço: Uma Introdução de Barto e Sutton, primeira edição.
fonte
A diferença entre os métodos Fora da política e Dentro da política é que, com o primeiro, você não precisa seguir nenhuma política específica, seu agente pode se comportar aleatoriamente e, apesar disso, os métodos fora da política ainda podem encontrar a política ideal. Por outro lado, os métodos na política dependem da política usada. No caso do Q-Learning, que está fora da política, ele encontrará a política ideal independente da política usada durante a exploração; no entanto, isso só acontece quando você visita os diferentes estados por um período suficiente. Você pode encontrar no artigo original de Watkins a prova real que mostra essa propriedade muito agradável do Q-Learning. No entanto, existe uma troca e métodos fora da política tendem a ser mais lentos que os métodos dentro da política. Aqui um link com outro resumo interessante das propriedades dos dois tipos de métodos
fonte
Primeiro de tudo, o que realmente política (denotado por ) significa? A política especifica uma ação , que é executada em um estado (ou, mais precisamente, é uma probabilidade, que uma ação é executada em um estado ).π
a s π a s
Segundo, que tipos de aprendizado temos?Q(s,a) a s
π π(a|s)
1. Avalie a função : preveja a soma de futuras recompensas com desconto, onde é uma ação e é um estado. 2. Encontre (na verdade, ), que gera uma recompensa máxima.
Voltar à pergunta original. O aprendizado dentro e fora da política está relacionado apenas à primeira tarefa: avaliar .Q(s,a)
A diferença é esta:Q(s,a) π
Q(s,a)
No on-política de aprender a função é aprendido com ações, fizemos usando nosso atual política de . No aprendizado fora da política, a função é aprendida a partir de diferentes ações (por exemplo, ações aleatórias). Nós nem precisamos de uma política!
Esta é a função de atualização do algoritmo SARSA na política : , onde é a ação que foi executada de acordo com a política .Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) a′ π
Compare-o com a função de atualização do algoritmo de aprendizado de Q fora da política : , onde são todas as ações que foram sondadas no estado .Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)−Q(s,a)) a′ s′
fonte
No livro de Sutton: "A abordagem de política na seção anterior é realmente um compromisso - ela aprende valores de ação não para a política ideal, mas para uma política quase ideal que ainda explora. Uma abordagem mais direta é usar duas políticas , uma que é aprendida e que se torna a política ideal e outra que é mais exploratória e usada para gerar comportamento.A política que está sendo aprendida é chamada de política de destino e a política usada para gerar comportamento é chamada de política de comportamento. Nesse caso, dizemos que o aprendizado é a partir dos dados da política de destino e o processo geral é denominado aprendizado de política. "
fonte