Qual é a diferença entre aprendizado fora da política e dentro da política?

79

O site de inteligência artificial define o aprendizado fora da política e dentro da política da seguinte maneira:

"Um aluno fora da política aprende o valor da política ideal independentemente das ações do agente. Q-learning é um aluno fora da política. Um aluno fora da política aprende o valor da política sendo executada pelo agente, incluindo as etapas de exploração . "

Gostaria de pedir seu esclarecimento sobre isso, porque eles não parecem fazer nenhuma diferença para mim. Ambas as definições parecem idênticas. O que eu realmente entendi é o aprendizado sem modelo e com base em modelo, e não sei se eles têm algo a ver com os que estão em questão.

Como é possível que a política ideal seja aprendida independentemente das ações do agente? A política não é aprendida quando o agente executa as ações?

cgo
fonte
1
Adicionei um comentário ao stackoverflow.com/questions/6848828/… , a parte TL; NR também pode ser útil para o entendimento.
Zyxue 2/01
aqui está uma boa explicação nb4799.neu.edu/wordpress/?p=1850
Ivan Kush
Gostaria também de acrescentar que existe uma variante fora da política da SARSA. Este documento ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) revisará as políticas de ativação e desativação na introdução e, em seguida, explicará o sarsa esperado. Também procure os gradientes de política esperados (EPG) para encontrar uma teoria mais geral que combine os dois tipos.
Josh Albert

Respostas:

95

Primeiro de tudo, não há razão para que um agente tenha que fazer a ação gananciosa ; Os agentes podem explorar ou podem seguir as opções . Não é isso que separa a aprendizagem dentro e fora da política.

A razão pela qual o aprendizado de Q está fora da política é que ele atualiza seus valores Q usando o valor Q do próximo estado e a ação gananciosa . Em outras palavras, ele estima o retorno (total de recompensa futura com desconto) para pares de ação estatal, assumindo que uma política gananciosa foi seguida, apesar do fato de não estar seguindo uma política gananciosa.sa a

A razão pela qual a SARSA está dentro da política é que ela atualiza seus valores Q usando o valor Q do próximo estado e a ação atual da política a . Ele estima o retorno dos pares de ação do estado, assumindo que a política atual continua a ser seguida.sa

A distinção desaparece se a política atual for uma política gananciosa. No entanto, esse agente não seria bom, pois nunca explora.

Você já viu o livro disponível gratuitamente on-line? Richard S. Sutton e Andrew G. Barto. Aprendizado por reforço: uma introdução. Segunda edição, MIT Press, Cambridge, MA, 2018.

Neil G
fonte
8
boa explicação! Seu exemplo sobre Q-learning é melhor formulado que no livro de Sutton, que diz: " a função de valor-ação aprendida, Q, aproxima-se diretamente de Q *, a função ideal de valor-ação, independente da política a ser seguida. Isso simplifica drasticamente a análise do algoritmo e habilitou provas iniciais de convergência. A política ainda tem um efeito, pois determina quais pares de ação de estado são visitados e atualizados. "
Ciprian Tomoiagă
3
Em geral, não acho Sutton e Barto muito legíveis. Acho que as explicações que eles oferecem não são muito compreensíveis. Não tenho a certeza por que seu livro começa recomendado em todo o lugar
SN
@SN Para muitos estudantes de aprendizado por reforço, Sutton e Barto são o primeiro livro que lêem.
Neil G
3
@JakubArnold, o livro original de Sutton & Barto é de 1998 e não abrange o aprendizado de reforço profundo. A 2ª edição menciona apenas coisas como AlphaGo, mas o foco do livro está em abordagens mais clássicas. Se você quiser mais recursos de RL, dê uma olhada nesta lista . Sugiro os vídeos de David Silver e o livro de Puterman, pois são mais acessíveis. Para mais material teórico, recomendo os livros de Bertsekas. Dê uma olhada no site Spinning Up para obter algoritmos DRL e links para documentos originais.
Douglas De Rizzo Meneghetti
1
@AlbertChen "Portanto, neste caso, depende da exploração ou não": Não, porque os dois algoritmos exploram. A diferença é como Q é atualizado.
Neil G
13

Os métodos dentro da política estimam o valor de uma política enquanto a usam para controle.

Nos métodos fora da política , a política usada para gerar comportamento, chamada política de comportamento , pode não estar relacionada à política avaliada e aprimorada, chamada política de estimativa .

Uma vantagem dessa separação é que a política de estimativa pode ser determinística (por exemplo, gananciosa), enquanto a política de comportamento pode continuar a amostrar todas as ações possíveis.

Para mais detalhes, consulte as seções 5.4 e 5.6 do livro Aprendizado por Reforço: Uma Introdução de Barto e Sutton, primeira edição.

nbro
fonte
7

A diferença entre os métodos Fora da política e Dentro da política é que, com o primeiro, você não precisa seguir nenhuma política específica, seu agente pode se comportar aleatoriamente e, apesar disso, os métodos fora da política ainda podem encontrar a política ideal. Por outro lado, os métodos na política dependem da política usada. No caso do Q-Learning, que está fora da política, ele encontrará a política ideal independente da política usada durante a exploração; no entanto, isso só acontece quando você visita os diferentes estados por um período suficiente. Você pode encontrar no artigo original de Watkins a prova real que mostra essa propriedade muito agradável do Q-Learning. No entanto, existe uma troca e métodos fora da política tendem a ser mais lentos que os métodos dentro da política. Aqui um link com outro resumo interessante das propriedades dos dois tipos de métodos

Juli
fonte
1
Os métodos fora da política não são apenas mais lentos, mas podem ser instáveis ​​quando combinados com o bootstrapping (isto é, como o Q-learning constrói estimativas uns dos outros) e aproximadores de função (por exemplo, redes neurais).
Neil Slater
7

Primeiro de tudo, o que realmente política (denotado por ) significa? A política especifica uma ação , que é executada em um estado (ou, mais precisamente, é uma probabilidade, que uma ação é executada em um estado ).π
asπas

Segundo, que tipos de aprendizado temos?
1. Avalie a função : preveja a soma de futuras recompensas com desconto, onde é uma ação e é um estado. 2. Encontre (na verdade, ), que gera uma recompensa máxima.Q(s,a)as
ππ(a|s)

Voltar à pergunta original. O aprendizado dentro e fora da política está relacionado apenas à primeira tarefa: avaliar .Q(s,a)

A diferença é esta:
No on-política de aprender a função é aprendido com ações, fizemos usando nosso atual política de . No aprendizado fora da política, a função é aprendida a partir de diferentes ações (por exemplo, ações aleatórias). Nós nem precisamos de uma política!Q(s,a)π
Q(s,a)

Esta é a função de atualização do algoritmo SARSA na política : , onde é a ação que foi executada de acordo com a política .Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

Compare-o com a função de atualização do algoritmo de aprendizado de Q fora da política : , onde são todas as ações que foram sondadas no estado .Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))as

Dmitry Mottl
fonte
1

No livro de Sutton: "A abordagem de política na seção anterior é realmente um compromisso - ela aprende valores de ação não para a política ideal, mas para uma política quase ideal que ainda explora. Uma abordagem mais direta é usar duas políticas , uma que é aprendida e que se torna a política ideal e outra que é mais exploratória e usada para gerar comportamento.A política que está sendo aprendida é chamada de política de destino e a política usada para gerar comportamento é chamada de política de comportamento. Nesse caso, dizemos que o aprendizado é a partir dos dados da política de destino e o processo geral é denominado aprendizado de política. "

Oliver Goldstein
fonte
se você seguir esta descrição, não é fácil dizer por que o Q-learning está fora da política.
Albert Chen