O que é aprendizado recorrente de reforço

20

Recentemente, me deparei com a palavra "Aprendizagem por Reforço Recorrente". Entendo o que é "Rede Neural Recorrente" e o que é "Aprendizagem por Reforço", mas não consegui encontrar muita informação sobre o que é uma "Aprendizagem por Reforço Recorrente".

Alguém pode me explicar o que é um "aprendizado de reforço recorrente" e qual é a diferença entre "aprendizado de reforço recorrente" e "aprendizado de reforço recorrente", como o algoritmo Q-Learning.

Zero negativo
fonte

Respostas:

15

O que é um "aprendizado de reforço recorrente"?

Aprendizagem por reforço recorrente ( RRL ) foi introduzido pela primeira vez para o treinamento de sistemas de negociação de redes neurais em 1996. "Recorrente" significa que a produção anterior é inserida no modelo como parte da entrada. Logo foi estendido à negociação em um mercado de câmbio.

A técnica RRL foi considerada uma técnica bem-sucedida de aprendizado de máquina para a construção de sistemas de negociação financeira.

Qual é a diferença entre "aprendizado de reforço recorrente" e "aprendizado de reforço" normal (como o algoritmo Q-Learning)?

A abordagem RRL difere claramente dos algoritmos dinâmicos de programação e reforço , como TD-learning e Q-learning , que tentam estimar um função de valor para o problema de controle.

A estrutura RRL permite criar uma representação de problemas simples e elegante, evita a maldição da dimensionalidade de Bellman e oferece vantagens convincentes em eficiência:

O RRL produz ações com valor real (pesos do portfólio) naturalmente, sem recorrer ao método de discretização no Q-learning .

O RRL tem desempenho mais estável em comparação com o Q-learning quando exposto a conjuntos de dados ruidosos. O algoritmo Q-learning é mais sensível à seleção da função de valor (talvez) devido à propriedade recursiva da otimização dinâmica, enquanto algoritmo RRL é mais flexível na escolha da função objetiva e na economia de tempo computacional.

você() , como "lucro" (retorno após custos de transação), "riqueza", funções utilitárias de riqueza ou índices de desempenho ajustados ao risco, como o "índice de sharpe".

Aqui você encontrará uma implementação Matlab do algoritmo RRL.


Referências

Aprendizado de reforço para negociação

Aprendizado de reforço para sistemas e carteiras de negociação

Negociação de câmbio via aprendizado recorrente por reforço

Negociação de ações com aprendizado recorrente de reforço (RRL)

Troca de algoritmos usando Q-Learning e Aprendizagem por Reforço Recorrente

EXPLORANDO ALGORITMOS PARA NEGOCIAÇÃO AUTOMÁTICA DE FX - CONSTRUINDO UM MODELO HÍBRIDO

Anton Danilov
fonte
@AntonDanilov Não tenho certeza se você está ciente disso. O cara que teve essa ideia (seu primeiro árbitro, J Moody) está administrando um fundo usando esse algo - e seu desempenho está longe de ser espetacular.
precisa saber é
Então, é bom saber, mas como ele faz resposta changemy
Anton Danilov
2

A distinção de RL recorrente (profunda) é que a função que mapeia as observações dos agentes para sua ação de saída é uma rede neural recorrente.

Uma rede neural recorrente é um tipo de rede neural que processa cada observação sequencialmente, da mesma maneira para cada etapa do tempo.

Artigo original: Q-Learning profundo e recorrente para MDPs parcialmente observáveis

LearnOPhile
fonte