O que é um "aprendizado de reforço recorrente"?
Aprendizagem por reforço recorrente ( RRL ) foi introduzido pela primeira vez para o treinamento de sistemas de negociação de redes neurais em 1996. "Recorrente" significa que a produção anterior é inserida no modelo como parte da entrada. Logo foi estendido à negociação em um mercado de câmbio.
A técnica RRL foi considerada uma técnica bem-sucedida de aprendizado de máquina para a construção de sistemas de negociação financeira.
Qual é a diferença entre "aprendizado de reforço recorrente" e "aprendizado de reforço" normal (como o algoritmo Q-Learning)?
A abordagem RRL difere claramente dos algoritmos dinâmicos de programação e reforço , como TD-learning e Q-learning , que tentam estimar um função de valor para o problema de controle.
A estrutura RRL permite criar uma representação de problemas simples e elegante, evita a maldição da dimensionalidade de Bellman e oferece vantagens convincentes em eficiência:
O RRL produz ações com valor real (pesos do portfólio) naturalmente, sem recorrer ao método de discretização no Q-learning .
O RRL tem desempenho mais estável em comparação com o Q-learning quando exposto a conjuntos de dados ruidosos. O algoritmo Q-learning é mais sensível à seleção da função de valor (talvez) devido à propriedade recursiva da otimização dinâmica, enquanto algoritmo RRL é mais flexível na escolha da função objetiva e na economia de tempo computacional.
você( ) , como "lucro" (retorno após custos de transação), "riqueza", funções utilitárias de riqueza ou índices de desempenho ajustados ao risco, como o "índice de sharpe".
Aqui você encontrará uma implementação Matlab do algoritmo RRL.
Referências
Aprendizado de reforço para negociação
Aprendizado de reforço para sistemas e carteiras de negociação
Negociação de câmbio via aprendizado recorrente por reforço
Negociação de ações com aprendizado recorrente de reforço (RRL)
Troca de algoritmos usando Q-Learning e Aprendizagem por Reforço Recorrente
EXPLORANDO ALGORITMOS PARA NEGOCIAÇÃO AUTOMÁTICA DE FX - CONSTRUINDO UM MODELO HÍBRIDO
A distinção de RL recorrente (profunda) é que a função que mapeia as observações dos agentes para sua ação de saída é uma rede neural recorrente.
Uma rede neural recorrente é um tipo de rede neural que processa cada observação sequencialmente, da mesma maneira para cada etapa do tempo.
Artigo original: Q-Learning profundo e recorrente para MDPs parcialmente observáveis
fonte