Atualmente, estou procurando uma Visão geral sobre algoritmos de aprendizado por reforço e talvez uma classificação deles. Mas, ao lado de Sarsa e Q-Learning + Deep Q-Learning, não consigo encontrar nenhum algoritmo popular.
A Wikipedia fornece uma visão geral sobre diferentes métodos gerais de aprendizado por reforço, mas não há referência a diferentes algoritmos que implementam esses métodos.
Mas talvez eu esteja confundindo abordagens e algoritmos gerais e basicamente não haja uma classificação real nesse campo, como em outros campos do aprendizado de máquina. Alguém pode me dar uma breve introdução ou apenas uma referência onde eu poderia começar a ler as diferentes abordagens, as diferenças entre elas e exemplos de algoritmos que implementam essas abordagens?
fonte
Respostas:
Há um bom documento de pesquisa aqui .
Esses métodos incluem o popular algoritmo REINFORCE, que é um algoritmo de gradientes de política. TRPO e GAE são algoritmos de gradientes de política semelhantes.
Existem muitas outras variantes nos gradientes de políticas e podem ser combinadas com a aprendizagem de Q na estrutura ator-crítico. O algoritmo A3C - vantagem assíncrona ator-crítico - é um desses algoritmos ator-crítico e uma linha de base muito forte no aprendizado por reforço.
Além dos gradientes de Q-learning e de política, que são aplicados em configurações sem modelo (nenhum algoritmo mantém um modelo do mundo), também existem métodos baseados em modelo que estimam o estado do mundo. Esses modelos são valiosos porque podem ser muito mais eficientes em termos de amostra.
Os algoritmos baseados em modelo não são exclusivos dos gradientes de políticas ou do Q-learning. Uma abordagem comum é executar a estimativa de estado / aprender um modelo de dinâmica e, em seguida, treinar uma política sobre o estado estimado.
Assim, quanto a uma classificação, um detalhamento seria
Os métodos baseados em políticas podem ainda ser subdivididos em
fonte