Perguntas com a marcação «q-learning»

19

O que é "repetição de experiência" e quais são seus benefícios?

Estive lendo DeepMind Atari do Google de papel e eu estou tentando entender o conceito de "experiência replay". A repetição da experiência aparece em muitos outros documentos de aprendizado por reforço (particularmente o artigo AlphaGo), então eu quero entender como isso funciona. Abaixo estão...

reinforcement-learning q-learning

9

Compreendendo o aprendizado por reforço com rede neural (Q-learning)

Estou tentando entender a aprendizagem por reforço e os processos de decisão de markov (MDP) no caso em que uma rede neural está sendo usada como aproximador de funções. Estou tendo dificuldades com o relacionamento entre o MDP, onde o ambiente é explorado de maneira probabilística, como isso é...

machine-learning neural-network q-learning

8

Este é um algoritmo de aprendizado de Q ou apenas força bruta?

Eu tenho jogado com um algoritmo que aprende a jogar tictactoe. O pseudocódigo básico é: repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } } for each step in...

machine-learning neural-network reinforcement-learning q-learning

7

Por que o Q Learning diverge?

Os valores de estado do meu algoritmo Q-Learning continuam divergindo até o infinito, o que significa que meus pesos também estão divergindo. Eu uso uma rede neural para meu mapeamento de valores. Eu tentei: Recorte do "valor da ação recompensa + desconto * máximo" (máximo / min definido como 50...

machine-learning python reinforcement-learning q-learning