Estou tentando entender o famoso artigo "Playing Atari with Deep Reforcement Learning" ( pdf ). Não estou claro sobre a diferença entre época e episódio . No algoritmo , o loop externo passa por episódios , enquanto na figura o eixo x é marcado como época . No contexto do aprendizado por reforço, não estou claro o que significa uma época. Uma época é um loop externo ao redor do loop do episódio?
neural-networks
terminology
reinforcement-learning
q-learning
DE ANÚNCIOS
fonte
fonte
Respostas:
No artigo que você menciona, eles parecem ser mais flexíveis em relação ao significado de época, pois apenas definem uma época como sendo uma certa quantidade de atualizações de peso. Portanto, você pode ver uma época como sendo um loop externo em torno do loop do episódio, conforme mencionado na pergunta.
fonte