Qual é um bom recurso para se familiarizar com o aprendizado por reforço?

8

Eu estou familiarizado com o aprendizado supervisionado e não supervisionado. Eu fiz o curso SaaS feito por Andrew Ng no Coursera.org.

Estou procurando algo semelhante para o aprendizado por reforço.

Você pode recomendar alguma coisa?

Martin S
fonte

Respostas:

5

Para as boas respostas aqui, eu acrescentaria

Eles mal arranham a superfície da RL, mas devem começar.

cantordust
fonte
3

Há uma lista de reprodução do YouTube (no canal DeepMind ), cujo título é Introdução ao aprendizado por reforço , que é um curso (de 10 lições) sobre aprendizado por reforço de David Silver .

Uma pessoa que acompanhou e terminou o curso escreveu (como um comentário no Youtube):

Curso excelente. Bom ritmo, exemplos suficientes para fornecer uma boa intuição e ensinado por alguém que lidera o campo na aplicação da RL em jogos.

nbro
fonte
3

Antes disso, pergunte a si mesmo se você realmente deseja aprender sobre o "aprendizado por reforço". Embora exista muita publicidade sobre o aprendizado por reforço, a aplicabilidade no mundo real do aprendizado por reforço é quase inexistente. A maioria dos cursos on-line ensina muito pouco sobre aprendizado de máquina, por isso é muito melhor se aprofundar nele, em vez de prosseguir para o aprendizado por reforço. Aprendizado por aprendizado de reforço é um pouco diferente de aprender sobre técnicas de aprendizado não supervisionado / supervisionado.

Dito isto, a maneira mais rápida de obter uma boa compreensão do aprendizado por reforço é a seguinte:

  1. Leia a postagem no blog de Andrej Karpathy "Pong from Pixels".

  2. Assista às palestras do Deep RL Bootcamp .

  3. Para entender a matemática por trás dessas técnicas, consulte Aprendizado por reforço de Sutton e Barto : uma introdução .

  4. Leia artigos relevantes (jogos, etc.).

PS: Certifique-se de que você seja cuidadoso com o básico das redes neurais, pois a maioria dos trabalhos atuais em RL envolve o uso de DNNs de alguma forma ou de outra maneira como aproximadores.

riemann77
fonte
real-world applicability of reinforcement learning is almost non-existent AlphaGo foi treinado com aprendizado por reforço.
cantordust
Obrigado, o que eu mais gosto no aprendizado por reforço é que ele pode melhorar a si mesmo apenas executando a tarefa repetidamente. Nenhuma supervisão é necessária. Somente o modelo precisa descrever o problema corretamente.
18768 Martin S de
11
@cantordust, verifique alexirpan.com/2018/02/14/rl-hard.html
riemann77
@thecomplexitytheorist Sim, eu estou ciente desse post, e sim, há dificuldades associadas ao RL (como qualquer outro método de ML). No entanto, essas dificuldades não implicam que sua aplicabilidade seja nula. Outro exemplo de sucesso (também mencionado no post) é a melhoria da eficiência de resfriamento dos data centers do Google em 40% - dificilmente insignificante.
Cantordust
11
@antonust, você deve ler esse post completamente, não há aprendizado de "reforço" envolvido na "melhoria da eficiência de refrigeração", eles mencionaram claramente que fizeram previsões com base em dados anteriores de consumo de energia.
riemann77