Qual é um bom recurso para se familiarizar com o aprendizado por reforço?

8

Eu estou familiarizado com o aprendizado supervisionado e não supervisionado. Eu fiz o curso SaaS feito por Andrew Ng no Coursera.org.

Estou procurando algo semelhante para o aprendizado por reforço.

Você pode recomendar alguma coisa?

reinforcement-learning getting-started Martin S
fonte

5

Para as boas respostas aqui, eu acrescentaria

Uma breve visão geral da RL : conceitos mais essenciais em um só lugar.
Outra breve visão geral , em formato de apresentação.
Ben Recht's O tour de um estrangeiro pela RL é bastante abrangente e acessível.
As equações de Bellman : centrais para toda a teoria da RL.
Gradientes de política explicados por Andrej Karpathy (mencionado em outras respostas como "pong de pixels", este é o link).

Eles mal arranham a superfície da RL, mas devem começar.

cantordust
fonte

3

Há uma lista de reprodução do YouTube (no canal DeepMind ), cujo título é Introdução ao aprendizado por reforço , que é um curso (de 10 lições) sobre aprendizado por reforço de David Silver .

Uma pessoa que acompanhou e terminou o curso escreveu (como um comentário no Youtube):

Curso excelente. Bom ritmo, exemplos suficientes para fornecer uma boa intuição e ensinado por alguém que lidera o campo na aplicação da RL em jogos.

nbro
fonte

3

Antes disso, pergunte a si mesmo se você realmente deseja aprender sobre o "aprendizado por reforço". Embora exista muita publicidade sobre o aprendizado por reforço, a aplicabilidade no mundo real do aprendizado por reforço é quase inexistente. A maioria dos cursos on-line ensina muito pouco sobre aprendizado de máquina, por isso é muito melhor se aprofundar nele, em vez de prosseguir para o aprendizado por reforço. Aprendizado por aprendizado de reforço é um pouco diferente de aprender sobre técnicas de aprendizado não supervisionado / supervisionado.

Dito isto, a maneira mais rápida de obter uma boa compreensão do aprendizado por reforço é a seguinte:

Leia a postagem no blog de Andrej Karpathy "Pong from Pixels".
Assista às palestras do Deep RL Bootcamp .
Para entender a matemática por trás dessas técnicas, consulte Aprendizado por reforço de Sutton e Barto : uma introdução .
Leia artigos relevantes (jogos, etc.).

PS: Certifique-se de que você seja cuidadoso com o básico das redes neurais, pois a maioria dos trabalhos atuais em RL envolve o uso de DNNs de alguma forma ou de outra maneira como aproximadores.

riemann77
fonte

real-world applicability of reinforcement learning is almost non-existent AlphaGo foi treinado com aprendizado por reforço.

cantordust

Obrigado, o que eu mais gosto no aprendizado por reforço é que ele pode melhorar a si mesmo apenas executando a tarefa repetidamente. Nenhuma supervisão é necessária. Somente o modelo precisa descrever o problema corretamente.

18768 Martin S de

11

@cantordust, verifique alexirpan.com/2018/02/14/rl-hard.html

riemann77

@thecomplexitytheorist Sim, eu estou ciente desse post, e sim, há dificuldades associadas ao RL (como qualquer outro método de ML). No entanto, essas dificuldades não implicam que sua aplicabilidade seja nula. Outro exemplo de sucesso (também mencionado no post) é a melhoria da eficiência de resfriamento dos data centers do Google em 40% - dificilmente insignificante.

Cantordust

11

@antonust, você deve ler esse post completamente, não há aprendizado de "reforço" envolvido na "melhoria da eficiência de refrigeração", eles mencionaram claramente que fizeram previsões com base em dados anteriores de consumo de energia.

riemann77

2

Vi recentemente um curso da Microsoft no edx. É chamado 'Aprendizado por Reforço Explicado'.

Aqui está o link: https://www.edx.org/course/reinforcement-learning-explained-0 Isso não é muito abrangente, mas pelo menos fornece um bom ponto de partida.

amassar
fonte

1

Eu diria que este post é uma leitura obrigatória:

https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning-and-DQN.html

Borislav Markov
fonte

Qual é um bom recurso para se familiarizar com o aprendizado por reforço?

Respostas: