Conhecer os MDPs de espaços contínuos de estado / ação e Aprendizagem por Reforço

8

A maioria das introduções ao campo dos MDPs e da aprendizagem por reforço se concentra exclusivamente em domínios em que as variáveis ​​de espaço e ação são números inteiros (e finitos). Dessa forma, somos apresentados rapidamente à Iteração de Valor, Q-Learning e similares.

No entanto, as aplicações mais interessantes (por exemplo, helicópteros voadores ) de RL e MDPs envolvem espaço de estado e espaços de ação contínuos. Gostaria de ir além das apresentações básicas e focar nesses casos, mas não sei como chegar lá.

Que áreas eu preciso conhecer ou estudar para entender esses casos em profundidade?

CarrKnight
fonte

Respostas: