Quando devo usar o Aprendizado por reforço contra o controle PID?

Ao projetar soluções para problemas como o Lunar Lander no OpenAIGym , o Aprendizado por Reforço é um meio tentador de fornecer ao agente o controle adequado da ação, a fim de pousar com sucesso. Mas quais são as instâncias em que algoritmos do sistema de controle, como controladores PID ,...