Ao projetar soluções para problemas como o Lunar Lander no OpenAIGym , o Aprendizado por Reforço é um meio tentador de fornecer ao agente o controle adequado da ação, a fim de pousar com sucesso.
Mas quais são as instâncias em que algoritmos do sistema de controle, como controladores PID , executariam apenas um trabalho adequado, se não melhor que o Aprendizado por Reforço?
Questões como essa fazem um ótimo trabalho ao abordar a teoria dessa questão, mas pouco fazem para abordar o componente prático.
Como engenheiro de Inteligência Artificial, que elementos de um domínio de problema devem me sugerir que um controlador PID é insuficiente para resolver um problema, e um algoritmo de Aprendizado por Reforço deve ser usado (ou vice-versa)?
reinforcement-learning
ai-design
control-theory
SeeDerekEngineer
fonte
fonte
Respostas:
Eu acho que os comentários estão basicamente no caminho certo.
Os controladores PID são úteis para encontrar políticas ideais em sistemas dinâmicos contínuos e, freqüentemente, esses domínios também são usados como benchmarks para RL, precisamente porque existe uma política ideal facilmente derivada. No entanto, na prática, você obviamente preferiria um controlador PID para qualquer domínio no qual possa projetar facilmente um: os comportamentos do controlador são bem compreendidos, enquanto as soluções RL geralmente são difíceis de interpretar.
Onde a RL brilha é em tarefas nas quais sabemos como é o bom comportamento (ou seja, conhecemos a função de recompensa) e como são as entradas do sensor (ou seja, podemos descrever completa e precisamente numericamente um determinado estado), mas temos pouco ou não faz ideia do que realmente queremos que o agente faça para obter essas recompensas.
Aqui está um bom exemplo:
Se eu quisesse fazer com que um agente manobrasse um avião da frente de um avião inimigo com padrões de movimento conhecidos para trás, usando a menor quantidade de combustível, eu preferiria usar um controlador PID .
Se eu quisesse fazer um agente controlar um avião e derrubar um avião inimigo com combustível suficiente para pousar, mas sem uma descrição formal de como o avião inimigo poderia atacar (talvez um especialista em humanos o pilote em simulações contra nosso agente) , Eu preferiria muito RL .
fonte