Quando devo usar o Aprendizado por reforço contra o controle PID?

12

Ao projetar soluções para problemas como o Lunar Lander no OpenAIGym , o Aprendizado por Reforço é um meio tentador de fornecer ao agente o controle adequado da ação, a fim de pousar com sucesso.

Mas quais são as instâncias em que algoritmos do sistema de controle, como controladores PID , executariam apenas um trabalho adequado, se não melhor que o Aprendizado por Reforço?

Questões como essa fazem um ótimo trabalho ao abordar a teoria dessa questão, mas pouco fazem para abordar o componente prático.

Como engenheiro de Inteligência Artificial, que elementos de um domínio de problema devem me sugerir que um controlador PID é insuficiente para resolver um problema, e um algoritmo de Aprendizado por Reforço deve ser usado (ou vice-versa)?

SeeDerekEngineer
fonte
A idéia básica que tenho sobre o PID diz que não é fácil projetar. Tem muitas integrais e diferenciais envolvidos. Portanto, essa é basicamente a mesma idéia de quando você substitui as estatísticas pelas abordagens de ML. Sistemas de controle é definitivamente impecável, mas é muito trabalho.
DuttaA
2
na verdade, não é muito trabalho, é um padrão bastante comum na indústria. Usando ferramentas modernas de design de sistemas como MATLAB, você pode ajustar o PID ou qualquer outro controlador relativamente fácil para satisfazer suas necessidades. O aprendizado por reforço não é aplicado na prática, pois precisa de abundância de dados e não há garantias teóricas como as da teoria clássica de controle. A propósito, design contoller não envolve trabalhar diretamente com integrais / diferenciais, para sistemas lineares todo o trabalho é feito no domínio Laplace que envolve manipulações algébricas simples
Brale_
@Brale_, mas ainda envolve muito conhecimento teórico. O domínio Laplace apenas simplifica o diferencial, mas você precisa saber como projetar coisas (pólos e zeros) para que os sistemas não se tornem instáveis. É muito difícil visualizar para mim como essas coisas realmente funcionam.
22719 DuttaA
2
Como uma boa regra geral que me ajudou em projetos anteriores, se você não conseguir explicar a política ideal (PID, RL ou outra) em algumas frases, os PIDs serão realmente muito difíceis. Qual é a política ideal para o Pacman?
Jaden Travnik

Respostas:

5

Eu acho que os comentários estão basicamente no caminho certo.

Os controladores PID são úteis para encontrar políticas ideais em sistemas dinâmicos contínuos e, freqüentemente, esses domínios também são usados ​​como benchmarks para RL, precisamente porque existe uma política ideal facilmente derivada. No entanto, na prática, você obviamente preferiria um controlador PID para qualquer domínio no qual possa projetar facilmente um: os comportamentos do controlador são bem compreendidos, enquanto as soluções RL geralmente são difíceis de interpretar.

Onde a RL brilha é em tarefas nas quais sabemos como é o bom comportamento (ou seja, conhecemos a função de recompensa) e como são as entradas do sensor (ou seja, podemos descrever completa e precisamente numericamente um determinado estado), mas temos pouco ou não faz ideia do que realmente queremos que o agente faça para obter essas recompensas.

Aqui está um bom exemplo:

  • Se eu quisesse fazer com que um agente manobrasse um avião da frente de um avião inimigo com padrões de movimento conhecidos para trás, usando a menor quantidade de combustível, eu preferiria usar um controlador PID .

  • Se eu quisesse fazer um agente controlar um avião e derrubar um avião inimigo com combustível suficiente para pousar, mas sem uma descrição formal de como o avião inimigo poderia atacar (talvez um especialista em humanos o pilote em simulações contra nosso agente) , Eu preferiria muito RL .

John Doucette
fonte