Aprendendo a estrutura de uma tarefa de reforço hierárquico

Venho estudando problemas de aprendizado de reforço hierárquico e, embora muitos trabalhos proponham algoritmos para o aprendizado de uma política, todos parecem supor que conhecem antecipadamente uma estrutura gráfica que descreve a hierarquia das ações no domínio. Por exemplo, O método MAXQ para aprendizado de reforço hierárquico de Dietterich descreve um gráfico de ações e subtarefas para um domínio simples de táxi, mas não como esse gráfico foi descoberto. Como você aprenderia a hierarquia deste gráfico, e não apenas a política?

Em outras palavras, usando o exemplo do artigo, se um Táxi estivesse dirigindo sem rumo, com pouco conhecimento prévio do mundo, e apenas as ações primitivas mover-esquerda / mover-direita / etc a serem executadas, como aprenderia ações de nível superior, como ir buscar pick-up? Se estou entendendo o documento corretamente (e talvez não esteja), ele propõe como atualizar a política para essas ações de alto nível, mas não como elas são formadas para começar.

machine-learning Cerin
fonte

Respostas:

De acordo com este artigo

No estado da arte atual, o projetista de um sistema RL geralmente usa conhecimento prévio sobre a tarefa para adicionar um conjunto específico de opções ao conjunto de ações primitivas disponíveis para o agente.

Consulte também a seção 6.2 Hierarquias de tarefas de aprendizagem no mesmo documento.

A primeira ideia que me vem à mente é que, se você não conhece hierarquias de tarefas, deve começar com o aprendizado de reforço não hierárquico e tentar descobrir a estrutura posteriormente ou durante o aprendizado, ou seja, você está tentando generalizar seu modelo. Para mim, essa tarefa é semelhante à técnica de fusão do modelo bayesiano para o HMM (por exemplo, veja esta tese )

Alexey Kalmykov
fonte