Venho estudando problemas de aprendizado de reforço hierárquico e, embora muitos trabalhos proponham algoritmos para o aprendizado de uma política, todos parecem supor que conhecem antecipadamente uma estrutura gráfica que descreve a hierarquia das ações no domínio. Por exemplo, O método MAXQ para aprendizado de reforço hierárquico de Dietterich descreve um gráfico de ações e subtarefas para um domínio simples de táxi, mas não como esse gráfico foi descoberto. Como você aprenderia a hierarquia deste gráfico, e não apenas a política?
Em outras palavras, usando o exemplo do artigo, se um Táxi estivesse dirigindo sem rumo, com pouco conhecimento prévio do mundo, e apenas as ações primitivas mover-esquerda / mover-direita / etc a serem executadas, como aprenderia ações de nível superior, como ir buscar pick-up? Se estou entendendo o documento corretamente (e talvez não esteja), ele propõe como atualizar a política para essas ações de alto nível, mas não como elas são formadas para começar.
fonte