Q1: Existem métodos comuns ou aceitos para lidar com o ambiente não estacionário na aprendizagem por reforço em geral? P2: No meu mundo da grade, a função de recompensa muda quando um estado é visitado. A cada episódio, as recompensas são redefinidas para o estado inicial. Tudo o que eu quero que...