Perguntas com a marcação «reinforcement-learning»

29

Qual é a diferença entre o aprendizado de reforço sem modelo e com base em modelo?

Qual é a diferença entre o aprendizado de reforço sem modelo e com base em modelo? Parece-me que qualquer aluno sem modelo, aprendendo por tentativa e erro, poderia ser reformulado como baseado em modelo. Nesse caso, quando os alunos sem modelo seriam

21

Qual é a relação entre os métodos Q-learning e gradientes de políticas?

Tanto quanto eu entendo, Q-learning e gradientes de políticas (PG) são as duas principais abordagens usadas para resolver problemas de RL. Enquanto o Q-learning visa predizer a recompensa de uma determinada ação executada em um determinado estado, os gradientes das políticas predizem diretamente a...

reinforcement-learning q-learning policy-gradients comparison

20

Como lidar com movimentos inválidos no aprendizado por reforço?

Eu quero criar uma IA que possa jogar cinco em linha / gomoku. Como mencionei no título, quero usar o aprendizado por reforço para isso. Eu uso o método gradiente de política , ou seja, REFORÇAR, com a linha de base. Para a aproximação das funções de valor e política, eu uso uma rede neural ....

machine-learning reinforcement-learning game-ai combinatorial-games

14

O que é eficiência da amostra e como a amostragem importante pode ser usada para alcançá-la?

Por exemplo, o título deste artigo é: "Exemplo de crítica eficiente de ator com repetição de experiência". O que é eficiência da amostra e como a amostragem importante pode ser usada para

reinforcement-learning statistical-ai importance-sampling

14

Como definir estados na aprendizagem por reforço?

Estou estudando o aprendizado por reforço e suas variantes. Estou começando a entender como os algoritmos funcionam e como eles se aplicam a um MDP. O que não entendo é o processo de definição dos estados do MDP. Na maioria dos exemplos e tutoriais, eles representam algo simples como um quadrado em...

reinforcement-learning

13

Por que você não vê camadas de evasão nos exemplos de aprendizado por reforço?

Eu estive estudando o aprendizado por reforço e, especificamente, brincando com a criação de meus próprios ambientes para usar com o OpenAI Gym AI. Estou usando agentes do projeto stable_baselines para testar com ele. Uma coisa que notei em praticamente todos os exemplos de RL é que nunca parece...

machine-learning reinforcement-learning overfitting dropout

12

Quando devo usar o Aprendizado por reforço contra o controle PID?

Ao projetar soluções para problemas como o Lunar Lander no OpenAIGym , o Aprendizado por Reforço é um meio tentador de fornecer ao agente o controle adequado da ação, a fim de pousar com sucesso. Mas quais são as instâncias em que algoritmos do sistema de controle, como controladores PID ,...

reinforcement-learning ai-design control-theory

12

Existem outras aplicações de aprendizado por reforço além dos jogos?

Existe uma maneira de ensinar aprendizado reforçado em aplicativos que não sejam jogos? Os únicos exemplos que posso encontrar na Internet são de agentes de jogos. Entendo que os VNCs controlam a entrada dos jogos através da rede de reforço. É possível configurar isso com um software CAD, por...

reinforcement-learning applications

12

Por que o Q-learning não converge ao usar a aproximação de função?

É garantido que o algoritmo tabular de aprendizado de Q encontre a função QQQ ideal , Q∗Q∗Q^* , desde que sejam satisfeitas as seguintes condições (condições de Robbins-Monro ) em relação à taxa de aprendizado ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) =...

reinforcement-learning q-learning deep-rl proofs function-approximation

12

Por que o DQN requer duas redes diferentes?

Eu estava passando por essa implementação do DQN e vejo que nas linhas 124 e 125 foram inicializadas duas redes Q diferentes. Pelo meu entendimento, acho que uma rede prediz a ação apropriada e a segunda rede prediz os valores Q de destino para encontrar o erro de Bellman. Por que não podemos...

reinforcement-learning q-learning dqn

12

Como implementar um espaço de ação restrito no aprendizado por reforço?

Estou codificando um modelo de aprendizado por reforço com um agente de PPO, graças à muito boa biblioteca Tensorforce , construída sobre o Tensorflow. A primeira versão era muito simples e agora estou mergulhando em um ambiente mais complexo, onde nem todas as ações estão disponíveis a cada...

deep-learning reinforcement-learning

11

Como manter um pesquisador atualizado na comunidade ML / RL?

Como aluno que deseja trabalhar no aprendizado de máquina, gostaria de saber como é possível iniciar meus estudos e como segui-lo para manter-me atualizado. Por exemplo, estou disposto a trabalhar nos problemas de RL e MAB, mas existem grandes literaturas sobre esses tópicos. Além disso, esses...

machine-learning reinforcement-learning research markov-decision-process

11

Por que a taxa de desconto no algoritmo REINFORCE aparece duas vezes?

Eu estava lendo o livro Reinforcement Learning: An Introduction, de Richard S. Sutton e Andrew G. Barto (rascunho completo, 5 de novembro de 2017). Na página 271, é apresentado o pseudocódigo do método episódico de política de gradiente de Monte-Carlo. Olhando para esse pseudocódigo, não consigo...

reinforcement-learning algorithm rl-an-introduction reinforce

11

Como os gradientes de políticas podem ser aplicados no caso de várias ações contínuas?

O Trusted Region Policy Optimization (TRPO) e o Proximal Policy Optimization (PPO) são dois algoritmos avançados de gradientes de políticas. Ao usar uma única ação contínua, normalmente, você usaria alguma distribuição de probabilidade (por exemplo, Gaussiana) para a função de perda. A versão...

deep-learning reinforcement-learning trpo

10

A política ideal é sempre estocástica se o ambiente também é estocástico?

A política ideal é sempre estocástica (ou seja, um mapa dos estados para uma distribuição de probabilidade sobre as ações) se o ambiente também é estocástico? Intuitivamente, se o ambiente for determinístico (ou seja, se o agente estiver em um estado e tomar ação , então o próximo estado será...

reinforcement-learning stochastic-policy deterministic-policy policy environment

10

O que é o operador Bellman na aprendizagem por reforço?

Em matemática, a palavra operador pode se referir a vários conceitos distintos, mas relacionados. Um operador pode ser definido como uma função entre dois espaços vetoriais, pode ser definido como uma função em que o domínio e o codomain são iguais ou pode ser definido como uma função de funções...

reinforcement-learning terminology math

9

A pesquisa em árvore Monte Carlo se qualifica como aprendizado de máquina?

Para o meu melhor entendimento, o algoritmo MCTS (Monte Carlo Tree Search) é uma alternativa ao minimax para pesquisar uma árvore de nós. Ele funciona escolhendo um movimento (geralmente aquele com maior chance de ser o melhor) e, em seguida, executando um playout aleatório em movimento para ver...

machine-learning reinforcement-learning game-ai monte-carlo-tree-search alphazero

9

Por que a linha de base está condicionada ao estado em alguma etapa do tempo?

Na robótica, a técnica de aprendizado por reforço é usada para encontrar o padrão de controle de um robô. Infelizmente, a maioria dos métodos de gradiente de políticas é estatisticamente tendenciosa, o que poderia levar o robô a uma situação insegura, consulte a página 2 de Jan Peters e Stefan...

reinforcement-learning

9

Algumas dúvidas sobre a aplicação do aprendizado por reforço em jogos como xadrez

Eu inventei um jogo de tabuleiro semelhante ao xadrez. Eu construí um mecanismo para que ele possa funcionar de forma autônoma. O mecanismo é basicamente uma árvore de decisão. É composta por: Uma função de pesquisa que em cada nó encontra todos os movimentos legais possíveis Uma função de...

reinforcement-learning game-ai game-theory combinatorial-games negamax

8

Conhecer os MDPs de espaços contínuos de estado / ação e Aprendizagem por Reforço

A maioria das introduções ao campo dos MDPs e da aprendizagem por reforço se concentra exclusivamente em domínios em que as variáveis de espaço e ação são números inteiros (e finitos). Dessa forma, somos apresentados rapidamente à Iteração de Valor, Q-Learning e similares. No entanto, as...

research reinforcement-learning control-problem