Perguntas com a marcação «reinforcement-learning»

79

Qual é a diferença entre aprendizado fora da política e dentro da política?

O site de inteligência artificial define o aprendizado fora da política e dentro da política da seguinte maneira: "Um aluno fora da política aprende o valor da política ideal independentemente das ações do agente. Q-learning é um aluno fora da política. Um aluno fora da política aprende o valor...

machine-learning reinforcement-learning artificial-intelligence

43

Compreendendo o papel do fator de desconto na aprendizagem por reforço

Estou me ensinando sobre o aprendizado por reforço e tentando entender o conceito de recompensa com desconto. Portanto, a recompensa é necessária para dizer ao sistema quais pares de ação e estado são bons e quais são ruins. Mas o que não entendo é por que a recompensa com desconto é necessária....

machine-learning reinforcement-learning

32

Por que não existem mecanismos de aprendizado de reforço profundo para xadrez, semelhantes ao AlphaGo?

Há muito tempo os computadores conseguem jogar xadrez usando uma técnica de "força bruta", procurando até uma certa profundidade e depois avaliando a posição. O computador AlphaGo, no entanto, usa apenas uma RNA para avaliar as posições (ele não faz nenhuma pesquisa em profundidade até onde eu...

neural-networks deep-learning reinforcement-learning games

30

Aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço: princípios básicos do fluxo de trabalho

Aprendizado supervisionado 1) Um humano constrói um classificador com base na entrada e saída de dados 2) Esse classificador é treinado com um conjunto de dados de treinamento 3) Esse classificador é testado com um conjunto de dados de teste 4) Implantação se a saída for satisfatória Para ser...

machine-learning unsupervised-learning supervised-learning reinforcement-learning

27

Melhor algoritmo de bandido?

O algoritmo de bandido mais conhecido é o limite superior de confiança (UCB), que popularizou essa classe de algoritmos. Desde então, presumo que agora existem algoritmos melhores. Qual é o melhor algoritmo atual (em termos de desempenho empírico ou limites teóricos)? Esse algoritmo é ideal em...

machine-learning algorithms theory reinforcement-learning multiarmed-bandit

24

Análise diária de séries temporais

Estou tentando fazer análise de séries temporais e sou novo nesse campo. Eu tenho contagem diária de um evento de 2006-2009 e quero ajustar um modelo de série temporal a ele. Aqui está o progresso que eu fiz: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) O...

r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

22

Como você projetaria um sistema de aprendizado de máquina para jogar o Angry Birds?

Depois de jogar muito Angry Birds, comecei a observar minhas próprias estratégias. Acontece que eu desenvolvi uma abordagem muito específica para obter 3 estrelas em cada nível. Isso me fez pensar nos desafios de desenvolver um sistema de aprendizado de máquina capaz de jogar o Angry Birds....

machine-learning reinforcement-learning

20

O que é aprendizado recorrente de reforço

Recentemente, me deparei com a palavra "Aprendizagem por Reforço Recorrente". Entendo o que é "Rede Neural Recorrente" e o que é "Aprendizagem por Reforço", mas não consegui encontrar muita informação sobre o que é uma "Aprendizagem por Reforço Recorrente". Alguém pode me explicar o que é um...

machine-learning reinforcement-learning

18

como fazer uma função de recompensa na aprendizagem por reforço

Enquanto estudava o aprendizado por reforço, deparei-me com muitas formas da função de recompensa: , e até uma função de recompensa que depende apenas do estado atual. Dito isto, percebi que não é muito fácil 'criar' ou 'definir' uma função de recompensa.R ( s , a )R(s,uma)R(s,a)R ( s , a ,...

machine-learning reinforcement-learning

18

Por que o Q-Learning usa epsilon-greedy durante os testes?

No artigo da DeepMind sobre o Deep Q-Learning para videogames da Atari ( aqui ), eles usam um método épsilon-ganancioso para exploração durante o treinamento. Isso significa que, quando uma ação é selecionada no treinamento, ela é escolhida como a ação com o valor q mais alto ou uma ação aleatória....

machine-learning reinforcement-learning q-learning deep-rl

18

Quando escolher SARSA vs. Q Learning

SARSA e Q Learning são algoritmos de aprendizado por reforço que funcionam de maneira semelhante. A diferença mais marcante é que o SARSA está na política enquanto o Q Learning está fora da política. As regras de atualização são as seguintes: Q Aprendizado: Q ( st, umt) ← Q ( st, umt) + α [ rt +...

reinforcement-learning

17

Por que a letra Q foi escolhida no Q-learning?

Por que a letra Q foi escolhida em nome do Q-learning? A maioria das letras é escolhida como uma abreviação, como ππ\pi política e vvv significa valor. Mas não acho que Q seja uma abreviação de nenhuma

terminology reinforcement-learning history q-learning

16

A aprendizagem supervisionada é um subconjunto da aprendizagem por reforço?

Parece que a definição de aprendizado supervisionado é um subconjunto de aprendizado por reforço, com um tipo específico de função de recompensa que se baseia em dados rotulados (em oposição a outras informações no ambiente). Esse é um retrato

machine-learning terminology reinforcement-learning supervised-learning definition

15

Em que tipo de situações da vida real podemos usar um algoritmo de bandido de vários braços?

Bandidos de vários braços funcionam bem em situações em que você tem opções e não tem certeza de qual delas maximizará seu bem-estar. Você pode usar o algoritmo para algumas situações da vida real. Como exemplo, o aprendizado pode ser um bom campo: Se uma criança está aprendendo carpintaria e é...

algorithms reinforcement-learning multiarmed-bandit

14

Perguntas sobre Q-Learning usando redes neurais

Eu implementei o Q-Learning conforme descrito em, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Para aprox. Q (S, A) Eu uso uma estrutura de rede neural como a seguir, Ativação sigmóide Entradas, número de entradas + 1 para neurônios de Ação (Todas as Entradas...

machine-learning neural-networks reinforcement-learning

14

Qual é a diferença entre episódio e época no aprendizado profundo do Q?

Estou tentando entender o famoso artigo "Playing Atari with Deep Reforcement Learning" ( pdf ). Não estou claro sobre a diferença entre época e episódio . No algoritmo , o loop externo passa por episódios , enquanto na figura o eixo x é marcado como época . No contexto do aprendizado por reforço,...

neural-networks terminology reinforcement-learning q-learning

14

GAM vs LOESS vs splines

Contexto : Eu quero desenhar uma linha em um gráfico de dispersão que não aparece paramétrica, portanto, eu estou usando geom_smooth()no ggplotno R. Ele retorna automaticamente, geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use...

r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

13

Por que o aprendizado por reforço profundo é instável?

No artigo de 2015 da DeepMind sobre aprendizado profundo por reforço, ele afirma que "as tentativas anteriores de combinar RL com redes neurais falharam amplamente devido ao aprendizado instável". O artigo lista algumas causas disso, com base nas correlações entre as observações. Por favor, alguém...

machine-learning neural-networks deep-learning reinforcement-learning

13

Algoritmo ideal para resolver problemas de bandidos n-armados?

Eu li sobre uma série de algoritmos para resolver problemas de bandidos n-armados como -greedy, softmax e UCB1, mas eu estou tendo alguns problemas triagem através de qual abordagem é melhor para minimizar o arrependimento.ϵϵ\epsilon Existe um algoritmo ideal conhecido para resolver o problema dos...

machine-learning reinforcement-learning multiarmed-bandit

13

Por que sempre há pelo menos uma política que é melhor que ou igual a todas as outras políticas?

Aprendizado por Reforço: Uma Introdução. Segunda edição, em andamento ., Richard S. Sutton e Andrew G. Barto (c) 2012, pp. 67-68. Resolver uma tarefa de aprendizado por reforço significa, basicamente, encontrar uma política que obtenha muitas recompensas a longo prazo. Para MDPs finitos, podemos...

markov-process reinforcement-learning