Perguntas com a marcação «reinforcement-learning»

12

Por que a repetição da experiência requer algoritmo fora da política?

No artigo que apresentou o DQN " Playing Atari with Deep Reforcement Learning ", mencionou: Observe que, ao aprender pela repetição da experiência, é necessário aprender fora da política (porque nossos parâmetros atuais são diferentes daqueles usados para gerar a amostra), o que motiva a...

reinforcement-learning

12

Traduzindo o problema de aprendizado de máquina na estrutura de regressão

Suponha que eu tenha um painel de variáveis explicativas XitXitX_{it} , para i=1...Ni=1...Ni = 1 ... N , t=1...Tt=1...Tt = 1 ... T , bem como um vector de variáveis dependentes resultado binário YiTYiTY_{iT} . Então YYY é observado apenas no tempo final TTT e não em nenhum momento anterior. O...

regression machine-learning reinforcement-learning

12

Quando os métodos de Monte Carlo são preferidos aos de diferença temporal?

Ultimamente tenho pesquisado muito sobre o aprendizado por reforço. Eu segui o aprendizado de reforço de Sutton & Barto : uma introdução para a maior parte disso. Sei o que são os Processos de Decisão de Markov e como o aprendizado de Programação Dinâmica (DP), Monte Carlo e Diferença Temporal...

monte-carlo reinforcement-learning temporal-difference

12

Como ajustar pesos em valores Q com aproximação de função linear

No aprendizado por reforço, a aproximação de função linear é freqüentemente usada quando grandes espaços de estado estão presentes. (Quando as tabelas de consulta se tornam inviáveis.) A forma do valor com aproximação da função linear é dada porQ -Q-Q- Q ( s , a ) = w1 1f1 1( s , a ) + w2f2( s ,...

machine-learning feature-selection reinforcement-learning

11

Qual a relação entre teoria dos jogos e aprendizado por reforço?

Estou interessado em (Deep) Reinforcement Learning (RL) . Antes de mergulhar neste campo, devo fazer um curso em Teoria dos Jogos (GT) ? Como o GT e o RL estão

deep-learning reinforcement-learning game-theory

11

O que é política de distribuição no artigo da AlphaGo?

O jornal está aqui . A política de implementação ... é uma política linear softmax baseada em recursos locais rápidos, calculados de forma incremental e baseados em padrões locais ... Não entendo o que é política de distribuição e como ela se relaciona com a rede de políticas de seleção de uma...

machine-learning monte-carlo reinforcement-learning games

11

Q-learning com Rede Neural como aproximação de função

Estou tentando usar uma rede neural para aproximar o valor de Q no aprendizado de Q, como em Perguntas sobre Q-Learning usando redes neurais . Conforme sugerido na primeira resposta, estou usando uma função de ativação linear para a camada de saída, enquanto ainda estou usando a função de ativação...

neural-networks reinforcement-learning

10

Por que o algoritmo de iteração de política converge para a função ideal de política e valor?

Eu estava lendo as notas da aula de Andrew Ng sobre aprendizado por reforço e estava tentando entender por que a iteração de políticas convergiu para a função de valor ideal e a política ideal .V∗V∗V^*π∗π∗\pi^* Lembre-se de que a iteração da política é: Initialize π randomlyRepeat{Let V:=Vπ \for...

reinforcement-learning policy-iteration

10

Um modelo de P (Y | X) pode ser treinado por descida de gradiente estocástico a partir de amostras não-iid de P (X) e de amostras iid de P (Y | X)?

Ao treinar um modelo parametrizado (por exemplo, para maximizar a probabilidade) por meio de descida estocástica do gradiente em alguns conjuntos de dados, geralmente é assumido que as amostras de treinamento são extraídas da distribuição de dados de treinamento. Portanto, se o objetivo é modelar...

machine-learning conditional-probability reinforcement-learning gradient-descent

10

Como exatamente calcular a função de perda profunda do Q-Learning?

Tenho uma dúvida sobre como exatamente é treinada a função de perda de uma Deep Q-Learning Network. Estou usando uma rede feedforward de 2 camadas com camada de saída linear e relu camadas ocultas. Vamos supor que eu tenho 4 ações possíveis. Portanto, a saída da minha rede para o estado atual é ....

least-squares deep-learning loss-functions reinforcement-learning q-learning

9

Como interpreto uma curva de sobrevivência do modelo de risco Cox?

Como você interpreta uma curva de sobrevivência a partir do modelo de risco proporcional cox? Neste exemplo de brinquedo, suponha que tenhamos um modelo de risco proporcional ao cox na agevariável dos kidneydados e gere a curva de sobrevivência. library(survival) fit <- coxph(Surv(time,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Visão geral sobre algoritmos de aprendizado por reforço

Atualmente, estou procurando uma Visão geral sobre algoritmos de aprendizado por reforço e talvez uma classificação deles. Mas, ao lado de Sarsa e Q-Learning + Deep Q-Learning, não consigo encontrar nenhum algoritmo popular. A Wikipedia fornece uma visão geral sobre diferentes métodos gerais de...

reinforcement-learning q-learning

9

Qual a eficiência do Q-learning com redes neurais quando há uma unidade de saída por ação?

Antecedentes: Estou usando a aproximação do valor Q da Rede Neural na minha tarefa de aprendizado por reforço. A abordagem é exatamente a mesma descrita nesta pergunta , porém a pergunta em si é diferente. Nesta abordagem, o número de saídas é o número de ações que podemos executar. E, em...

machine-learning neural-networks reinforcement-learning q-learning

9

Função de perda crítico-ator na aprendizagem por reforço

No aprendizado crítico-ator para aprendizado reforçado, eu entendo que você tem um "ator" que está decidindo a ação a ser tomada e um "crítico" que avalia essas ações; no entanto, estou confuso sobre o que a função de perda está realmente dizendo mim. Na página 274 do livro de Sutton e Barton...

machine-learning reinforcement-learning actor-critic

9

Aprendizado por reforço em ambiente não estacionário

Q1: Existem métodos comuns ou aceitos para lidar com o ambiente não estacionário na aprendizagem por reforço em geral? P2: No meu mundo da grade, a função de recompensa muda quando um estado é visitado. A cada episódio, as recompensas são redefinidas para o estado inicial. Tudo o que eu quero que...

markov-process reinforcement-learning stationarity q-learning

9

Algum código de exemplo do algoritmo REINFORCE proposto por Williams?

Alguém conhece o exemplo de um algoritmo proposto por Williams no artigo "Uma classe de algoritmos de estimativa de gradiente para aprendizado por reforço em redes neurais"

reinforcement-learning

9

Por que (e quando) é preciso aprender a função de recompensa com amostras no aprendizado por reforço?

No aprendizado por reforço, temos uma função de recompensa que informa ao agente o desempenho de suas ações e estados atuais. Em algumas configurações gerais, a função de recompensa é uma função de três variáveis: Estado atualSSS Ação atual no estado atualπ(s)=aπ(s)=a\pi(s) = a Próximo...

machine-learning reinforcement-learning

8

Computando a atualização do gradiente de ator no algoritmo DDPG (Deep Deterministic Policy Gradient)

Esta pergunta é referente ao documento Deepmind sobre DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . A maioria (todas?) Das implementações do algoritmo DDPG que eu vi computam a atualização do gradiente na rede do ator por

machine-learning neural-networks deep-learning reinforcement-learning

8

Por que não há probabilidade de transição no Q-Learning (aprendizado por reforço)?

No aprendizado por reforço, nosso objetivo é otimizar a função de valor de estado ou função de valor de ação, definidas da seguinte forma: Vπs= ∑ p ( s′| s,π( s ) ) [ r ( s′| s,π( s ) ) + γVπ( s′) ] = Eπ[ r ( s′|s,a)+γVπ(s′)|s0= s

reinforcement-learning q-learning

8

Encontre distribuição e transforme em distribuição normal

Eu tenho dados que descrevem com que frequência um evento ocorre durante uma hora ("número por hora", nph) e quanto tempo os eventos duram ("duração em segundos por hora", dph). Estes são os dados originais: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732,...

normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution