Parece-me que a função pode ser facilmente expressa pela função e, portanto, a função parece ser supérflua para mim. No entanto, eu sou novo no aprendizado por reforço, então acho que entendi algo errado.
Definições
O aprendizado de Q e V está no contexto dos processos de decisão de Markov . Um MDP é uma tupla de 5 tuplas com
- é um conjunto de estados (normalmente finito)
- é um conjunto de ações (geralmente finitas)
- é a probabilidade de passar do estado para o estado com a ação .
- é a recompensa imediata após passar do estado para o estado com a ação . (Parece-me que normalmente só assuntos).
- é chamado fator de desconto e determina se alguém se concentra em recompensas imediatas ( ), na recompensa total ( ) ou em alguma troca.
Uma política , de acordo com Aprendizagem por Reforço: Uma Introdução por Sutton e Barto, é uma função (isso pode ser probabilístico).
De acordo com slides de Mario Martins , a função é e a função Q é
Meus pensamentos
Os função estados que o valor total esperado (não recompensa!) De um estado no âmbito da política é.
Os função estados qual é o valor de um estado e uma ação no âmbito da política é.
Isso significa que
Direita? Então, por que temos a função de valor? (Eu acho que misturei alguma coisa)
fonte
Você está certo, a função fornece o valor de um estado e fornece o valor de uma ação em um estado (seguindo uma determinada política ). Encontrei a explicação mais clara do Q-learning e como ele funciona no livro de Tom Mitchell "Machine Learning" (1997), cap. 13, que pode ser baixado. é definido como a soma de uma série infinita, mas não é importante aqui. O que importa é a função é definida comoV Q π V Q
Isso pode parecer uma recursão ímpar no início porque está expressando o valor Q de uma ação no estado atual em termos do melhor valor Q de um estado sucessor , mas faz sentido quando você olha como o processo de backup a usa: A exploração o processo para quando atinge um estado de objetivo e coleta a recompensa, que se torna o valor Q da transição final. Agora, em um episódio de treinamento subsequente, quando o processo de exploração atingir esse estado predecessor, o processo de backup usa a igualdade acima para atualizar o valor Q atual do estado predecessor. Da próxima vez que o seuQuando o predecessor é visitado, o valor Q do estado é atualizado e assim por diante (o livro de Mitchell descreve uma maneira mais eficiente de fazer isso armazenando todos os cálculos e reproduzindo-os posteriormente). Desde que todos os estados sejam visitados infinitamente, esse processo eventualmente calcula o Q ideal
Às vezes, você verá uma taxa de aprendizado aplicada para controlar quanto Q realmente é atualizado: Observe agora que a atualização para o valor Q que dependem do valor Q atual. O livro de Mitchell também explica por que isso é e por que você precisa : é para MDPs estocásticos. Sem , toda vez que um estado, um par de ações fosse tentado, haveria uma recompensa diferente; portanto, a função Q ^ saltaria por todo o lugar e não convergiria. existe para que, como o novo conhecimento seja aceito apenas em parte.α Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a)) α α α α é definido alto para que os atuais (principalmente valores aleatórios) de Q sejam menos influentes. diminui à medida que o treinamento avança, para que novas atualizações tenham cada vez menos influência, e agora o aprendizado Q convergeα
fonte
Aqui está uma explicação mais detalhada da relação entre valor do estado e valor da ação na resposta de Aaron. Vamos primeiro dar uma olhada nas definições de função de valor e função de valor de ação em política : onde é o retorno no tempo . O relacionamento entre essas duas funções de valor pode ser derivado comoπ vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a] Gt=∑∞k=0γkRt+k+1 t vπ(s)=E[Gt|St=s]=∑gtp(gt|St=s)gt=∑gt∑ap(gt,a|St=s)gt=∑ap(a|St=s)∑gtp(gt|St=s,At=a)gt=∑ap(a|St=s)E[Gt|St=s,At=a]=∑ap(a|St=s)qπ(s,a)
A equação acima é importante. Descreve a relação entre duas funções fundamentais de valor no aprendizado por reforço. É válido para qualquer política. Além disso, se tivermos uma política determinística , então . Espero que isso seja útil para você. (para saber mais sobre a equação de otimização de Bellman https: //stats.stackexchange.vπ(s)=qπ(s,π(s)) )
fonte
A função value é uma formulação abstrata de utilidade. E a função Q é usada para o algoritmo Q-learning.
fonte