Exemplos reais de processos de decisão de Markov

20

Eu assisti muitos vídeos tutoriais e eles têm a mesma aparência. Este, por exemplo: https://www.youtube.com/watch?v=ip4iSMRW5X4

Eles explicam estados, ações e probabilidades que estão bem. A pessoa explica tudo bem, mas eu simplesmente não consigo entender o que seria usado na vida real. Ainda não encontrei nenhuma lista. O mais comum que vejo é o xadrez.

Pode ser usado para prever coisas? Se sim, que tipos de coisas? Consegue encontrar padrões entre quantidades infinitas de dados? O que esse algoritmo pode fazer por mim.

Bônus: Também parece que o MDP é tudo sobre passar de um estado para outro, isso é verdade?

Karl Morrison
fonte

Respostas:

28

De fato, um processo de decisão markoviano tem a ver com a passagem de um estado para outro e é usado principalmente para planejamento e tomada de decisão .

A teoria

Apenas repetindo a teoria rapidamente, um MDP é:

MDP=S,UMA,T,R,γ

onde S são os estados, UMA as ações, T as probabilidades de transição (ou seja, as probabilidades Pr(s|s,uma) de ir de um estado para outro, dada uma ação), R as recompensas (dado um determinado estado, e possivelmente ação) e γ é um fator de desconto usado para reduzir a importância das recompensas futuras.

Portanto, para usá-lo, você precisa ter predefinido:

  1. Estados : eles podem se referir, por exemplo, a mapas de grade em robótica, ou, por exemplo, porta aberta e porta fechada .
  2. Ações : um conjunto fixo de ações, como, por exemplo, ir para o norte, sul, leste, etc. para um robô ou abrir e fechar uma porta.
  3. Probabilidades de transição : a probabilidade de ir de um estado para outro, dada uma ação. Por exemplo, qual é a probabilidade de uma porta aberta se a ação estiver aberta . Em um mundo perfeito, o posterior poderia ser 1.0, mas se for um robô, poderia ter falhado ao manipular a maçaneta da porta corretamente. Outro exemplo no caso de um robô em movimento seria a ação norte , que na maioria dos casos o traria na célula da grade ao norte, mas em alguns casos poderia ter se movido demais e atingido a célula seguinte, por exemplo.
  4. Recompensas : são usadas para orientar o planejamento. No caso do exemplo da grade, podemos querer ir para uma determinada célula, e a recompensa será maior se nos aproximarmos. No caso do exemplo da porta, uma porta aberta pode dar uma alta recompensa.

Uma vez definido o MDP, é possível aprender uma política fazendo Iteração de Valor ou Iteração de Política, que calcula a recompensa esperada para cada um dos estados. A política fornece, por estado, a melhor ação ( conforme o modelo MDP) a ser executada.

Em resumo, um MDP é útil quando você deseja planejar uma sequência eficiente de ações nas quais suas ações nem sempre podem ser 100% eficazes.

Suas perguntas

Pode ser usado para prever coisas?

Eu chamaria isso de planejamento, não prevendo como regressão, por exemplo.

Se sim, que tipos de coisas?

Veja exemplos .

Consegue encontrar padrões entre quantidades infinitas de dados?

|S|

O que esse algoritmo pode fazer por mim.

Veja exemplos .

Exemplos de aplicações de MDPs

E existem mais alguns modelos. Um modelo ainda mais interessante é o Processo de Decisão Markoviano Parcialmente Observável, no qual os estados não são completamente visíveis. Em vez disso, as observações são usadas para se ter uma idéia do estado atual, mas isso está fora do escopo desta questão.

informação adicional

Um processo estocástico é markoviano (ou possui a propriedade Markov) se a distribuição de probabilidade condicional dos estados futuros depender apenas do estado atual e não dos anteriores (ou seja, não de uma lista de estados anteriores).

agold
fonte
2
Esta é provavelmente a resposta mais clara que eu já vi no Cross Validated.
Markov escondido modelo
Alguma chance de consertar os links? Alguns deles parecem danificados ou desatualizados.
ComputerScientist
Assim, qualquer processo que tem o states, actions, transition probabilitiese rewardsdefinido seria denominado como Markoviana?
precisa