Meu entendimento do algoritmo é o seguinte:
No U-Turn Sampler (NUTS) é um método Hamiltoniano de Monte Carlo. Isso significa que não é um método da cadeia de Markov e, portanto, esse algoritmo evita a parte do passeio aleatório, que geralmente é considerado ineficiente e lento para convergir.
Em vez de fazer o passeio aleatório, o NUTS faz saltos de comprimento x. Cada salto dobra à medida que o algoritmo continua em execução. Isso acontece até que a trajetória alcance um ponto em que deseja retornar ao ponto de partida.
Minhas perguntas: O que há de tão especial na inversão de marcha? Como dobrar a trajetória não pula o ponto otimizado? Minha descrição acima está correta?
bayesian
monte-carlo
markov-process
user3007270
fonte
fonte
Respostas:
O bit sem retorno é como as propostas são geradas. O HMC gera um sistema físico hipotético: imagine uma bola com uma certa energia cinética rolando em torno de uma paisagem com vales e colinas (a analogia se divide em mais de duas dimensões) definida pela parte posterior da qual você deseja amostrar. Toda vez que você deseja coletar uma nova amostra do MCMC, você escolhe aleatoriamente a energia cinética e começa a bola rolar de onde você está. Você simula em etapas de tempo discretas e, para certificar-se de explorar adequadamente o espaço dos parâmetros, simula etapas em uma direção e o dobro na outra direção, vira novamente etc. Em algum momento, deseja interromper isso e uma boa maneira de fazer isso é quando você faz uma inversão de marcha (ou seja, parece ter ido por todo o lado).
Nesse ponto, a próxima etapa proposta da sua cadeia de Markov é escolhida (com certas limitações) dos pontos que você visitou. Ou seja, que toda a simulação do sistema físico hipotético foi "apenas" para obter uma proposta que depois é aceita (a próxima amostra do MCMC é o ponto proposto) ou rejeitada (a próxima amostra do MCMC é o ponto de partida).
O mais inteligente é que as propostas são feitas com base na forma da parte posterior e podem estar no outro extremo da distribuição. Em contraste, Metropolis-Hastings faz propostas dentro de uma bola (possivelmente distorcida), a amostra de Gibbs se move apenas ao longo de uma (ou pelo menos muito poucas) dimensões de cada vez.
fonte
Você está incorreto ao saber que o HMC não é um método da cadeia de Markov. Por Wikipedia :
Para maior clareza, leia o artigo arXiv de Betancourt , que menciona os critérios finais da NUTS:
O Apêndice A.3 fala sobre algo como a trajetória dobrada que você menciona:
e expande isso em A.4, onde fala sobre uma implementação dinâmica (a seção A.3 fala sobre uma implementação estática):
Eu acho que a chave é que ele não faz saltos que dobram, calcula seu próximo salto usando uma técnica que dobra o comprimento do salto proposto até que um critério seja atendido. Pelo menos é assim que eu entendo o artigo até agora.
fonte