Uma opção seria usar uma variante HMC restrita, conforme descrito em Uma família de métodos MCMC em coletores definidos implicitamente por Brubaker et al (1). Isso requer que possamos expressar a condição de que a estimativa de probabilidade máxima do parâmetro de localização é igual a alguns fixos, como alguma restrição holonômica implicitamente definida (e diferenciável) c ( { x i } N i = 1 ) = 0 . Podemos então simular uma dinâmica hamiltoniana restrita sujeita a essa restrição e aceitar / rejeitar dentro de uma etapa de Metropolis-Hastings, como no HMC padrão.μ0c({xi}Ni=1)=0
A probabilidade logarítmica negativa é
que possui derivadas parciais de primeira e segunda ordem em relação ao parâmetro de localizaçãoμ∂L
L=−∑i=1N[logf(xi|μ)]=3∑i=1N[log(1+(xi−μ)25)]+constant
μ
Uma estimativa de probabilidade máxima de
μ0é então implicitamente definida como uma solução para
c=N∑i=1[2(μ0-xi)∂L∂μ=3∑i=1N[2(μ−xi)5+(μ−xi)2]and∂2L∂μ2=6∑i=1N[5−(μ−xi)2(5+(μ−xi)2)2].
μ0c=∑i=1N[2(μ0−xi)5+(μ0−xi)2]=0subject to∑i=1N[5−(μ0−xi)2(5+(μ0−xi)2)2]>0.
Não tenho certeza se existem resultados sugerindo que haverá um MLE exclusivo para para determinado { x i } N i = 1 - a densidade não é côncava em µ em μ, portanto, não parece trivial garantir isso. Se houver uma única solução única, o acima definido implicitamente define um coletor dimensional N - 1 conectado embutido em R N correspondente ao conjunto de { x i } N i = 1 com MLE para μ igual a μ 0μ{xi}Ni=1μN−1RN{xi}Ni=1μμ0. Se houver várias soluções, o coletor pode consistir em vários componentes não conectados, alguns dos quais podem corresponder a mínimos na função de probabilidade. Nesse caso, precisaríamos ter algum mecanismo adicional para mover-se entre os componentes não conectados (como a dinâmica simulada geralmente permanecerá confinada a um único componente) e verificar a condição de segunda ordem e rejeitar uma movimentação, se corresponder à mudança para um mínimo na probabilidade.
Se usarmos para denotar o vetor [ x 1 … x N ] T e introduzir um estado de momento conjugado p com matriz de massa M e um multiplicador de Lagrange λ para a restrição escalar c ( x ), então a solução para o sistema de EDOs
d xx[x1…xN]TpMλc(x)
dada condição inicialx(0)=x0,P(0)=p0comC(x0)=0e ∂ c
dxdt=M−1p,dpdt=−∂L∂x−λ∂c∂xsubject toc(x)=0and∂c∂xM−1p=0
x(0)=x0, p(0)=p0c(x0)=0, define uma dinâmica hamiltoniana restrita que permanece confinada ao coletor de restrições, é reversível no tempo e conserva exatamente o elemento de volume Hamiltoniano e do coletor. Se usarmos um integrador simplético para sistemas hamiltonianos restritos, como SHAKE (2) ou RATTLE (3), que mantêm exatamente a restrição em cada passo de tempo resolvendo para o multiplicador Lagrange, podemos simular o avanço dinâmico exato
Ltimesteps discretos
δtde alguma restrição inicial satisfazendo
x,∂c∂x∣∣x0M−1p0=0Lδt aceitar o novo par de estados proposto
x ′ ,x,p com probabilidade
mínima { 1 ,x′,p′
Se intercalarmos essas atualizações dinâmicas com reamostragem parcial / total do momento da sua margem gaussiana (restrita ao subespaço linear definido por
∂cmin{1,exp[L(x)−L(x′)+12pTM−1p−12p′TM−1p′]}.
), então modulo a possibilidade da existência de múltiplos componentes múltiplos de restrição não-ligado, a dinâmica global MCMC deve ser ergodic e as amostras de estado configuração
xvai coverge na distribuição à densidade alvo restringido ao colector de restrição .
∂c∂xM−1p=0x
Para ver como o HMC restrito foi executado no caso aqui, executei a implementação do HMC restrito baseado em integrador geodésico descrito em (4) e disponível no Github aqui (divulgação completa: sou autor de (4) e proprietário do repositório do Github), que usa uma variação do esquema integrador 'geodésico-BAOAB' proposto em (5) sem a etapa estocástica de Ornstein-Uhlenbeck. Na minha experiência, esse esquema de integração geodésica é geralmente um pouco mais fácil de ajustar do que o esquema RATTLE usado em (1) devido à flexibilidade extra do uso de várias etapas internas menores para o movimento geodésico no coletor de restrições. Um notebook IPython que gera os resultados está disponível aqui .
Eu usei , μ = 1 e μ 0 = 2 . Um x inicial correspondente a um MLE de µ 0 foi encontrado pelo método de Newton (com a derivada de segunda ordem verificada para garantir que um máximo da probabilidade fosse encontrado). Corri uma dinâmica restrita com δ t = 0,5 , L = 5 intercalada com atualizações de momento completo para 1000 atualizações. O gráfico abaixo mostra os traços resultantes nos três componentes xN=3μ=1μ0=2xμ0δt=0.5L=5x
e os valores correspondentes das derivadas de primeira e segunda ordem da probabilidade logarítmica negativa são mostrados abaixo
xxR3
ϵ→0RN|c(x)|<ϵ∂c∂xT∂c∂x−−−−−−√
Referências
MA Brubaker, M. Salzmann e R. Urtasun. Uma família de métodos MCMC em variedades definidas implicitamente. Em Anais da 15ª Conferência Internacional sobre Inteligência Artificial e Estatística , 2012.
http://www.cs.toronto.edu/~mbrubake/projects/AISTATS12.pdf
J.-P. Ryckaert, G. Ciccotti e HJ Berendsen. Integração numérica das equações cartesianas de movimento de um sistema com restrições: dinâmica molecular de n-alcanos. Jornal de Física Computacional , 1977.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.399.6868
HC Andersen. CHOCOLATE: Uma versão em "velocidade" do algoritmo SHAKE para cálculos de dinâmica molecular. Jornal de Física Computacional , 1983.
http://www.sciencedirect.com/science/article/pii/0021999183900141
MM Graham e AJ Storkey. Inferência assintoticamente exata em modelos sem probabilidade. pré-impressão do arXiv arXiv: 1605.07826v3 , 2016.
https://arxiv.org/abs/1605.07826
B. Leimkuhler e C. Matthews. Dinâmica molecular eficiente usando integração geodésica e divisão solvente-soluto. Proc. R. Soc. A. Vol. 472. No. 2189. The Royal Society , 2016.
http://rspa.royalsocietypublishing.org/content/472/2189/20160138.abstract