simulando amostras aleatórias com um determinado MLE

17

Essa pergunta de validação cruzada que pergunta sobre simular uma amostra condicional a uma soma fixa me lembrava de um problema que George Casella me colocou .

f(x|θ)(X1,,Xn)θθ(X1,...,Xn) θ (X1,...,Xn)

θ^(x1,,xn)=argmini=1nlogf(xi|θ)
θ(X1,,Xn)θ^(X1,,Xn)

Por exemplo, considere uma distribuição , com o parâmetro de localização , cuja densidade é Se como podemos simular condicional em ? Neste exemplo , a distribuição de não possui uma expressão de formulário fechado. μf(x | μ)= Γ ( 3 )T5μ

f(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(xμ)2/5]3
(X1,,Xn)iidf(x|μ)
(X1,,Xn)μ^(X1,,Xn)=μ0T5μ^(X1,,Xn)
Xi'an
fonte

Respostas:

20

Uma opção seria usar uma variante HMC restrita, conforme descrito em Uma família de métodos MCMC em coletores definidos implicitamente por Brubaker et al (1). Isso requer que possamos expressar a condição de que a estimativa de probabilidade máxima do parâmetro de localização é igual a alguns fixos, como alguma restrição holonômica implicitamente definida (e diferenciável) c ( { x i } N i = 1 ) = 0 . Podemos então simular uma dinâmica hamiltoniana restrita sujeita a essa restrição e aceitar / rejeitar dentro de uma etapa de Metropolis-Hastings, como no HMC padrão.μ0c({xi}i=1N)=0

A probabilidade logarítmica negativa é que possui derivadas parciais de primeira e segunda ordem em relação ao parâmetro de localizaçãoμL

L=i=1N[logf(xi|μ)]=3i=1N[log(1+(xiμ)25)]+constant
μ Uma estimativa de probabilidade máxima deμ0é então implicitamente definida como uma solução para c=Ni=1[2(μ0-xi)
Lμ=3i=1N[2(μxi)5+(μxi)2]and2Lμ2=6i=1N[5(μxi)2(5+(μxi)2)2].
μ0
c=i=1N[2(μ0xi)5+(μ0xi)2]=0subject toi=1N[5(μ0xi)2(5+(μ0xi)2)2]>0.

Não tenho certeza se existem resultados sugerindo que haverá um MLE exclusivo para para determinado { x i } N i = 1 - a densidade não é côncava em µ em μ, portanto, não parece trivial garantir isso. Se houver uma única solução única, o acima definido implicitamente define um coletor dimensional N - 1 conectado embutido em R N correspondente ao conjunto de { x i } N i = 1 com MLE para μ igual a μ 0μ{xi}i=1NμN1RN{xi}i=1Nμμ0. Se houver várias soluções, o coletor pode consistir em vários componentes não conectados, alguns dos quais podem corresponder a mínimos na função de probabilidade. Nesse caso, precisaríamos ter algum mecanismo adicional para mover-se entre os componentes não conectados (como a dinâmica simulada geralmente permanecerá confinada a um único componente) e verificar a condição de segunda ordem e rejeitar uma movimentação, se corresponder à mudança para um mínimo na probabilidade.

Se usarmos para denotar o vetor [ x 1x N ] T e introduzir um estado de momento conjugado p com matriz de massa M e um multiplicador de Lagrange λ para a restrição escalar c ( x ), então a solução para o sistema de EDOs d xx[x1xN]TpMλc(x) dada condição inicialx(0)=x0,P(0)=p0comC(x0)=0ec

dxdt=M1p,dpdt=Lxλcxsubject toc(x)=0andcxM1p=0
x(0)=x0, p(0)=p0c(x0)=0, define uma dinâmica hamiltoniana restrita que permanece confinada ao coletor de restrições, é reversível no tempo e conserva exatamente o elemento de volume Hamiltoniano e do coletor. Se usarmos um integrador simplético para sistemas hamiltonianos restritos, como SHAKE (2) ou RATTLE (3), que mantêm exatamente a restrição em cada passo de tempo resolvendo para o multiplicador Lagrange, podemos simular o avanço dinâmico exatoLtimesteps discretosδtde alguma restrição inicial satisfazendox,cx|x0M1p0=0Lδt aceitar o novo par de estados proposto x ,x,p com probabilidade mínima { 1 ,x,p Se intercalarmos essas atualizações dinâmicas com reamostragem parcial / total do momento da sua margem gaussiana (restrita ao subespaço linear definido porc
min{1,exp[L(x)L(x)+12pTM1p12pTM1p]}.
), então modulo a possibilidade da existência de múltiplos componentes múltiplos de restrição não-ligado, a dinâmica global MCMC deve ser ergodic e as amostras de estado configuraçãoxvai coverge na distribuição à densidade alvo restringido ao colector de restrição .cxM1p=0x

Para ver como o HMC restrito foi executado no caso aqui, executei a implementação do HMC restrito baseado em integrador geodésico descrito em (4) e disponível no Github aqui (divulgação completa: sou autor de (4) e proprietário do repositório do Github), que usa uma variação do esquema integrador 'geodésico-BAOAB' proposto em (5) sem a etapa estocástica de Ornstein-Uhlenbeck. Na minha experiência, esse esquema de integração geodésica é geralmente um pouco mais fácil de ajustar do que o esquema RATTLE usado em (1) devido à flexibilidade extra do uso de várias etapas internas menores para o movimento geodésico no coletor de restrições. Um notebook IPython que gera os resultados está disponível aqui .

Eu usei , μ = 1 e μ 0 = 2 . Um x inicial correspondente a um MLE de µ 0 foi encontrado pelo método de Newton (com a derivada de segunda ordem verificada para garantir que um máximo da probabilidade fosse encontrado). Corri uma dinâmica restrita com δ t = 0,5 , L = 5 intercalada com atualizações de momento completo para 1000 atualizações. O gráfico abaixo mostra os traços resultantes nos três componentes xN=3μ=1μ0=2xμ0δt=0.5L=5x

Trace plots for 3D example

e os valores correspondentes das derivadas de primeira e segunda ordem da probabilidade logarítmica negativa são mostrados abaixo

Log-likelihood derivative trace plots

xxR3

3D visualisation of samples confined to 2D manifold

ϵ0RN|c(x)|<ϵcxTcx

Referências

  1. MA Brubaker, M. Salzmann e R. Urtasun. Uma família de métodos MCMC em variedades definidas implicitamente. Em Anais da 15ª Conferência Internacional sobre Inteligência Artificial e Estatística , 2012.
    http://www.cs.toronto.edu/~mbrubake/projects/AISTATS12.pdf

  2. J.-P. Ryckaert, G. Ciccotti e HJ Berendsen. Integração numérica das equações cartesianas de movimento de um sistema com restrições: dinâmica molecular de n-alcanos. Jornal de Física Computacional , 1977.
    http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.399.6868

  3. HC Andersen. CHOCOLATE: Uma versão em "velocidade" do algoritmo SHAKE para cálculos de dinâmica molecular. Jornal de Física Computacional , 1983.
    http://www.sciencedirect.com/science/article/pii/0021999183900141

  4. MM Graham e AJ Storkey. Inferência assintoticamente exata em modelos sem probabilidade. pré-impressão do arXiv arXiv: 1605.07826v3 , 2016.
    https://arxiv.org/abs/1605.07826

  5. B. Leimkuhler e C. Matthews. Dinâmica molecular eficiente usando integração geodésica e divisão solvente-soluto. Proc. R. Soc. A. Vol. 472. No. 2189. The Royal Society , 2016.
    http://rspa.royalsocietypublishing.org/content/472/2189/20160138.abstract

Matt Graham
fonte
3
Brilhante e abrindo novas e brilhantes perspectivas! Obrigado.
Xi'an