Quais algoritmos / técnicas do MCMC são usados ​​para parâmetros discretos?

19

Eu sei bastante sobre o ajuste de parâmetros contínuos, particularmente métodos baseados em gradiente, mas não muito sobre o ajuste de parâmetros discretos.

Quais são os algoritmos / técnicas MCMC comumente usados ​​para ajustar parâmetros discretos? Existem algoritmos bastante gerais e bastante poderosos? Existem algoritmos que lidam bem com a maldição da dimensionalidade? Por exemplo, eu diria que o MCMC Hamiltoniano é geral, poderoso e dimensiona bem.

A amostragem de uma distribuição discreta arbitrária parece mais difícil do que a amostragem de uma distribuição contínua, mas estou curioso sobre o que é o estado da arte.

Edit : JMS me pediu para elaborar.

Não tenho aplicativos específicos em mente, mas aqui estão alguns tipos de modelos que estou imaginando:

  • Seleção de modelo entre vários tipos de modelos de regressão contínua. Você tem um único parâmetro 'modelo' discreto
  • Um modelo contínuo em que cada observação tem a possibilidade de ser um "outlier" e extraído de uma distribuição muito mais dispersa. Suponho que este seja um modelo de mistura.

Eu esperaria que muitos modelos incluíssem parâmetros contínuos e discretos.

John Salvatier
fonte

Respostas:

13

Portanto, a resposta simples é sim: Metropolis-Hastings e seu caso especial Amostragem de Gibbs :) Geral e poderosa; A escala ou não depende do problema em questão.

f(k)P(k~=k)=f(k)/f(k)k

Você tem um modelo específico em mente? Existem todos os tipos de abordagens do MCMC para ajustar modelos de mistura, por exemplo, onde as atribuições de componentes latentes são parâmetros discretos. Estes variam de muito simples (Gibbs) a bastante complexo.

Qual é o tamanho do espaço do parâmetro? É potencialmente enorme (por exemplo, no caso do modelo de mistura, é N pelo número de componentes da mistura)? Talvez você não precise de nada além de um amostrador de Gibbs, já que a conjugação não é mais um problema (você pode obter diretamente a constante de normalização para poder calcular os condicionais completos). De fato, Gibbs griddy costumava ser popular nesses casos, onde um prior contínuo é discretizado para facilitar o cálculo.

Eu não acho que exista um "melhor" específico para todos os problemas que tenham um espaço de parâmetro discreto, assim como não existe no caso contínuo. Mas se você nos contar mais sobre os modelos nos quais está interessado, talvez possamos fazer algumas recomendações.

Edit: OK, posso dar um pouco mais de informação em re: your examples.

p(β)πN(β;0 0,τ)+(1-π)N(β,0 0,1000τ)p(β)πδ0 0(β)+(1-π)N(β,0 0,τ)δ0 0βZZ1...,Zp2p1:2p.

p(Z,β|y)p(Z,β|y)=p(β|Y,Z)p(Z|Y)Zβ

O SSVS incorpora todo o espaço do modelo em um grande modelo. Muitas vezes, isso é fácil de implementar, mas dá um mau funcionamento. Salto reversível O MCMC é um tipo diferente de abordagem que permite que a dimensão do espaço do parâmetro varie explicitamente; veja [3] para uma revisão e algumas notas práticas. Você pode encontrar notas mais detalhadas sobre implementação em diferentes modelos na literatura, tenho certeza.

p=1000

Uma abordagem diferente que está ganhando popularidade é o uso de anteriores de retração absolutamente contínuas que imitam os resultados médios do modelo. Normalmente, estes são formulados como misturas de escala de normais. O laço bayesiano é um exemplo, que é um caso especial de anteriores de gama normal e um caso limitante de anteriores de gama normal exponencial. Outras opções incluem a ferradura e a classe geral de distribuições normais com prévios beta invertidos em sua variação. Para mais informações, sugiro começar com [6] e voltar pelas referências (muitas para eu replicar aqui :))

Acrescentarei mais sobre modelos outlier mais tarde, se tiver uma chance; a referência clássica é [7]. Eles são muito semelhantes em espírito aos anteriores de encolhimento. Geralmente eles são fáceis de fazer com a amostragem de Gibbs.

Talvez não seja tão prático quanto você esperava; a seleção de modelos, em particular, é um problema difícil e, quanto mais elaborado o modelo, pior fica. A atualização de blocos, sempre que possível, é o único conselho geral que tenho. Na amostragem de uma mistura de distribuições, você geralmente terá o problema de que os indicadores de associação e os parâmetros dos componentes estão altamente correlacionados. Também não toquei em problemas de troca de etiqueta (ou falta de troca de etiqueta); há bastante literatura lá, mas está um pouco fora da minha casa do leme.

De qualquer forma, acho útil começar com algumas das referências aqui, para ter uma idéia das diferentes maneiras pelas quais outras pessoas estão abordando problemas semelhantes.

[1] Merlise Clyde e EI George. Modelo Incerteza Statistical Science 19 (2004): 81--94. http://www.isds.duke.edu/~clyde/papers/statsci.pdf

[2] http://www-personal.umich.edu/~bnyhan/montgomery-nyhan-bma.pdf

[3] Green & Hastie Reversible jump MCMC (2009) http://www.stats.bris.ac.uk/~mapjg/papers/rjmcmc_20090613.pdf

[4] http://www.stat.duke.edu/~clyde/BAS/.

[5] http://ba.stat.cmu.edu/journal/2010/vol05/issue03/bottolo.pdf.

[6] http://www.uv.es/bernardo/Polson.pdf.

[7] Modelos de Mike West Outlier e distribuições anteriores em regressão linear bayesiana (1984) JRSS-B

JMS
fonte
1
Peço desculpas por demorar muito para responder. Eu coloquei alguns tipos de modelo de exemplo. Deixe-me saber se você deseja mais esclarecimentos. Eu estava pensando em distribuições discretas como mais difíceis de obter amostras, porque parece que elas seriam mais propensas a comportamentos multimodais. A normalização explícita é aplicável quando você tem uma mistura de variáveis ​​discretas e contínuas?
John Salvatier 31/03