Os métodos baseados no MCMC são apropriados quando a estimativa máxima a posteriori está disponível?

13

Tenho notado que, em muitas aplicações práticas, os métodos baseados no MCMC são usados para estimar um parâmetro, mesmo que o posterior seja analítico (por exemplo, porque os anteriores eram conjugados). Para mim, faz mais sentido usar estimadores MAP em vez de estimadores baseados no MCMC. Alguém poderia apontar por que o MCMC ainda é um método apropriado na presença de um posterior analítico?

bayesian mcmc posterior Holografia
fonte

2

Você pode dar um exemplo disso na prática? Observe que há uma diferença em relação a um ser anterior conjugado e condicionalmente conjugado . Em muitas aplicações de amostragem de Gibbs, os priores escolhidos são condicionalmente conjugados, mas o prior em si não é conjugado; por exemplo, considere Alocação de Dirichlet Latente.

18718 #

4

Não está claro o que o MAP tem a ver com isso também. O estimador de Bayes é a média posterior, não o modo posterior. Mesmo quando os anteriores não são conjugados, você pode fazer algumas otimizações para obter o estimador de MAP - o STAN faz isso mais ou menos antes. O objetivo de fazer o MCMC é estimar a distribuição posterior, que possui muito mais informações do que apenas o estimador MAP.

cara

12

Não é necessário usar o MCMC neste caso: o Markov Chain Monte-Carlo (MCMC) é um método usado para gerar valores a partir de uma distribuição. Produz uma cadeia de Markov de valores auto-correlacionados com distribuição estacionária igual à distribuição alvo. Esse método ainda funcionará para você obter o que deseja, mesmo nos casos em que a distribuição de destino tenha uma forma analítica. No entanto, existem métodos mais simples e menos intensivos em computação que funcionam em casos como este, em que você está lidando com um posterior que possui uma boa forma analítica.

No caso em que a distribuição posterior tem uma forma analítica disponível, é possível obter estimativas de parâmetros (por exemplo, MAP) por otimização a partir dessa distribuição usando técnicas de cálculo padrão. Se a distribuição de destino for suficientemente simples, você poderá obter uma solução de formulário fechado para o estimador de parâmetros, mas mesmo se não estiver, geralmente poderá usar técnicas iterativas simples (por exemplo, Newton-Raphson, gradiente de descida etc.) para encontrar o otimizando a estimativa de parâmetros para qualquer dado de entrada. Se você tiver um formulário analítico para a função quantil da distribuição de destino e precisar gerar valores a partir da distribuição, poderá fazê-lo via amostragem por transformação inversa, que é menos intensivo em termos de computação que o MCMC e permite gerar valores de IID em vez de valores com padrões complexos de auto-correlação.

Em vista disso, se você estava programando do zero, não parece haver nenhum motivo para usar o MCMC no caso em que a distribuição de destino tem um formulário analítico disponível. O único motivo para você fazer isso é se você já possui um algoritmo genérico para o MCMC, que pode ser implementado com o mínimo esforço, e você decide que a eficiência do uso do formulário analítico é compensada pelo esforço de realizar as contas necessárias. Em certos contextos práticos, você estará lidando com problemas geralmente intratáveis, nos quais os algoritmos MCMC já estão configurados e podem ser implementados com o mínimo de esforço (por exemplo, se você fizer uma análise de dados noRStan) Nesses casos, pode ser mais fácil executar os métodos existentes do MCMC do que derivar soluções analíticas para os problemas, embora o último possa, obviamente, ser usado como uma verificação do seu trabalho.

Restabelecer Monica
fonte

10

$\pi(\theta)$

min_{δ} \int_{Θ} eu (θ, δ) \tilde{π} (θ) f (x | θ) d θ

$\min_\delta\int_\Theta \text{L}(\theta,\delta)\,\tilde\pi(\theta)\,f(x|\theta)\,\text{d}\theta$

\tilde{π} (\cdot) \propto π (\cdot)

$\tilde\pi(\cdot)\propto\pi(\cdot)$

\int \tilde{π} (θ) d θ

$\int \tilde\pi(\theta)\,\text{d}\theta$

x, y \in (0, 1)

$x,y\in(0,1)$

f_{θ} (x, y) = \frac{1 + θ [(1 + x) (1 + y) - 3] + θ^{2} (1 - x) (1 - y))}{[1 - θ (1 - x) (1 - y)]^{3}} θ \in (- 1, 1)

$f_\theta(x,y)=\dfrac{1+\theta[(1+x)(1+y)-3]+\theta^2(1-x)(1-y)) }{[1-\theta(1-x)(1-y)]^3}\qquad\theta\in(-1,1)$

Φ^{- 1} (X)

$\Phi^{-1}(X)$

Y = y

$Y=y$

Φ (.)

$\Phi(.)$

Observe também que o estimador a posteriori máximo não é o estimador mais natural em um cenário bayesiano, uma vez que não corresponde a uma função de perda e que a representação de forma fechada da densidade, mesmo que constante, não faz com que o MAP seja encontrado. necessariamente fácil. Ou usando o MAP relevante.

Xi'an
fonte

2

Enquanto eu lia, essa pergunta está fazendo duas perguntas um tanto ortogonais. Uma é a de que se deve usar estimadores de PAM por meios posteriores, e a outra é se deve-se usar o MCMC se a posterior tiver uma forma analítica.

Em relação aos estimadores de MAP sobre médias posteriores, de uma perspectiva teórica, geralmente são preferidas médias posteriores, como @Xian observa em sua resposta. A vantagem real para os estimadores de PAM é que, especialmente no caso mais típico em que o posterior não está na forma fechada, eles podem ser calculados muito mais rapidamente (ou seja, várias ordens de magnitude) do que uma estimativa da média posterior. Se o posterior for aproximadamente simétrico (o que geralmente ocorre em muitos problemas com amostras grandes), a estimativa da PAM deve estar muito próxima da média posterior. Portanto, a atratividade do MAP é, na verdade, que pode ser uma aproximação muito barata da média posterior.

Observe que conhecer a constante de normalização não nos ajuda a encontrar o modo posterior, portanto, ter uma solução de forma fechada para o posterior tecnicamente não nos ajuda a encontrar a estimativa do MAP, fora do caso em que reconhecemos o posterior como uma distribuição específica para a qual nós sabemos que é o modo.

Em relação à segunda pergunta, se alguém tem uma forma fechada, a distribuição posterior, de um modo geral, não há razão para usar os algoritmos MCMC. Teoricamente, se você tivesse uma solução de formulário fechado para a distribuição posterior, mas não tivesse um formulário fechado para a média de alguma função e não conseguisse desenhar diretamente essa distribuição de formulário fechado, seria possível recorrer aos algoritmos MCMC. Mas não estou ciente de nenhum caso dessa situação.

Cliff AB
fonte

1

Eu argumentaria que os métodos MCMC não são necessariamente inapropriados , mesmo quando existem soluções em formato fechado. Obviamente, é bom quando existe uma solução analítica: elas geralmente são rápidas, evita preocupações com convergência (etc).

Por outro lado, a consistência também é importante. Mudar de técnica para técnica complica sua apresentação: na melhor das hipóteses, são detalhes estranhos que podem confundir ou distrair a audiência do seu resultado substantivo e, na pior das hipóteses, pode parecer uma tentativa de influenciar os resultados. Se eu tivesse vários modelos, dos quais apenas alguns admitem soluções em formato fechado, consideraria fortemente executá-los no mesmo pipeline do MCMC, mesmo que não fosse estritamente necessário.

Eu suspeito que isso, além da inércia ("nós temos esse script que funciona") seja responsável pela maior parte do que você está vendo.

Matt Krause
fonte

Os métodos baseados no MCMC são apropriados quando a estimativa máxima a posteriori está disponível?

Respostas: