Por que o MCMC é necessário ao estimar um parâmetro usando MAP

11

Dada a fórmula para a estimativa MAP de um parâmetro Estimativa de parâmetro MAP Por que é necessária uma abordagem MCMC (ou similar), eu não poderia simplesmente pegar a derivada, defini-la como zero e depois resolver o parâmetro?

Dänu
fonte
Ótima pergunta!

Respostas:

4

Se você sabe de qual família seu posterior é e se a derivada dessa distribuição é analiticamente viável, isso está correto.

No entanto, ao usar o MCMC, é provável que você não esteja nesse tipo de situação. O MCMC é feito para situações em que você não tem uma noção analítica clara de como é a aparência posterior.

Christoph Hanck
fonte
3
Eu acho que isso é um pouco enganador: o MCMC normalmente não é usado para encontrar o estimador MAP (fora de casos especiais como um algoritmo MCEM).
Cliff AB
1
Eu não discordo de você em princípio. Porém, o MCMC pode ser e é usado para simular a distribuição posterior . E depois de fazer isso, você certamente encontrará o modo dessa distribuição, também conhecido como MAP. Creio que é o que o OP tinha em mente, por isso não sei ao certo por que minha resposta seria enganosa.
Christoph Hanck 27/08/2015
Sim, no entanto, o MCMC é o método de escolha ao lidar com o MAP se não houver uma maneira analítica de otimizar o parâmetro?
Dänu 27/08/2015
3
Nunca ouvi falar em usar o MCMC simples para encontrar o modo da distribuição posterior (tecnicamente, isso poderia ser feito, mas isso é extremamente ineficiente). Como normalmente podemos avaliar uma função proporcional à distribuição posterior, maximizar isso será equivalente a maximizar a distribuição posterior. Os otimizadores prontos para o uso funcionarão tão bem quanto qualquer problema de probabilidade frequente (ou seja, às vezes você precisará especializá-los).
Cliff AB
@ Dänu Você provavelmente não quer usar o MCMC (para ser pedante, uma cadeia de Markov) para encontrar o máximo. Um algoritmo de otimização deve funcionar melhor.
precisa saber é
10

A maioria dos posteriores se mostra difícil de otimizar analiticamente (ou seja, tomando um gradiente e definindo-o como zero), e você precisará recorrer a algum algoritmo de otimização numérica para executar o MAP.

Como um aparte: o MCMC não está relacionado ao MAP.

MAP - para máximo a posteriori - refere-se a encontrar um máximo local de algo proporcional a uma densidade posterior e usar os valores correspondentes dos parâmetros como estimativas. É definido como

θ^MAP=argmaxθp(θ|D)

O MCMC é normalmente usado para aproximar expectativas sobre algo proporcional a uma densidade de probabilidade. No caso de um posterior, isso é

θ^MCMC=n-1Eu=1nθEu0 0Θθp(θ|D)dθ

onde é uma coleção de posições de espaço de parâmetros visitadas por uma cadeia de Markov adequada. Em geral, em qualquer sentido significativo.{θEu0 0}Eu=1nθ^MUMAPθ^MCMC

O ponto crucial é que o MAP envolve otimização , enquanto o MCMC é baseado em amostragem .

jtobin
fonte
Você afirma que é difícil otimizar analiticamente os posteriores, como é o caso no MAP. Portanto, o MAP só é possível se o posterior puder ser otimizado analiticamente e se esse não for o caso, é necessário recorrer (por exemplo) a uma abordagem do MCMC?
Dänu 27/08/2015
2
Não, em vez de vir com a solução analítica, pode-se usar um algoritmo iterativo para encontrar a solução (ou seja, se o log posterior for côncavo, você pode usar o Método de Newton, por exemplo).
Cliff AB
2
MAP refere-se a encontrar valores de parâmetros que (localmente) maximizam um posterior. Não importa como se recebe os valores de parâmetro: resolvendo para maxima analiticamente, usando uma rotina numérica, a diferenciação automática, etc.
jtobin