Por que é necessário colher amostras da distribuição posterior, se já sabemos a distribuição posterior?

19

Meu entendimento é que, ao usar uma abordagem bayesiana para estimar valores de parâmetros:

  • A distribuição posterior é a combinação da distribuição anterior e da distribuição de probabilidade.
  • Simulamos isso gerando uma amostra da distribuição posterior (por exemplo, usando um algoritmo Metropolis-Hasting para gerar valores, e os aceitamos se estiverem acima de um certo limite de probabilidade de pertencer à distribuição posterior).
  • Depois de gerarmos esta amostra, usamos-a para aproximar a distribuição posterior e coisas como sua média.

Mas sinto que devo estar entendendo mal alguma coisa. Parece que temos uma distribuição posterior e, em seguida, fazemos uma amostra dela, e depois usamos essa amostra como uma aproximação da distribuição posterior. Mas se temos a distribuição posterior para começar, por que precisamos fazer uma amostra para aproximar?

Dave
fonte

Respostas:

19

Esta questão provavelmente já foi considerada neste fórum.

Quando você afirma que "tem a distribuição posterior", o que exatamente você quer dizer? "Ter" uma função de que Sei é proporcional à posterior, ou seja, π ( θ | x ) α π ( θ ) x f ( x | θ ) , por exemplo, o alvo completamente artificial π ( θ | x ) α exp { - | | θ - x | | 2 - | | θ + xθ

π(θ|x)π(θ)×f(x|θ)
não me diga o que é
π(θ|x)exp{-||θ-x||2-||θ+x||4-||θ-2x||6},  x,θR18,
  1. a expectativa posterior de uma função de , por exemplo, E [ h ( θ ) | x ] , média posterior que opera como um estimador bayesiano sob perdas padrão;θE[h(θ)|x]
  2. a decisão ideal sob uma função de utilidade arbitrária, decisão que minimiza a perda posterior esperada;
  3. uma faixa de incerteza de 90% ou 95% no (s) parâmetro (s), um subvetor do (s) parâmetro (s) ou uma função do (s) parâmetro (s), também conhecido como região HPD
    {h=h(θ); πh(h)h_}
  4. o modelo mais provável para escolher entre definir alguns componentes do (s) parâmetro (s) para valores específicos e mantê-los desconhecidos (e aleatórios).

Estes são apenas exemplos de muitos usos da distribuição posterior. Em todos os casos, exceto nos mais simples, não posso fornecer as respostas observando a densidade de distribuição posterior e preciso prosseguir com resoluções numéricas como os métodos Monte Carlo e Monte Carlo da cadeia de Markov e da cadeia de Markov.

Xi'an
fonte
Muito obrigado pela resposta Xi'an. Tenho certeza de que isso responde à minha pergunta, mas ainda estou tendo um pouco de dificuldade para entender. Estou certo de que temos uma função de densidade de probabilidade correspondente à posterior (isto é, combinando a anterior e a probabilidade)? Por que não conseguimos encontrar o IC 95% diretamente disso, e não da distribuição posterior amostrada?
Dave
1
@ Dave Acho que a chave aqui é o que você quer dizer com "ter". Em geral, você não terá uma solução de formulário fechado, portanto não terá a função em um sentido útil.
monk
@monk obrigado pela resposta! Você se importa em elaborar o que torna uma solução de formulário não fechado?
Dave
1
Suponha que seu prior é Beta (a, b) e sua probabilidade é Binomial (n, p). Como você calcula o valor esperado do seu posterior? Tente elaborar a integral desse produto com caneta e papel. Em geral, essa integral será algo que exige que um computador obtenha um valor preciso. Como alternativa, você pode descobrir que o Beta é conjugado antes do Binomial e, portanto, o posterior será o Beta (com parâmetros facilmente computáveis). Mas muitas vezes você não terá tanta sorte. É difícil definir uma definição de "formulário fechado" e vale a pena ler por conta própria.
monk
4

Sim, você pode ter uma distribuição posterior analítica. Mas o núcleo da análise bayesiana é marginalizar a distribuição posterior dos parâmetros para obter um melhor resultado de previsão, tanto em termos de precisão quanto de capacidade de generalização. Basicamente, você deseja obter uma distribuição preditiva com o seguinte formato.

p(x|D)=p(x|W)p(W|D)dW

onde é a distribuição posterior para a qual você pode ter uma forma analítica. Mas em muitos casos, pp(W|D)p(W|D)p(x|W)

Karlsson Yu
fonte