Meu entendimento é que, ao usar uma abordagem bayesiana para estimar valores de parâmetros:
- A distribuição posterior é a combinação da distribuição anterior e da distribuição de probabilidade.
- Simulamos isso gerando uma amostra da distribuição posterior (por exemplo, usando um algoritmo Metropolis-Hasting para gerar valores, e os aceitamos se estiverem acima de um certo limite de probabilidade de pertencer à distribuição posterior).
- Depois de gerarmos esta amostra, usamos-a para aproximar a distribuição posterior e coisas como sua média.
Mas sinto que devo estar entendendo mal alguma coisa. Parece que temos uma distribuição posterior e, em seguida, fazemos uma amostra dela, e depois usamos essa amostra como uma aproximação da distribuição posterior. Mas se temos a distribuição posterior para começar, por que precisamos fazer uma amostra para aproximar?
Sim, você pode ter uma distribuição posterior analítica. Mas o núcleo da análise bayesiana é marginalizar a distribuição posterior dos parâmetros para obter um melhor resultado de previsão, tanto em termos de precisão quanto de capacidade de generalização. Basicamente, você deseja obter uma distribuição preditiva com o seguinte formato.
onde é a distribuição posterior para a qual você pode ter uma forma analítica. Mas em muitos casos, pp ( w | D ) p ( w | D ) p ( x | w )
fonte