Eu conheço três métodos para fazer estimativa de parâmetros, ML, MAP e Bayes. E para a abordagem MAP e Bayes, precisamos escolher os anteriores para os parâmetros, certo?
Digamos que eu tenho esse modelo , no qual são parâmetros, para fazer a estimativa usando MAP ou Bayes, li no livro que é melhor escolhermos um conjugado antes de , que é um probabilidade conjunta de , certo?
Eu tenho 2 perguntas:
Temos outras opções escolhendo a anterior que não a conjugada?
Podemos escolher anteriores para e β, respectivamente, como p ( α ) e p ( β ) , além de juntá-los em conjunto?
bayesian
estimation
prior
abacate
fonte
fonte
Respostas:
Como afirmado no comentário, a distribuição anterior representa crenças anteriores sobre a distribuição dos parâmetros.
Quando crenças anteriores estão realmente disponíveis, você pode:
Quando não há crenças anteriores explícitas, você pode:
Dito isto, não há restrições para usar uma junta ou um anterior independente ( Vs p ( a ) ⋅ p ( b ) ). Como complemento, eu diria que, na minha humilde opinião, há três coisas importantes a serem tomadas ao escolher uma prévia:p ( a , b ) p ( a ) ⋅ p ( b )
fonte
Há também Bayes empíricos. A ideia é ajustar o anterior aos dados:
Embora isso possa parecer estranho no começo, na verdade existem relações com o tamanho mínimo da descrição. Essa também é a maneira típica de estimar os parâmetros do kernel dos processos gaussianos.
fonte
Para responder diretamente às duas perguntas acima:
Você tem outras opções para escolher anteriores não conjugados que não sejam anteriores conjugados. O problema é que, se você escolher anteriores não conjugados, não poderá fazer inferência bayesiana exata (em outras palavras, não poderá derivar uma posterior mais próxima). Em vez disso, você precisa fazer uma inferência aproximada ou usar métodos de amostragem como Gibbs, Rejection, MCMC, etc. para derivá-lo posteriormente. O problema com os métodos de amostragem é que, intuitivamente, é como desenhar uma imagem do elefante na escuridão tocando repetidamente ---- você pode ser tendencioso e incompleto. A razão pela qual as pessoas escolhem o não conjugado anterior é que, com certa probabilidade, a opção do conjugado anterior é bastante limitada ou, para dizer, a maioria é não conjugada.
Sim, você definitivamente pode. Se α e β são independentes, que é a condição idealista, você pode derivar sua distribuição conjunta por p (α) p (β). Se eles não forem independentes, pode ser necessário descobrir a probabilidade condicional e fazer parte integrante para derivar a distribuição conjunta.
fonte