Atualmente, estou lendo sobre Métodos Bayesianos em Evolução Molecular de Computação por Yang. Na seção 5.2, fala sobre priores e, especificamente, Não informativo / plano / vago / difuso, conjugado e hiperpriores.
Isso pode estar exigindo uma simplificação excessiva, mas alguém poderia explicar simplesmente a diferença entre esses tipos de anteriores e como isso afeta o resultado de uma análise / decisão que eu tomaria durante o processo de uma análise bayesiana?
(Não sou estatístico e estou apenas começando a aprender análises bayesianas, portanto, quanto mais em leigos, melhor)
No nível mais alto, podemos pensar em todos os tipos de antecedentes como especificando uma quantidade de informações que o pesquisador traz para a análise fora dos próprios dados: antes de analisar os dados, quais valores de parâmetros são mais prováveis?
Na idade das trevas da análise bayesiana, quando os bayesianos brigavam com os freqüentistas, havia uma crença de que o pesquisador desejaria introduzir o mínimo possível de informações na análise através do anterior. Portanto, havia muita pesquisa e argumento dedicado a entender como, precisamente, um prior poderia ser "não informativo" dessa maneira. Hoje, Gelman argumenta contra a escolha automática de priores não informativos, dizendo na análise de dados bayesianaque a descrição "não informativo" reflete sua atitude em relação ao prior, e não quaisquer características matemáticas "especiais" do prior. (Além disso, havia uma pergunta na literatura inicial sobre em que escala um prior é não informativo. Não acho que isso seja especialmente importante para a sua pergunta, mas para um bom exemplo desse argumento de uma perspectiva freqüentista, veja o começo de Gary King, Metodologia Política Unificadora. )
Um prior "plano" indica um prior uniforme onde todos os valores na faixa são igualmente prováveis. Novamente, há argumentos a serem discutidos sobre se são realmente não informativos, pois especificar que todos os valores são igualmente prováveis é, de alguma forma, informações e pode ser sensível à forma como o modelo é parametrizado. Priores planos têm uma longa história na análise bayesiana, remontando a Bayes e Laplace.
Um prior "vago" é altamente difuso, embora não necessariamente plano, e expressa que uma grande variedade de valores é plausível, em vez de concentrar a massa de probabilidade em torno de uma faixa específica. Essencialmente, é um prior com alta variação (o que significa "alta" variação no seu contexto).
Priores conjugados têm a característica conveniente de que, quando multiplicados pela probabilidade apropriada, eles produzem uma expressão de forma fechada. Um exemplo disso é o beta anterior com a probabilidade binomial ou o gama anterior com a probabilidade de poisson. Existem tabelas úteis em toda a Internet e Wikipedia. A família exponencial é extremamente conveniente nesse sentido.
Priores conjugados geralmente são a opção "padrão" para alguns problemas devido às suas propriedades convenientes, mas isso não significa necessariamente que eles são os "melhores", a menos que o conhecimento prévio de alguém possa ser expresso por meio do conjugado anterior. Os avanços na computação significam que a conjugação não é tão valorizada como antes (cf. amostra de Gibbs vs NUTS), para que possamos realizar mais facilmente a inferência com priores não-conjugados sem muitos problemas.
fonte