Estou procurando informações preliminares não informativas para a distribuição beta para trabalhar com um processo binomial (acerto / acerto). No começo, pensei em usar que gera um PDF uniforme ou Jeffrey antes de . Mas, na verdade, estou procurando priors que tenham o efeito mínimo em resultados posteriores, e depois pensei em usar um prior inadequado de . O problema aqui é que minha distribuição posterior só funciona se eu tiver pelo menos um golpe e uma falta. Para superar isso, pensei em usar uma constante muito pequena, como , apenas para garantir que e posterioressejam .
Alguém sabe se essa abordagem é aceitável? Vejo efeitos numéricos de alterar essas anteriores, mas alguém poderia me dar uma espécie de interpretação de colocar pequenas constantes como essas como anteriores?
Respostas:
Antes de tudo, não existe algo que não seja informativo antes . Abaixo, você pode ver as distribuições posteriores resultantes de cinco anteriores "não informativos" diferentes (descritos abaixo do gráfico), dados diferentes. Como você pode ver claramente, a escolha de priores "não informativos" afetou a distribuição posterior, especialmente nos casos em que os dados em si não forneciam muita informação .
Priores "não informativos" para distribuição beta compartilham a propriedade de que , o que leva à distribuição simétrica, e α ≤ 1 , β ≤ 1 , as escolhas comuns: são uniformes (Bayes-Laplace) anteriores ( α = β = 1 ), Jeffreys antes ( α = β = 1 / 2 ), "neutro" antes ( α = β = 1 / 3 ) proposto por Kerman (2011), antes de Haldane ( α = β = 0α=β α≤1,β≤1 α=β=1 α=β=1/2 α=β=1/3 α=β=0 ), ou a sua aproximação ( com ε > 0 ) (ver também oα=β=ε ε>0 ótimo artigo da Wikipedia ).
Parâmetros da distribuição beta prévia são comumente considerados como "pseudocontagens" de sucessos ( ) e falhas ( β ) desde a distribuição posterior do modelo beta-binomial após observar y sucessos em nα β y n ensaios é
portanto, quanto mais altos forem, mais influentes serão no posterior. Portanto, ao escolher α = β = 1, você assume que "viu" antecipadamente um sucesso e uma falha (isso pode ou não ser muito dependendo de n ).α,β α=β=1 n
À primeira vista, Haldane antes, parece ser o mais "não informativo", pois leva à média posterior, exatamente igual à estimativa de máxima verossimilhança
No entanto, leva a distribuições posteriores inadequadas quando ou y = ny=0 y=n , o que levou Kernal et al a sugerir seus próprios antecedentes, que produzem mediana posterior o mais próximo possível da estimativa de probabilidade máxima, ao mesmo tempo distribuição adequada.
Há uma série de argumentos a favor e contra cada um dos anteriores "não informativos" (ver Kerman, 2011; Tuyl et al, 2008). Por exemplo, como discutido por Tuyl et al,
Por outro lado, o uso de anteriores uniformes para conjuntos de dados pequenos pode ser muito influente (pense nisso em termos de pseudocontagens). Você pode encontrar muito mais informações e discussões sobre esse tópico em vários artigos e manuais.
Desculpe, mas não há nenhum único "melhor", "menos informativo" ou "one-size-fitts-all" anteriores. Cada um deles traz algumas informações para o modelo.
fonte