Escolhendo entre versões beta não informativas

16

Estou procurando informações preliminares não informativas para a distribuição beta para trabalhar com um processo binomial (acerto / acerto). No começo, pensei em usar α=1,β=1 que gera um PDF uniforme ou Jeffrey antes de α=0.5,β=0.5 . Mas, na verdade, estou procurando priors que tenham o efeito mínimo em resultados posteriores, e depois pensei em usar um prior inadequado de α=0,β=0 . O problema aqui é que minha distribuição posterior só funciona se eu tiver pelo menos um golpe e uma falta. Para superar isso, pensei em usar uma constante muito pequena, comoα=0.0001,β=0.0001 , apenas para garantir queα e posterioresβsejam>0 .

Alguém sabe se essa abordagem é aceitável? Vejo efeitos numéricos de alterar essas anteriores, mas alguém poderia me dar uma espécie de interpretação de colocar pequenas constantes como essas como anteriores?

Mateus
fonte
11
Para amostras grandes com muitos acertos e erros, faz pouca diferença. Para amostras pequenas, especialmente se não houver pelo menos uma ocorrência e uma falha, isso faz uma grande diferença; até o tamanho da sua "constante muito pequena" pode ter um impacto substancial. Gostaria de sugerir o experimento chave pensamento para você poderia ser o tipo de posterior faz sentido depois de um tamanho de amostra de : isso pode persuadi-lo de que algo como o Jeffrey s antes é razoável1
Henry
E há um artigo que Kerman sugere 1/3 e 1/3, b
Björn
O que você quer dizer com "efeito mínimo nos resultados posteriores"? Comparado com o que?
Will
Aprimorei a formatação e o título da sua pergunta, fique à vontade para reverter ou alterar as edições.
Tim

Respostas:

32

Antes de tudo, não existe algo que não seja informativo antes . Abaixo, você pode ver as distribuições posteriores resultantes de cinco anteriores "não informativos" diferentes (descritos abaixo do gráfico), dados diferentes. Como você pode ver claramente, a escolha de priores "não informativos" afetou a distribuição posterior, especialmente nos casos em que os dados em si não forneciam muita informação .

Posteriors from uninformative priors

Priores "não informativos" para distribuição beta compartilham a propriedade de que , o que leva à distribuição simétrica, e α 1 , β 1 , as escolhas comuns: são uniformes (Bayes-Laplace) anteriores ( α = β = 1 ), Jeffreys antes ( α = β = 1 / 2 ), "neutro" antes ( α = β = 1 / 3 ) proposto por Kerman (2011), antes de Haldane ( α = β = 0α=βα1,β1α=β=1α=β=1/2α=β=1/3α=β=0 ), ou a sua aproximação ( com ε > 0 ) (ver também oα=β=εε>0 ótimo artigo da Wikipedia ).

Parâmetros da distribuição beta prévia são comumente considerados como "pseudocontagens" de sucessos ( ) e falhas ( β ) desde a distribuição posterior do modelo beta-binomial após observar y sucessos em nαβyn ensaios é

θyB(α+y,β+ny)

portanto, quanto mais altos forem, mais influentes serão no posterior. Portanto, ao escolher α = β = 1, você assume que "viu" antecipadamente um sucesso e uma falha (isso pode ou não ser muito dependendo de n ).α,βα=β=1n

À primeira vista, Haldane antes, parece ser o mais "não informativo", pois leva à média posterior, exatamente igual à estimativa de máxima verossimilhança

α+yα+y+β+ny=y/n

No entanto, leva a distribuições posteriores inadequadas quando ou y = ny=0y=n , o que levou Kernal et al a sugerir seus próprios antecedentes, que produzem mediana posterior o mais próximo possível da estimativa de probabilidade máxima, ao mesmo tempo distribuição adequada.

Há uma série de argumentos a favor e contra cada um dos anteriores "não informativos" (ver Kerman, 2011; Tuyl et al, 2008). Por exemplo, como discutido por Tuyl et al,

. . . deve-se tomar cuidado com valores de parâmetros abaixo de , tanto para os antecedentes não informativos quanto para os informativos, pois esses concentrados concentram sua massa próximo de 0 e / ou 1101 e podem suprimir a importância dos dados observados.

Por outro lado, o uso de anteriores uniformes para conjuntos de dados pequenos pode ser muito influente (pense nisso em termos de pseudocontagens). Você pode encontrar muito mais informações e discussões sobre esse tópico em vários artigos e manuais.

Desculpe, mas não há nenhum único "melhor", "menos informativo" ou "one-size-fitts-all" anteriores. Cada um deles traz algumas informações para o modelo.

Kerman, J. (2011). Distribuições neutras beta e gama conjugadas não informativas e informativas neutras. Revista Eletrônica de Estatística, 5, 1450-1470.

Tuyl, F., Gerlach, R. e Mengersen, K. (2008). Uma comparação de Bayes-Laplace, Jeffreys e outros priores. The American Statistician, 62 (1): 40-44.

Tim
fonte