Eu sei que os priores não precisam ser adequados e que a função de probabilidade também não se integra a 1. Mas o posterior precisa ser uma distribuição adequada? Quais são as implicações se é / não é?
Eu sei que os priores não precisam ser adequados e que a função de probabilidade também não se integra a 1. Mas o posterior precisa ser uma distribuição adequada? Quais são as implicações se é / não é?
(É uma surpresa ler as respostas anteriores, que se concentram na impropriedade potencial do posterior quando o prior é adequado, pois, até onde posso dizer, a questão é se o posterior deve ou não ser adequado ( isto é, integrável a um) para ser um posterior adequado (isto é, aceitável para inferência bayesiana).)
Na estatística bayesiana, a distribuição posterior deve ser uma distribuição de probabilidade, da qual se pode derivar momentos como a média posterior e declarações de probabilidade como a cobertura de uma credibilidade região, . Se o posterior não pode normalizado em uma densidade de probabilidade e a inferência bayesiana simplesmente não pode ser conduzida. O posterior simplesmente não existe nesses casos. P (π(θ | x)>κ | x) ∫ f(x | θ)π ( θ | x )
Na verdade, (1) deve ser válido para todos os no espaço de amostra e não apenas para o observado , caso contrário, a seleção do anterior dependeria dos dados . Isso significa que anteriores como o anterior de Haldane, , na probabilidade de uma variável binomial ou binomial negativa não podem ser usadas, pois a posterior não é definido para . p X x = 0
Conheço uma exceção quando se pode considerar "posteriores impróprios": encontra-se em "A arte do aumento de dados", de David van Dyk e Xiao-Li Meng. A medida imprópria ultrapassa o chamado parâmetro de trabalho modo que a observação é produzida pelo marginal de uma distribuição aumentada e van Dyk e Meng colocam um anterior inadequado neste parâmetro de trabalho para acelerar a simulação de (que permanece bem definida como uma densidade de probabilidade) pelo MCMC.f ( x | θ ) = ∫ T ( x aug ) = x f ( x aug | θ , α ) p ( α ) α π ( θ | x )
Em outra perspectiva, um pouco relacionada à resposta de eretmochelys , a saber, uma perspectiva da teoria da decisão bayesiana , um cenário em que (1) ocorre ainda pode ser aceitável se levar a decisões ótimas. Ou seja, se é uma função de perda que avalia o impacto do uso da decisão , uma decisão ideal bayesiana sob o anterior é dada por e tudo o que importa é que essa integral não esteja em todo lugar (in ) infinito. Se (1) mantém ou não é secundário para a derivação deδ π δ ⋆ ( x ) = arg min δ ∫ L ( δ , θ ) f ( x | θ )δ δ ⋆ ( x )
A distribuição posterior não precisa ser adequada, mesmo que o anterior seja adequado. Por exemplo, suponha que tenha um Gamma anterior com a forma 0,25 (o que é apropriado) e modelemos nosso dado como desenhado a partir de uma distribuição gaussiana com zero médio e variância . Suponha que é observado como zero. Então a probabilidade é proporcional a , o que torna a distribuição posterior de imprópria, uma vez que é proporcional a . Esse problema surge devido à natureza maluca das variáveis contínuas.x v x p ( x | v ) v - 0,5 v v - 1,25 e - v
Definir o conjunto que have A última integral será igual a se a medida de Lebesgue de for positiva. Mas isso é impossível, porque essa integral fornece uma probabilidade (um número real entre e ). Portanto, a medida de Lebesgue de é igual a e, é claro, também segue que
Em palavras: a probabilidade preditiva prévia dos valores amostrais que tornam o posterior inadequado é igual a zero.
Moral da história: cuidado com conjuntos nulos, eles podem morder, por mais improvável que seja.
PS Como apontado pelo professor Robert nos comentários, esse raciocínio explode se o prior for impróprio.
fonte
Qualquer "distribuição" deve somar (ou integrar) a 1. Eu posso pensar em alguns exemplos em que alguém pode trabalhar com distribuições não normalizadas, mas não me sinto à vontade em chamar qualquer coisa que marginalize a algo que não seja 1 "distribuição".
fonte
fonte