O posterior bayesiano precisa ser uma distribuição adequada?

21

Eu sei que os priores não precisam ser adequados e que a função de probabilidade também não se integra a 1. Mas o posterior precisa ser uma distribuição adequada? Quais são as implicações se é / não é?

ATJ
fonte

Respostas:

15

(É uma surpresa ler as respostas anteriores, que se concentram na impropriedade potencial do posterior quando o prior é adequado, pois, até onde posso dizer, a questão é se o posterior deve ou não ser adequado ( isto é, integrável a um) para ser um posterior adequado (isto é, aceitável para inferência bayesiana).)

Na estatística bayesiana, a distribuição posterior deve ser uma distribuição de probabilidade, da qual se pode derivar momentos como a média posterior e declarações de probabilidade como a cobertura de uma credibilidade região, . Se o posterior não pode normalizado em uma densidade de probabilidade e a inferência bayesiana simplesmente não pode ser conduzida. O posterior simplesmente não existe nesses casos. P (π(θ | x)>κ | x) f(x | θ)Eπ[h(θ)|x]P(π(θ|x)>κ|x)π ( θ | x )

f(x|θ)π(θ)dθ=+,(1)
π(θ|x)

Na verdade, (1) deve ser válido para todos os no espaço de amostra e não apenas para o observado , caso contrário, a seleção do anterior dependeria dos dados . Isso significa que anteriores como o anterior de Haldane, , na probabilidade de uma variável binomial ou binomial negativa não podem ser usadas, pois a posterior não é definido para .x xp X x = 0π(p){1/p(1-p)}pXx=0 0

Conheço uma exceção quando se pode considerar "posteriores impróprios": encontra-se em "A arte do aumento de dados", de David van Dyk e Xiao-Li Meng. A medida imprópria ultrapassa o chamado parâmetro de trabalho modo que a observação é produzida pelo marginal de uma distribuição aumentada e van Dyk e Meng colocam um anterior inadequado neste parâmetro de trabalho para acelerar a simulação de (que permanece bem definida como uma densidade de probabilidade) pelo MCMC.f ( x | θ ) = T ( x aug ) = x f ( x aug | θ , α )α p ( α ) α π ( θ | x )

f(x|θ)=T(xagosto)=xf(xagosto|θ,α)dxagosto
p(α)απ(θ|x)

Em outra perspectiva, um pouco relacionada à resposta de eretmochelys , a saber, uma perspectiva da teoria da decisão bayesiana , um cenário em que (1) ocorre ainda pode ser aceitável se levar a decisões ótimas. Ou seja, se é uma função de perda que avalia o impacto do uso da decisão , uma decisão ideal bayesiana sob o anterior é dada por e tudo o que importa é que essa integral não esteja em todo lugar (in ) infinito. Se (1) mantém ou não é secundário para a derivação deδ π δ ( x ) = arg min δ L ( δ , θ ) f ( x | θ )eu(δ,θ)0 0δπδ δ ( x )

δ(x)=argminδeu(δ,θ)f(x|θ)π(θ)dθ
δδ(x), mesmo que propriedades como admissibilidade sejam garantidas apenas quando (1) é válido.
Xi'an
fonte
19

A distribuição posterior não precisa ser adequada, mesmo que o anterior seja adequado. Por exemplo, suponha que tenha um Gamma anterior com a forma 0,25 (o que é apropriado) e modelemos nosso dado como desenhado a partir de uma distribuição gaussiana com zero médio e variância . Suponha que é observado como zero. Então a probabilidade é proporcional a , o que torna a distribuição posterior de imprópria, uma vez que é proporcional a . Esse problema surge devido à natureza maluca das variáveis ​​contínuas.x v x p ( x | v ) v - 0,5 v v - 1,25 e - vvxvxp(x|v)v-0,5vv-1,25e-v

Tom Minka
fonte
Exemplo legal, Tom!
Zen
+1, no entanto, você poderia expandir a resposta para a última frase do OP? Esse posterior esquisito é significativo (você pode fazer o tipo de coisa que normalmente faria com um posterior) ou é mais análogo a obter um NaN ou Inf de alguns cálculos? É um sinal de que algo está errado com o seu modelo?
Wayne
5
Não há nada de errado com o modelo. Esse posterior é significativo no sentido de que, se você receber outra observação, poderá multiplicá-la e possivelmente voltar a uma posterior adequada. Portanto, não é como um NaN, no qual todas as operações adicionais são NaN.
21714 Tom Tom Minka
8
Embora provavelmente seja tarde demais para importar, não acho que o uso de "contra-exemplos" ajude os iniciantes: o problema surge porque você usa uma versão específica da densidade gaussiana em , quando pode ser definido arbitrariamente neste conjunto da medida zero. E, portanto, tornar o posterior apropriado ou inadequado, dependendo da versão escolhida. x=0 0
Xian
Interessante - se você pegar o geral , o posterior é um gaussiano inverso generalizado com os parâmetros . @ Xi'an - seria bom ver a maneira alternativa de obter uma posterior adequada disso. x0.25,1,x2
probabilityislogic
11

Definir o conjunto que have A última integral será igual a se a medida de Lebesgue de for positiva. Mas isso é impossível, porque essa integral fornece uma probabilidade (um número real entre e ). Portanto, a medida de Lebesgue de é igual a e, é claro, também segue que

Bogus Data={x:f(xθ)π(θ)dθ=},
falso Dados 0 1 falso Dados 0 P r ( X falso Dados ) = 0
Pr(XBogus Data)=Bogus Dataf(xθ)π(θ)dθdx=Bogus Datadx.
Bogus Data0 01Bogus Data0 0Pr(XBogus Data)=0 0 .

Em palavras: a probabilidade preditiva prévia dos valores amostrais que tornam o posterior inadequado é igual a zero.

Moral da história: cuidado com conjuntos nulos, eles podem morder, por mais improvável que seja.

PS Como apontado pelo professor Robert nos comentários, esse raciocínio explode se o prior for impróprio.

zen
fonte
4
Você escreveu uma vez : "Se pudermos começar com um prior adequado e obter um posterior impróprio, então vou parar de deduzir".
21714 Tom Tom Minka
2
Um pouquinho da língua, havia um quantificador implícito: se podemos começar com um prior adequado e obter um posterior inadequado, para cada valor de amostra possível, então pararei de inferência. ;-) #
Zen
A propósito, uma memória notável, Tom!
Zen
4
Pr(XBogus Data)(θ,x)
1
Você está correto. O raciocínio na resposta funciona apenas com os priores. Bom ponto. Vou adicionar uma nota.
Zen
3

Qualquer "distribuição" deve somar (ou integrar) a 1. Eu posso pensar em alguns exemplos em que alguém pode trabalhar com distribuições não normalizadas, mas não me sinto à vontade em chamar qualquer coisa que marginalize a algo que não seja 1 "distribuição".

xd

x^=argmaxxPX|D(x|d)=argmaxxPD|X(d|x)PX(x)PD(d)=argmaxxPD|X(d|x)PX(x)

PDxx^PD|X(d|x)PX(x)

eretmochelys
fonte
@ Zen você se importaria em ser mais explícito sobre o que você acha que está errado (ou fundamentalmente incompleto) sobre esta resposta?
whuber
1
Uma maneira de interpretar a questão do OP "o posterior precisa ser uma distribuição adequada?" é perguntar se é matematicamente possível começar com um anterior adequado e terminar com um posterior inadequado. A resposta de Minka dá um exemplo explícito em que isso acontece. Tentei complementá-lo com a minha resposta e salientar que isso só pode acontecer dentro de um conjunto de probabilidade preditiva nula anterior.
Zen
1
@ Zen Parece-me que uma interpretação intimamente relacionada é "se a posterior não for adequada, que informações posso obter dela?" Essa resposta aceita parece fornecer conselhos úteis e corretos relacionados a isso em uma circunstância especial (que está claramente descrita). A aceitação me parece um sinal que eretmochelys atingiu em casa com um palpite perspicaz sobre as circunstâncias.
whuber
-2

nBetuma(0 0,0 0)

omidi
fonte
3
Esta resposta está incorreta. Veja minha resposta.
precisa