Compreendendo as Distribuições Preditivas Bayesianas

9

Estou fazendo um curso de Introdução à Bayes e estou tendo dificuldades para entender as distribuições preditivas. Entendo por que eles são úteis e estou familiarizado com a definição, mas há algumas coisas que não entendo direito.

1) Como obter a distribuição preditiva correta para um vetor de novas observações

Suponha que tenhamos construído um modelo de amostragem para os dados e um . Suponha que as observações sejam condicionalmente independentes, dadas .p ( θ ) y i θp(yi|θ)p(θ)yiθ

Observamos alguns dados e atualizamos nosso para o .p ( θ ) p ( θ | D )D={y1,y2,...,yk}p(θ)p(θ|D)

Se quisermos prever um vetor de novas observações , eu acho que deveríamos tentar obter a previsão posterior usando essa fórmula que não é igual a então as observações previstas não são independentes, certo?p ( N | D ) = p ( θ | D ) p ( N | θ )N={y~1,y~2,...,y~n}

p(N|D)=p(θ|D)p(N|θ)dθ=p(θ|D)i=1np(y~i|θ)dθ,
i=1np(θ|D)p(y~i|θ)dθ,

Diga isso Beta ( ) Binomial ( ) para um fixo . Nesse caso, se eu quisesse simular 6 novos , se eu entendesse isso corretamente, seria errado simular 6 desenhos independentemente da distribuição beta-binomial que corresponde ao preditivo posterior para uma única observação. Isso está correto? Não sei como interpretar que as observações não são independentes marginalmente, e não tenho certeza se entendi corretamente.θ|Da,bp(yi|θ)n,θny~

Simulando a partir de preditivos posteriores

Muitas vezes, quando simulamos dados do preditivo posterior, seguimos este esquema:

Para de 1 a :bB

1) Amostra de .θ(b)p(θ|D)

2) Em seguida, simule novos dados de .N(b)p(N|θ(b))

Não sei como provar que esse esquema funciona, embora pareça intuitivo. Além disso, isso tem um nome? Tentei procurar uma justificativa e tentei nomes diferentes, mas não tive sorte.

Obrigado!

Fred L.
fonte
Fiz uma pergunta semelhante em stats.stackexchange.com/questions/72570/…, mas parece que o seu recebeu mais votos até agora.
John

Respostas:

4

Suponha que sejam condicionalmente independentes, dado que . Então, em que a primeira igualdade segue a lei da probabilidade total, a segunda segue a regra do produto e a terceira a independência condicional assumida: dado o valor deX1,,Xn,Xn+1Θ=θ

fXn+1X1,,Xn(xn+1x1,,xn)=fXn+1,ΘX1,,Xn(xn+1,θx1,,xn)dθ
=fXn+1Θ,X1,,Xn(xn+1θ,x1,,xn)fΘX1,,Xn(θx1,,xn)dθ
=fXn+1Θ(xn+1θ)fΘX1,,Xn(θx1,,xn)dθ,
Θ, não precisamos dos valores de para determinar a distribuição de .X1,,XnXn+1

O esquema de simulação está correto: para , draw da distribuição de , e desenhe da distribuição de . Isso fornece uma amostra da distribuição de .i=1,,Nθ(i)ΘX1=x1,,Xn=xnxn+1(i)Xn+1Θ=θ(i){xn+1(i)}i=1NXn+1X1=x1,,Xn=xn

zen
fonte
E se você estiver obtendo a previsão posterior em vários períodos? Eu tenho usado para cada , mas posso ver por que pode fazer sentido redesenhar um novo theta. θ(i)xn+j
John John
2

Tentarei repassar a intuição por trás da geração da distribuição preditiva posterior passo a passo.

Vamos ser um vetor de dados observados que vêm de uma distribuição de probabilidade e deixe ser um vetor de futuro (ou out-of-sample) valores que queremos prever. Assumimos que vem da mesma distribuição que . Pode ser tentador usar nossa melhor estimativa de - como a estimativa MLE ou MAP - para obter informações sobre essa distribuição. No entanto, isso inevitavelmente ignoraria nossa incerteza sobre . Assim, a maneira apropriada de proceder é calcular a média da distribuição posterior de , ou seja, . Observe também queyp(y|θ)y~y~yθθθp(θ|y)y~é independente de dado , pois supõe-se que seja uma amostra independente desenhada da mesma distribuição que . Portanto,yθy

p(y~|θ,y)=p(y~,y|θ)p(θ)p(θ,y)=p(y~|θ)p(y|θ)p(θ)p(y|θ)p(θ)=p(y~|θ).

A distribuição preditiva posterior de é assim,y~

p(y~|y)=Θp(y~|θ,y)p(θ|y)dθ=Θp(y~|θ)p(θ|y)dθ

onde é o suporte de .Θθ

Agora, como obtemos as amostras de ? O método que você descreve é ​​chamado de método de composição , que funciona da seguinte maneira:p(y~|y)


para s = 1,2, ..., S do

desenha deθ(s)p(θ|y)

desenha dey~(s)p(y~|θ(s))


onde, na maioria das situações, já temos os desenhos de , de modo que apenas o segundo passo é necessário.p(θ|y)

A razão pela qual isso funciona é bastante simples: primeiro observe que . Assim, amostrando um vetor de parâmetro de e, usando esse vetor para amostrar de produz amostras da distribuição conjunta . Segue que, os valores amostrados são amostras da distribuição marginal, .p(y~,θ|y)=p(y~|θ,y)p(θ|y)θ(s)p(θ|y)y~(s)p ( ~ y , q | y ) ~ y ( s ) , s = 1 , 2 , . . . , S p ( ~ y | y )p(y~|θ(s))=p(y~|θ(s),y)p(y~,θ|y)y~(s),s=1,2,...,Sp(y~|y)

baruuum
fonte
1

Para responder à sua primeira pergunta: sim, as observações não são independentes se você não souber o valor de . Digamos que você tenha observado que tem um valor bastante extremo. Pode ser uma indicação de que o valor desconhecido de si é extremo e, portanto, você deve esperar que outras observações sejam extremas também.˜ y 1 θθy~1θ

hr0nix
fonte