Estou fazendo um curso de Introdução à Bayes e estou tendo dificuldades para entender as distribuições preditivas. Entendo por que eles são úteis e estou familiarizado com a definição, mas há algumas coisas que não entendo direito.
1) Como obter a distribuição preditiva correta para um vetor de novas observações
Suponha que tenhamos construído um modelo de amostragem para os dados e um . Suponha que as observações sejam condicionalmente independentes, dadas .p ( θ ) y i θ
Observamos alguns dados e atualizamos nosso para o .p ( θ ) p ( θ | D )
Se quisermos prever um vetor de novas observações , eu acho que deveríamos tentar obter a previsão posterior usando essa fórmula que não é igual a então as observações previstas não são independentes, certo?p ( N | D ) = ∫ p ( θ | D ) p ( N | θ )
Diga isso Beta ( ) Binomial ( ) para um fixo . Nesse caso, se eu quisesse simular 6 novos , se eu entendesse isso corretamente, seria errado simular 6 desenhos independentemente da distribuição beta-binomial que corresponde ao preditivo posterior para uma única observação. Isso está correto? Não sei como interpretar que as observações não são independentes marginalmente, e não tenho certeza se entendi corretamente.
Simulando a partir de preditivos posteriores
Muitas vezes, quando simulamos dados do preditivo posterior, seguimos este esquema:
Para de 1 a :
1) Amostra de .
2) Em seguida, simule novos dados de .
Não sei como provar que esse esquema funciona, embora pareça intuitivo. Além disso, isso tem um nome? Tentei procurar uma justificativa e tentei nomes diferentes, mas não tive sorte.
Obrigado!
fonte
Respostas:
Suponha que sejam condicionalmente independentes, dado que . Então, em que a primeira igualdade segue a lei da probabilidade total, a segunda segue a regra do produto e a terceira a independência condicional assumida: dado o valor deX1,…,Xn,Xn+1 Θ=θ
O esquema de simulação está correto: para , draw da distribuição de , e desenhe da distribuição de . Isso fornece uma amostra da distribuição de .i=1,…,N θ(i) Θ∣X1=x1,…,Xn=xn x(i)n+1 Xn+1∣Θ=θ(i) {x(i)n+1}Ni=1 Xn+1∣X1=x1,…,Xn=xn
fonte
Tentarei repassar a intuição por trás da geração da distribuição preditiva posterior passo a passo.
Vamos ser um vetor de dados observados que vêm de uma distribuição de probabilidade e deixe ser um vetor de futuro (ou out-of-sample) valores que queremos prever. Assumimos que vem da mesma distribuição que . Pode ser tentador usar nossa melhor estimativa de - como a estimativa MLE ou MAP - para obter informações sobre essa distribuição. No entanto, isso inevitavelmente ignoraria nossa incerteza sobre . Assim, a maneira apropriada de proceder é calcular a média da distribuição posterior de , ou seja, . Observe também quey p(y|θ) y~ y~ y θ θ θ p(θ|y) y~ é independente de dado , pois supõe-se que seja uma amostra independente desenhada da mesma distribuição que . Portanto,y θ y
A distribuição preditiva posterior de é assim,y~
onde é o suporte de .Θ θ
Agora, como obtemos as amostras de ? O método que você descreve é chamado de método de composição , que funciona da seguinte maneira:p(y~|y)
para s = 1,2, ..., S do
desenha deθ(s) p(θ|y)
desenha dey~(s) p(y~|θ(s))
onde, na maioria das situações, já temos os desenhos de , de modo que apenas o segundo passo é necessário.p(θ|y)
A razão pela qual isso funciona é bastante simples: primeiro observe que . Assim, amostrando um vetor de parâmetro de e, usando esse vetor para amostrar de produz amostras da distribuição conjunta . Segue que, os valores amostrados são amostras da distribuição marginal, .p(y~,θ|y)=p(y~|θ,y)p(θ|y) θ(s) p(θ|y) y~(s) p ( ~ y , q | y ) ~ y ( s ) , s = 1 , 2 , . . . , S p ( ~ y | y )p(y~|θ(s))=p(y~|θ(s),y) p(y~,θ|y) y~(s),s=1,2,...,S p(y~|y)
fonte
Para responder à sua primeira pergunta: sim, as observações não são independentes se você não souber o valor de . Digamos que você tenha observado que tem um valor bastante extremo. Pode ser uma indicação de que o valor desconhecido de si é extremo e, portanto, você deve esperar que outras observações sejam extremas também.˜ y 1 θθ y~1 θ
fonte