Na inferência bayesiana, por que alguns termos são retirados do preditivo posterior?

12

Na análise bayesiana conjugada da distribuição gaussiana de Kevin Murphy , ele escreve que a distribuição preditiva posterior é

p(xD)=p(xθ)p(θD)dθ

onde são os dados nos quais o modelo está ajustado e são dados não vistos. O que não entendo é por que a dependência de desaparece no primeiro termo na integral. Usando regras básicas de probabilidade, eu teria esperado:DxD

p(a)=p(ac)p(c)dcp(ab)=p(ac,b)p(cb)dcp(xD)=p(xθ,D)p(θD)dθ

Pergunta: Por que a dependência de no termo desaparece?D


Pelo que vale, eu já vi esse tipo de formulação (descartando variáveis ​​em condicionais) em outros lugares. Por exemplo, em Bayesian Online Changepoint Detection , de Ryan Adam , ele escreve o preditivo posterior como

p(xt+1rt)=p(xt+1θ)p(θrt,xt)dθ

onde novamente, desde , eu teria esperadoD={xt,rt}

p(xt+1xt,rt)=p(xt+1θ,xt,rt)p(θrt,xt)dθ

gwg
fonte

Respostas:

13

Isso se baseia na suposição de que é condicionalmente independente de , dado . Essa é uma suposição razoável em muitos casos, porque tudo o que diz é que os dados de treinamento e teste ( e , respectivamente) são gerados independentemente a partir do mesmo conjunto de parâmetros desconhecidos . Dada essa suposição de independência, e, portanto, o sai da forma mais geral que você esperava.xDθDxθp(x|θ,D)=p(x|θ)D

No seu segundo exemplo, parece que uma suposição de independência semelhante está sendo aplicada, mas agora (explicitamente) ao longo do tempo. Essas suposições podem ser explicitamente declaradas em outras partes do texto, ou podem ser implicitamente claras para qualquer pessoa que esteja suficientemente familiarizada com o contexto do problema (embora isso não signifique necessariamente isso em seus exemplos particulares - com os quais não estou familiarizado). - os autores estavam certos ao assumir essa familiaridade).

Ruben van Bergen
fonte
9

É porque é assumido como independente de dado . Em outras palavras, todos os dados são considerados como iid de uma distribuição normal com parâmetros . Depois que é levado em consideração usando as informações de , não há mais informações que nos fornece sobre um novo ponto de dados . Portanto .xDθθθDDxp(x|θ,D)=p(x|θ)

JP Trawinski
fonte