Supondo que eu considere a média da distribuição posterior, e não uma amostra aleatória, é isso que é comumente chamado de Rao-Blackwellization?
Não estou muito familiarizado com os modelos de volatilidade estocástica, mas sei que, na maioria das situações, a razão pela qual escolhemos os algoritmos Gibbs ou MH para desenhar a partir do posterior é porque não conhecemos o posterior. Muitas vezes, queremos estimar a média posterior e, como não sabemos a média posterior, extraímos amostras da posterior e a estimamos usando a média da amostra. Portanto, não tenho certeza de como você conseguirá calcular a média da distribuição posterior.
Em vez disso, o estimador Rao-Blackwellized depende do conhecimento da média do condicional completo; mas mesmo assim a amostragem ainda é necessária. Eu explico mais abaixo.
Suponha que a distribuição posterior seja definida em duas variáveis, ), de modo que você queira estimar a média posterior: . Agora, se um amostrador Gibbs estivesse disponível, você poderia executá-lo ou executar um algoritmo MH para amostrar a partir do posterior.E [ θ ∣ dados ]θ=(μ,ϕE[θ∣data]
Se você pode executar um amostrador Gibbs, conhece em formato fechado e conhece a média dessa distribuição. Que isso signifique ser . Observe que é uma função de e dos dados.ϕ ∗ ϕ ∗ μf(ϕ∣μ,data)ϕ∗ϕ∗μ
Isso também significa que você pode integrar out partir do posterior, de modo que o marginal posterior de seja (isso não é conhecido completamente, mas é conhecido como constante). Agora você deseja executar uma cadeia de Markov de forma que seja a distribuição invariante e obtenha amostras desse marginal posterior. A questão éu f ( u | d um t um ) f ( u | d um t um )ϕμf(μ∣data)f(μ∣data)
Como você pode agora estimar a média posterior de usando apenas essas amostras da margem posterior de ?μϕμ
Isso é feito via Rao-Blackwellization.
E[ϕ∣data]=∫ϕf(μ,ϕ∣data)dμdϕ=∫ϕf(ϕ∣μ,data)f(μ∣data)dμdϕ=∫ϕ∗f(μ∣data)dμ.
Assim, suponha que tenhamos obtido as amostras partir da margem posterior de . Então
u & Phi; = 1X1,X2,…XNμ
ϕ^=1N∑i=1Nϕ∗(Xi),
é chamado de estimador Rao-Blackwellized para . O mesmo pode ser feito simulando também os marginais comuns.ϕ
Exemplo (Puramente para demonstração).
Suponha que você tenha uma articulação desconhecida posterior para da qual você deseja provar. Seus dados são alguns e você tem os seguintes condicionais completos
y μ | φ , y ~ N ( φ 2 + 2 y , y 2 ) φ | μ , y ~ L um m m um ( 2 μ + y , y + 1 )θ=(μ,ϕ)y
μ∣ϕ,y∼N(ϕ2+2y,y2)
ϕ∣μ,y∼Gamma(2μ+y,y+1)
Você executa o amostrador de Gibbs usando esses condicionais e obtém amostras da articulação posterior . Que essas amostras sejam . Você pode encontrar a média amostral dos s, e esse seria o estimador de Monte Carlo usual para a média posterior para .( μ 1 , & Phi 1 ) , ( μ 2 , φ 2 ) , ... , ( μ N , φ N ) φ φf(μ,ϕ∣y)(μ1,ϕ1),(μ2,ϕ2),…,(μN,ϕN)ϕϕ
Ou, observe que pelas propriedades da distribuição Gamma
E[ϕ|μ,y]=2μ+yy+1=ϕ∗.
Aqui são os dados fornecidos a você e, portanto, são conhecidos. O estimador Rao Blackwellized seria entãoy
ϕ^=1N∑i=1N2μi+yy+1.
Observe como o estimador para a média posterior de nem usa as amostras e apenas usa as amostras . De qualquer forma, como você pode ver, ainda está usando as amostras obtidas de uma cadeia de Markov. Este não é um processo determinístico.ϕϕμ
O amostrador Gibbs pode então ser usado para melhorar a eficiência de (digamos) amostras de um posterior marginal, chame-o . Nota Assim, o a densidade marginal de com algum valor é o valor esperado da densidade condicional de fornecida no ponto .π2(θ2|y)
Isso é interessante devido ao lema da decomposição da variância onde a variância condicional é . Além disso, . Em particular, Um amostrador de Gibbs nos dará realizações . O resultado é que é melhor estimar por que em algumas estimativas convencionais de densidade de kernel usando o para o ponto
Exemplo
Suponha que e sejam bivariados normais com médias zero, variâncias 1 e correlação . Ou seja, Claramente, marginalmente, , mas vamos fingir que não sabemos disso. É sabido que a distribuição condicional de dada é .X Y ρ
Dadas algumas realizações de a estimativa "Rao-Blackwell" da densidade de em é Como ilustração, vamos comparar uma estimativa de densidade do kernel com a abordagem RBM (X,Y) Y y
Observamos que a estimativa RB se sai muito melhor (pois explora as informações condicionais):
fonte