Posso subamostrar um grande conjunto de dados a cada iteração do MCMC?

Problema: quero realizar uma amostragem de Gibbs para inferir algumas posteriores em um grande conjunto de dados. Infelizmente, meu modelo não é muito simples e, portanto, a amostragem é muito lenta. Eu consideraria abordagens variacionais ou paralelas, mas antes de ir tão longe ...

Pergunta: Gostaria de saber se poderia amostrar aleatoriamente (com substituição) do meu conjunto de dados a cada iteração Gibbs, para que eu tenha menos instâncias para aprender a cada etapa.

Minha intuição é que, mesmo que eu mude as amostras, eu não estaria alterando a densidade de probabilidade e, portanto, a amostra de Gibbs não deve perceber o truque. Estou certo? Existem algumas referências de pessoas que fizeram isso?

sampling bootstrap mcmc large-data gibbs Alberto
fonte

Como um aparte: outra idéia seria fazer várias análises em subamostras aleatórias do grande conjunto de dados. Dessa forma, você também pode validar cruzadamente.

conjectures

Não posso responder sua pergunta exata com nenhuma autoridade (embora minha suspeita seja que você estaria apenas aumentando o erro de aproximação que vem com Monte Carlo), a triste verdade é que esse é apenas um aspecto infeliz das análises bayesianas do MCMC: elas são computacionalmente caro. O comentário das @conjectures é uma ótima idéia, mas não chega ao cerne da questão: é muito caro coletar todas essas amostras para cada indivíduo. Minha recomendação é escrever seu próprio código C para o trabalho pesado (Rcpp em R, Cython em Python, etc.) e também paralelizar (quando não houver dependências de ramificação).

@conjectures Parece o saco de pequenas botas de Michael Jordan.

jaradniemi

Eu sugeriria alterar seu amostrador para evitar o aumento da variável latente por completo. Você não terá mais um amostrador Gibbs, mas um algoritmo Metropolis-Hastings com uma proposta baseada em uma aproximação normal da probabilidade deve funcionar bem. Veja a Seção 16.4 da 2ª edição da Análise Bayesiana de Dados.

jaradniemi

Esta é uma área de pesquisa ativa que eu não conheço bem o suficiente para resumir com precisão para você. Veja, por exemplo, jmlr.org/proceedings/papers/v32/bardenet14.pdf e arxiv.org/pdf/1304.5299v4.pdf

Andrew M

Respostas:

Sobre as estratégias de subamostragem: considere, por exemplo, duas observações e e considere colocar alguns antecedentes na média e variância. Seja , o posterior que queremos avaliar é $X_1 \sim N(\mu_1, \sigma_1^2)$ $X_2 \sim N(\mu_2,\sigma_2^2)$ $\theta = (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2)$ , se , escolhemos , o novo posterior é Considere agora uma variável binomial . Se , escolhemos onde

f (θ | X_{1 1}, X_{2}) \propto f (X_{1 1} | θ) f (X_{2} | θ) f (θ)

$f(\theta|X_1, X_2) \propto f(X_1|\theta)f(X_2 | \theta)f(\theta)$

δ \sim B (0.5)

$\delta \sim B(0.5)$

δ = 0

$\delta=0$

X_{1}

$X_1$

δ = 1

$\delta =1$

X_{2}

$X_2$

f (θ, δ | X_{1 1}, X_{2}) \propto f (X_{1 1}, X_{2} | δ, θ) f (θ) f (δ)

$f(\theta, \delta|X_1, X_2) \propto f(X_1, X_2|\delta,\theta)f(\theta)f(\delta)$

f (X_{1}, X_{2} | δ, θ) = f (X_{1} | θ)^{δ} f (X_{2} | θ)^{1 - δ}

$f(X_1, X_2|\delta,\theta) = f(X_1|\theta)^{\delta} f(X_2|\theta)^{1-\delta}$

Agora, se você quiser amostra.

com um passo Gibbs você tem que compute

f (δ) = 0.5

$f(\delta) = 0.5$

δ

$\delta$

f (X_{1} | θ)

$f(X_1|\theta)$

porque

f (X_{2} | θ)

$f(X_2|\theta)$

. Se você utilizar de outra forma o Metropolis Hastings, então você propor um novo estado

e você tem que calcular apenas um entre

P (δ = 1) = \frac{f (X_{1} | θ)}{f (X_{1} | θ) + f (X_{2} | θ)}

$P(\delta=1)= \frac{f(X_1|\theta) }{f(X_1|\theta) +f(X_2|\theta) }$

δ^{*}

$\delta^*$

f (X_{1} | θ)

$f(X_1|\theta)$

, aquele associado com os estados propostos, mas você tem que calcular um entre

f (X_{2} | θ)

$f(X_2|\theta)$

f (X_{1} | θ)

$f(X_1|\theta)$

mesmo para o último estado aceito de

. Então não tenho certeza de que a metrópole lhe dará alguma vantagem. Além disso, aqui estamos considerando um processo bivariado, mas com um processo multivariado a amostragem dos

s pode ser muito complicada com a metrópole.

f (X_{2} | θ)

$f(X_2|\theta)$

δ

$\delta$

δ

$\delta$

niandra82
fonte