As iterações do MCMC após a queima podem ser usadas para estimativa de densidade?

Após a queima, podemos usar diretamente as iterações do MCMC para estimativa de densidade, como plotagem de um histograma ou estimativa de densidade do kernel? Minha preocupação é que as iterações do MCMC não sejam necessariamente independentes, embora sejam no máximo identicamente distribuídas.

E se aplicarmos o desbaste adicional às iterações do MCMC? Minha preocupação é que as iterações do MCMC não sejam correlacionadas, e ainda não sejam independentes.

A base que aprendi para usar uma função de distribuição empírica como estimativa da verdadeira função de distribuição é baseada no teorema de Glivenko – Cantelli , onde a função de distribuição empírica é calculada com base em uma amostra de iid. Eu parecia ver alguns fundamentos (resultados assintóticos?) Para usar histogramas ou estimativas de densidade do núcleo como estimativas de densidade, mas não consigo me lembrar deles.

distributions mcmc asymptotics Tim
fonte

Respostas:

Você pode - e as pessoas fazem - estimar densidades a partir da amostragem MCMC.

Um aspecto a ter em mente é que, embora histogramas e KDEs sejam convenientes, pelo menos em casos simples (como amostragem de Gibbs), estimativas de densidade muito mais eficientes podem estar disponíveis.

Se considerarmos a amostragem de Gibbs em particular, a densidade condicional da qual você está amostrando pode ser usada no lugar do próprio valor da amostra na produção de uma estimativa média da densidade. O resultado tende a ser bastante suave.

A abordagem é discutida em

Gelfand e Smith (1990), "Abordagens baseadas em amostragem para calcular densidades marginais"
Journal of the American Statistical Association , vol. 85, n. 410, pp. 398-409

(embora Geyer avise que, se a dependência do amostrador for alta o suficiente, ela nem sempre reduzirá a variação e fornecerá condições para isso)

Essa abordagem também é discutida, por exemplo, em Robert, CP e Casella, G. (1999) Monte Carlo Statistical Methods .

Você não precisa de independência, na verdade está computando uma média. Se você deseja calcular um erro padrão de uma estimativa de densidade (ou um cdf), é necessário considerar a dependência.

A mesma noção se aplica a outras expectativas, é claro, e, portanto, pode ser usada para melhorar as estimativas de muitos outros tipos de média.

Glen_b -Reinstate Monica
fonte

Obrigado! Você quer dizer que, como distribuições marginais são expectativas em relação à distribuição conjunta, não importa usar iterações correlatas do MCMC para estimar distribuições marginais? E se você usar as iterações correlacionadas para estimar a distribuição conjunta? Ainda ok?

Tim

Não, é isso que eu quero dizer. Quero dizer que os estimadores com os quais estamos lidando são médias das coisas e estão sendo usados para estimar quantidades populacionais que, por sua vez, podem ser interpretadas como expectativas dessas coisas. Sim, você pode usar desenhos dependentes para estimar uma distribuição conjunta no mesmo sentido.

Glen_b -Reinstala Monica 30/03

Por que podemos usar as iterações correlacionadas para estimar a distribuição conjunta? Eu acho que não, porque distribuição conjunta não é expectativa de algo. Observe que no teorema de Glivenko – Cantelli, o cdf empírico é calculado na amostra iid.

Tim

Para a densidade, você pode considerar algo como a estimativa de amostra descrita aqui por exemplo (e pode ser considerada como o limite de um histograma com caixas cada vez mais estreitas); é uma média, e acredito que a expectativa é a densidade. Em relação ao cdf, você pode considerar se pode fazer algo com o cdf empírico para torná-lo na forma de uma média. Ambas as idéias parecem funcionar com amostras de uma distribuição conjunta.

Glen_b -Reinstala Monica 30/03

Currículo

Você pode usar diretamente as iterações do MCMC para qualquer coisa, porque o valor médio do seu observável se aproximaria assintoticamente do valor verdadeiro (porque você está após o burn-in).

No entanto, lembre-se de que a variação dessa média é influenciada pelas correlações entre as amostras. Isso significa que, se as amostras estiverem correlacionadas, como é comum no MCMC, armazenar todas as medições não trará nenhuma vantagem real.

Em teoria, você deve medir após N etapas, onde N é da ordem do tempo de autocorrelação do observável que você está medindo.

Explicação detalhada

$x_t$ $t$ $f$

$x_t \in \mathbb{R}$ $f=f_a(x)$ $x\in[a,a+\Delta]$ $x_t$ $P(x)$

$f$

F = \frac{1 1}{N} \sum_{Eu = 1 1}^{N} f (x_{Eu})

$F = \frac{1}{N}\sum_{i=1}^N f(x_i)$

$\langle F\rangle$ $P(x)$

⟨ F ⟩ = \frac{1 1}{N} \sum_{Eu = 1 1}^{N} ⟨ f (x_{Eu}) ⟩ = ⟨ f (x) ⟩

$\langle F \rangle = \frac{1}{N}\sum_{i=1}^N \langle f(x_i)\rangle = \langle f(x)\rangle$

qual é o que você deseja obter.

$\langle F^2 \rangle - \langle F \rangle^2$

\sum_{Eu = 1 1}^{N} \sum_{j = 1 1}^{N} ⟨ f (x_{Eu}) f (x_{j}) ⟩

$\sum_{i=1}^N\sum_{j=1}^N \langle f(x_i)f(x_j)\rangle$

$x_t$ $j=i+\Delta$ $f$ $R(\Delta)$

Então, para recapitular:

Se computacionalmente não custar nada para armazenar todas as medidas, você poderá fazê-lo, mas lembre-se de que a variação não pode ser calculada usando a fórmula usual.
$\tau$ $\tau$

Jorge Leitao
fonte

\sqrt{n}

$\sqrt n$

O desbaste é apenas um desperdício de dados úteis. Não reduz a variação da estimativa. Veja os comentários para esta pergunta: stats.stackexchange.com/a/258529/58675

DeltaIV

@DeltaIV, sim. Meu ponto aqui foi que, diminuindo ou não, a escala de tempo relevante ainda é o tempo de autocorrelação.

Jorge Leitao 16/04