Por que a parametrização média redundante acelera o Gibbs MCMC?

12

No livro de Gelman & Hill (2007) (Análise de dados usando regressão e modelos multiníveis / hierárquicos), os autores afirmam que a inclusão de parâmetros médios redundantes pode ajudar a acelerar o MCMC.

O exemplo dado é um modelo não aninhado de "simulador de vôo" (Eq 13.9):

yiN(μ+γj[i]+δk[i],σy2)γjN(0,σγ2)δkN(0,σδ2)

Eles recomendam uma reparameterização, adicionando os parâmetros médios e seguinte maneira:μγμδ

γjN(μγ,σγ2)δkN(μδ,σδ2)

A única justificativa oferecida é que (p. 420):

É possível que as simulações fiquem presas em uma configuração em que todo o vetor (ou ) esteja longe de zero (mesmo que eles tenham uma distribuição com média 0). Por fim, as simulações convergirão para a distribuição correta, mas não queremos esperar.γδ

Como os parâmetros médios redundantes ajudam com esse problema?

Parece-me que o modelo não aninhado é lento principalmente porque e estão negativamente correlacionados. (De fato, se um sobe, o outro deve cair, dado que sua soma é "fixada" pelos dados). Os parâmetros médios redundantes ajudam a reduzir a correlação entre e , ou algo completamente diferente?γδγδ

Heisenberg
fonte
Você está procurando informações intuitivas sobre esse problema específico (por exemplo, se é a correlação - ou as correlaçõesγδ - μ e δ - μ ), ou está procurando informações intuitivas sobre o problema geral (ou seja, o conceito centralização hierárquica)? Neste último caso, você desejaria uma intuição próxima de uma prova ou intuição muito mais solta e que mostre mais ou menos como ela funciona? γμδμ
Sextus Empiricus
Eu gostaria de uma visão intuitiva sobre o conceito de centralização hierárquica em geral (já que o caso específico da pergunta é diretamente uma aplicação da centralização hierárquica). O ponto principal sobre o qual eu quero entender é: por que a centralização hierárquica funciona se a variação no nível do grupo é uma parte considerável da variação total ? O artigo de Gelfand et al. prova isso matematicamente (ou seja, derivar a correlação e encontrar seu comportamento limitador), mas sem nenhuma explicação intuitiva.
Heisenberg

Respostas:

4

μγjδk

γjδkμ

Veja uma descrição muito clara na seção 25.1 'O que é centralização hierárquica?' no livro (disponível gratuitamente) 'Estimativa do MCMC em MLwiN' por William J. Browne e outros. http://www.bristol.ac.uk/cmm/software/mlwin/download/manuals.html

Sextus Empiricus
fonte
A Seção 25.1 da 'Estimativa MCMC MlwiN' descreve essa técnica de "centralização hierárquica", mas não detalha mais detalhes do que afirmar que funciona. Escavação através de suas referências, descobri que a prova real desta técnica é apresentada no artigo parametrizações eficientes para modelos lineares mistos normais , por Gelfand et ai, Biometrika 82 vol questão 3.
Heisenberg
O artigo acima, por sua vez, utiliza propriedades da distribuição normal sem explicar. Encontrei provas dessas propriedades na análise Bayesiana Conjugada da distribuição Gaussiana por Kevin Murphy.
Heisenberg
Infelizmente, ainda não vi uma explicação intuitiva do porquê dessa técnica funcionar.
Heisenberg
É tarde, mas acho que esse papel pode ser o que você está procurando
baruuum