MCMC; Podemos ter certeza de que temos uma amostra '' pura '' e '' suficientemente grande '' da parte posterior? Como isso pode funcionar se não estivermos?

12

Referindo-se a este tópico: Como você explicaria o Markov Chain Monte Carlo (MCMC) a um leigo? .

Eu posso ver que é uma combinação de cadeias de Markov e Monte Carlo: uma cadeia de Markov é criada com a posterior como distribuição limitadora invariante e, em seguida, os sorteios de Monte Carlo (dependentes) são feitos a partir da distribuição limitadora (= nossa posterior).

Digamos (eu sei que estou simplificando aqui) que, após as etapas L , estamos na distribuição limitadora Π (*).

Como a cadeia de Markov é uma sequência de variáveis ​​aleatórias, recebo uma sequência , em que é uma variável aleatória e é o limitador ' 'variável aleatória' 'da qual desejamos amostrar. X1,X2,,XL,Π,Π,Π,ΠXiΠ

O MCMC inicia com um valor inicial, ou seja, é uma variável aleatória com toda a massa nesse valor . Se eu usar letras maiúsculas para variáveis ​​aleatórias e letras minúsculas para a realização de uma variável aleatória, o MCMC uma sequência . Portanto, o comprimento da cadeia MCMC é L + n.X1x1x1,x2,x3,xL,π1,π2,π3,....πn

[[* Nota: as letras maiúsculas são variáveis ​​aleatórias (ou seja, um monte de resultados) e o pequeno são resultados, ou seja, um valor específico. *]]x

Obviamente, apenas o pertence ao meu '' posterior '' e, para aproximar o '' poço '' posterior, o valor de deve ser '' grande o suficiente ''.πin

Se eu resumir isso, tenho uma cadeia MCMC de comprimento , apenas são relevantes para minha aproximação posterior, e deve ser grande o suficiente. N = L + n π 1 , π 2 , , π n nx1,x2,x3,xL,π1,π2,π3,....πnN=L+nπ1,π2,,πnn

Se eu incluir alguns dos (ou seja, realizações antes que a distribuição invariante seja alcançada) no cálculo da aproximação do posterior, será "barulhento".xi

Eu sei o comprimento da cadeia MCMC , mas sem o conhecimento do , ou seja, a etapa em que tenho certeza de colher amostras da distribuição limitadora, não posso ter certeza de que não incluí ruído, nem posso tenha certeza de , o tamanho da minha amostra da distribuição limitadora, em particular, não posso ter certeza se ela é '' grande o suficiente ''. L n = N - LN=L+nLn=NL

Então, tanto quanto eu entendi, esse valor de é de importância crítica para a qualidade da aproximação do posterior (exclusão de ruído e uma grande amostra dele)L .

Existem maneiras de encontrar uma estimativa razoável para quando aplico o MCMC?L

(*) Eu acho que, em geral, dependerá do valor inicial .x 1Lx1

Comunidade
fonte

Respostas:

6

TL DR; Você não pode estimar desde . Assim, a suposição simplificadora nunca pode ser verdadeiramente possível. (Talvez haja alguns casos em que esteja, mas não no mundo geral do MCMC). No entanto, você pode decidir o que tornará pequeno o viés inicial.L = NLL=N


Essencialmente, sua pergunta se resume a "como podemos estimar o tempo de queima?". A queima é o ato de jogar fora as amostras iniciais, porque a cadeia de Markov não convergiu. Existem muitos diagnósticos do MCMC que ajudam a estimar o tempo de "queima", você pode ver uma revisão deles aqui .

Existem duas escolas através de burn-in; o popular é usar um desses diagnósticos para decidir o que é e jogar fora as amostras , e na segunda escola, as primeiras amostras não devem importar, portanto, não se preocupe. Charlie Geyer tem um discurso retórico sobre o qual eu concordo.L LLLL

Agora, passo aos detalhes mais técnicos da sua pergunta.

Uma suposição simplificadora que você faz na sua pergunta é que, eventualmente (após etapas), o amostrador começará a desenhar a partir da distribuição limitadora. Portanto, suas amostras após as etapas são simples, embora correlacionadas. Isso é falso. A rigor, é . A cadeia de Markov nunca converge verdadeiramente para a distribuição limitadora em tempo finito. Portanto, estimar é quase inútil.L L LLLLL

Uma maneira diferente de fazer essa pergunta é: o que é tal que, após etapas, a cadeia de Markov esteja "próxima o suficiente" da distribuição limitadora. Essa é a pergunta que a maioria dos diagnósticos tenta responder. É cada vez mais consensual que os diagnósticos acima são geralmente extremamente liberais e podem diagnosticar "convergência" muito antes do que deveria. Aqui está um artigo que demonstra algumas das fraquezas do diagnóstico.LLL

O que acima pede aos usuários para fazer em vez disso é não se preocupe com , se preocupar com . Geralmente, os usuários não estão interessados ​​na distribuição posterior completa, mas em uma quantidade específica. Frequentemente, essa quantidade é a média do posterior, ou qualquer outra função que possa ser anotada como uma expectativa. É aqui que a parte "Monte Carlo" do MCMC entra, pois Monte Carlo indica a estimativa de uma integral com a soma. Portanto, se é sua cadeia de Markov (observe como estou ignorando , já que é ), e queremos estimar a média posterior ( ), então N X 1 , X 2 , X 3 , , X N L L θ ˉ θ N = 1LNX1,X2,X3,,XNLLθ

θ¯N=1Ni=1NXi.

A idéia é que, se for grande o suficiente, o viés inicial da amostra será insignificante. Obviamente, se o valor inicial estava pateticamente longe do espaço de alta probabilidade da distribuição limitadora, um usuário pode olhar e jogar fora as duas primeiras amostras. Isso é diferente de estimar , pois não é uma estimativa, mas um desrespeito às amostras claramente corrompidas.LNL

Agora, a questão é: qual deve ser o tamanho ? A resposta deve depender de quão bem queremos estimar . Se queremos uma ótima estimativa, queremos mais amostras, se uma estimativa razoável é suficiente, então podemos ficar bem com uma amostra menor. Isso também é exatamente o que acontece nos problemas estatísticos padrão.θNθ

A maneira como quantificamos a "bondade" de uma estimativa é pensar "o que podemos dizer , do erro de Monte Carlo? Sob condições razoáveis, de fato existe uma cadeia de Markov CLT que diz como , para qualquer distribuição inicialN (θ¯Nθ)N

N(θ¯Nθ)dNp(0,Σ),

onde e é a matriz de covariância assintótica. A chave aqui é que o resultado é verdadeiro para qualquer distribuição inicial.θRpΣ

Quando é pequeno, sabemos que o estimador é bom. Este artigo apresenta essa idéia de parar, e minha resposta aqui resume seu método. Os resultados em seus trabalhos também são independentes da distribuição inicial do processo.Σ/N

Greenparker
fonte
Thx pela resposta (+1) Eu sei que deve ser , eu disse explicitamente que estava simplificando. Quanto ao seu CLT, não deveria ser para a convergência na distribuição? e para o , isso é calculado após a queda dos valores de burn-in, porque se for após a queda deles, o problema permanece? (? Posso perguntar o que significa TL DR) Agradecimentos para o papel, eu lê-lo em detalheLΣ/nθ^N
Corrigido um erro, que deveria ter sido . é calculado a partir de todas as amostras, nada está sendo descartado. TL DR significa "muito tempo, não leu". Esqueci de acrescentar que o CLT vale para qualquer distribuição inicial. Vou acrescentar isso. Σ/Nθ¯N
Greenparker
Tenho mais uma pergunta: no artigo de Flegal, Haran e Jones, MCMC: podemos apresentar o terceiro número significativo , abaixo da fórmula (3), diz que é assumido que . Isso significa que eu deveria levar em consideração a estimativa de ? X1πg¯n
@fcop Essa linha é apenas para descrever as expectativas. Não é assumido que , mas as expectativas são com relação a na fórmula. X1ππ
Greenparker