Eu estava revisando a documentação do Stan, que pode ser baixada aqui . Eu estava particularmente interessado na implementação do diagnóstico Gelman-Rubin. O artigo original Gelman & Rubin (1992) define o potencial fator de redução de escala (PSRF) da seguinte maneira:
Deixe que ser o th cadeia de Markov amostrado, e que não haja geral cadeias independentes amostrados. Deixe ser a média do th da cadeia, e ser o global significativo. Definir,
Definir V = ( N - 1 O PSRF é estimado com √
A documentação Stan na página 349 ignora o prazo com e também remove o ( M + 1 ) / H multiplicativo prazo. Essa é a fórmula deles,
O estimador de variância é Finalmente, a estatística de redução de escala potencial é definido por R = √
Pelo que pude ver, eles não fornecem uma referência para essa mudança de fórmula e nem discutem isso. Geralmente não é muito grande e geralmente pode ser tão baixo quanto 2 , portanto ( M + 1 ) / M não deve ser ignorado, mesmo que o termo d f possa ser aproximado com 1.
Então, de onde vem essa fórmula?
Edição: Encontrei uma resposta parcial para a pergunta "de onde vem essa fórmula? ", Em que o livro Bayesian Data Analysis de Gelman, Carlin, Stern e Rubin (Segunda edição) tem exatamente a mesma fórmula. No entanto, o livro não explica como / por que é justificável ignorar esses termos?
fonte
Respostas:
Gelman & Rubin (1992) also had the term with df as df/(df-2). Brooks & Gelman (1998) have a section describing why this df corretion is incorrect and define (df+3)/(df+1). The paragraph before Section 3.1 in Brooks & Gelman (1998) explains why (d+3)/(d+1) can be dropped.
It seems your source for the equations was something post Brooks & Gelman (1998) as you had (d+3)/(d+1) there and Gelman & Rubin (1992) had df/df(-2). Otherwise Gelman & Rubin (1992) and Brooks & Gelman (1998) have equivalent equations (with slightly different notations and some terms are arranged differently). BDA2 (Gelman, et al., 2003) doesn't have anymore termsσ^+Wm−n−1mn . BDA3 (Gelman et al., 2003) and Stan introduced split chains version.
My interpretation of the papers and experiences using different versions ofR^ is that the terms which have been eventually dropped can be ignored when n is large, even when m is not. I also vaguely remember discussing this with Andrew Gelman years ago, but if you want to be certain of the history, you should ask him.
I really do hope that this is not often the case. In cases where you want to use split-R^ convergence diagnostic, you should use at least 4 chains split and thus have M=8. You may use less chains, if you already know that in your specific cases the convergence and mixing is fast.
Additional reference:
fonte