Esta é uma pergunta recorrente (veja este post , este post e este post ), mas eu tenho uma opinião diferente.
Suponha que eu tenha várias amostras de um amostrador genérico do MCMC. Para cada amostra , eu sei o valor da probabilidade do log e do log anterior . Se ajudar, também sei o valor da probabilidade do log por ponto de dados, (essas informações ajudam em certos métodos, como WAIC e PSIS-LOO).log f ( x | θ ) log f ( θ ) log f ( x i | θ )
Quero obter uma estimativa (bruta) da probabilidade marginal, apenas com as amostras que tenho e, possivelmente, algumas outras avaliações de função (mas sem executar novamente um MCMC ad hoc ).
Primeiro de tudo, vamos limpar a mesa. Todos sabemos que o estimador harmônico é o pior estimador de todos os tempos . Vamos continuar. Se você estiver fazendo uma amostragem de Gibbs com anteriores e posteriores na forma fechada, poderá usar o método de Chib ; mas não sei como generalizar fora desses casos. Também existem métodos que exigem que você modifique o procedimento de amostragem (como via posterior temperado ), mas não estou interessado nisso aqui.
A abordagem em que estou pensando consiste em aproximar a distribuição subjacente com uma forma paramétrica (ou não paramétrica) e depois descobrir a constante de normalização como um problema de otimização 1-D (ou seja, o que minimiza algum erro entre e , avaliadas sobre as amostras). No caso mais simples, suponha que o posterior seja aproximadamente multivariado normal, eu posso ajustar como um normal multivariado e obter algo semelhante a uma aproximação de Laplace (eu poderia querer usar algumas avaliações de funções adicionais para refinar a posição de o modo). No entanto, eu poderia usar comoZ Z Z g ( θ ) f ( x | θ ) f ( θ ) g ( θ ) g ( θ )uma família mais flexível, como uma mistura variacional de distribuições multivariadas de .
Compreendo que esse método funcione apenas se for uma aproximação razoável de , mas qualquer motivo ou conto preventivo sobre por que seria muito imprudente faça? Alguma leitura que você recomendaria?
A abordagem totalmente não paramétrica usa alguma família não paramétrica, como um processo Gaussiano (GP), para aproximar (ou alguma outra transformação não linear do mesmo, como como raiz quadrada) e quadratura bayesiana para integrar implicitamente sobre o alvo subjacente (veja aqui e aqui ). Essa parece ser uma abordagem alternativa interessante, mas de espírito análogo (observe também que os GPs seriam difíceis de manejar no meu caso).
fonte
Respostas:
Infelizmente, a extensão de Chib e Jeliazkov (2001) fica rapidamente cara ou altamente variável, razão pela qual não é muito usada fora dos casos de amostragem de Gibbs.
Embora existam muitas maneiras e abordagens para o problema de estimativa de constante normalização (como ilustrado pelas palestras bastante diversas no workshop Estimando Constante que realizamos na semana passada na Universidade de Warwick, slides disponíveis lá ), algumas soluções exploram diretamente a saída do MCMC .Z
Como você mencionou, o estimador de média harmônica de Newton e Raftery (1994) é quase sempre invariavelmente pobre por ter uma variação infinita. No entanto, existem maneiras de evitar a maldição de variação infinita usando um alvo de suporte finito na identidade média harmônica escolhendoαcomo o indicador de uma região HPD para a parte posterior. Isso garante uma variação finita, removendo as caudas na média harmônica. (Detalhes podem ser encontrados emum artigo que escrevi com Darren Wraithe em umcapítulo sobre normalização de constantesescritas com Jean-Michel Marin.) Em resumo, o método recicla a saída do MCMCθ1,…,θMidentificando oβ( 20% dizem que os maiores valores do alvoπ(θ)f(x|θ)e criandoα
Outra abordagem é transformar a constante de normalização em um parâmetro. Isso soa como uma heresia estatística, mas o artigo de Guttmann e Hyvärinen (2012) me convenceu do contrário. Sem entrar muito em detalhes, a idéia pura é transformar a probabilidade logarítmica observada n ∑ i = 1 f ( x i | θ ) - n log ∫ exp f ( x | θ ) d x em uma probabilidade logarítmica conjunta n ∑ i = 1 [ fZ
fonte