Houve estudos em larga escala dos métodos MCMC que comparam o desempenho de vários algoritmos diferentes em um conjunto de densidades de teste? Estou pensando em algo equivalente ao artigo de Rios e Sahinidis (2013), que é uma comparação completa de um grande número de otimizadores de caixa preta sem derivativos em várias classes de funções de teste.
Para o MCMC, o desempenho pode ser estimado em, por exemplo, número efetivo de amostras (ESS) por avaliação de densidade ou em alguma outra métrica apropriada.
Alguns comentários:
Compreendo que o desempenho dependerá fortemente dos detalhes do pdf de destino, mas um argumento semelhante (possivelmente não idêntico) vale para otimização e, no entanto, existe uma infinidade de funções, suítes, competições, documentos, etc. de benchmark que tratam da otimização de benchmarking algoritmos.
Além disso, é verdade que o MCMC difere da otimização, pois comparativamente é necessário muito mais cuidado e ajuste do usuário. No entanto, agora existem vários métodos de MCMC que requerem pouco ou nenhum ajuste: métodos que se adaptam na fase de queima, durante a amostragem ou métodos de vários estados (também chamados de conjunto ) (como Emcee ) que evoluem várias cadeias de interação e usam informações de outras cadeias para orientar a amostragem.
Estou particularmente interessado na comparação entre os métodos padrão e multiestado (também conhecido como ensemble). Para a definição de multiestado, consulte a Seção 30.6 do livro de MacKay :
Em um método multiestado, vários vetores de parâmetros são mantidos; eles evoluem individualmente sob movimentos como Metropolis e Gibbs; também há interações entre os vetores.
- Esta pergunta teve origem aqui .
Atualizar
- Para uma visão interessante sobre os métodos de vários estados, também conhecidos como ensemble, consulte este post de Bob Carpenter no blog de Gelman e meu comentário referente a este post de CV.
fonte
Concordo com sua avaliação de que não existem parâmetros de referência abrangentes estabelecidos para os métodos MCMC. Isso ocorre porque todo amostrador do MCMC possui prós e contras e é extremamente específico ao problema.
Em uma configuração típica de modelagem bayesiana, você pode executar o mesmo amostrador com diversas taxas de mistura quando os dados forem diferentes. Eu diria que, se no futuro surgir um estudo abrangente de referência de vários amostradores do MCMC, não confiaria que os resultados fossem aplicáveis fora dos exemplos mostrados.
Em relação ao uso do ESS para avaliar a qualidade da amostragem, vale ressaltar que o ESS depende da quantidade a ser estimada a partir da amostra. Se você deseja encontrar a média da amostra, a ESE obtida será diferente de se você deseja estimar o 25º quantil. Dito isto, se a quantidade de interesse for fixa, o ESS é uma maneira razoável de comparar amostradores. Talvez uma idéia melhor seja ESS por unidade de tempo.
Uma falha no ESS é que, para problemas de estimativa multivariada, o ESS retorna um tamanho de amostra eficaz para cada componente separadamente, ignorando todas as correlações cruzadas no processo de estimativa. Em este papel recentemente, um ESS multivariada foi proposto e implementado no
R
pacotemcmcse
através da funçãomultiESS
. Não está claro como esse método se compara ao ESS docoda
pacote, mas, no início, parece mais razoável que os métodos ESS univariados.fonte