Evitando que a amostragem de importância suavizada de Pareto (PSIS-LOO) falhe

10

Recentemente, comecei a usar a validação cruzada de amostras de importância suavizada Pareto (PSIS-LOO), descrita nestes documentos:

  • Vehtari, A. e Gelman, A. (2015). Pareto suavizou a amostragem de importância. pré-impressão do arXiv ( link ).
  • Vehtari, A., Gelman, A. e Gabry, J. (2016). Avaliação prática do modelo bayesiano usando validação cruzada de exclusão e WAIC. pré-impressão do arXiv ( link )

Isso representa uma abordagem muito atraente para a avaliação do modelo fora da amostra, pois permite executar o LOO-CV com uma única execução do MCMC e é supostamente melhor do que os critérios de informação existentes, como o WAIC.

O PSIS-LOO tem um diagnóstico para dizer se a aproximação é confiável, dada pelos expoentes estimados das distribuições de Pareto ajustadas às caudas das distribuições empíricas de pesos importantes (um peso por ponto de dados). Em resumo, se um peso estimado , coisas ruins podem acontecer.k^ik^i0.7

Infelizmente, descobri que, na aplicação deste método ao meu problema, para a maioria dos modelos de interesse, acho que uma grande fração do k^i0.7 . Sem surpresa, algumas das probabilidades de log de LOO relatadas eram obviamente absurdas (em comparação com outros conjuntos de dados). Como checagem dupla, realizei uma validação cruzada tradicional (e demorada) em 10 vezes, descobrindo que, de fato, no caso acima o PSIS-LOO estava dando resultados terrivelmente errados (no lado positivo, os resultados estavam em muito boa concordância com 10 CV dobrável para os modelos em que todos os k^i0.7 ). Para constar, estou usando a implementação MATLAB do PSIS-LOO de Aki Vehtari.

Talvez eu tenha apenas muito azar porque meu primeiro e atual problema no qual aplico esse método é "difícil" para o PSIS-LOO, mas suspeito que esse caso possa ser relativamente comum. Para casos como o meu, o jornal Vehtary, Gelman & Gabry simplesmente diz:

Mesmo que a estimativa PSIS possua uma variação finita, quando , o usuário deve considerar a amostragem diretamente de para o problemático , use fold cross-fold validação ou use um modelo mais robusto.k^>0.7p(θs|y-Eu)Euk

Essas são soluções óbvias, mas não realmente ideais, pois consomem muito tempo ou exigem brincadeiras adicionais (compreendo que o MCMC e a avaliação de modelos são todas sobre brincadeiras, mas quanto menos, melhor).

Existe algum método geral que possamos aplicar de antemão para tentar impedir que o PSIS-LOO falhe? Tenho algumas idéias provisórias, mas me pergunto se já existe uma solução empírica que as pessoas estejam adotando.

lacerbi
fonte

Respostas:

8

Para registrar, postei uma pergunta semelhante na lista de discussão dos usuários do Stan , que você pode encontrar aqui . Fui atendido por um dos autores do artigo original do PSIS-LOO e por outros colaboradores de Stan. O que se segue é o meu resumo pessoal.

A resposta curta é que não existem métodos gerais conhecidos para impedir a falha do PSIS-LOO. Se o PSIS-LOO falhar, geralmente é porque o modelo tem problemas e a correção é necessariamente deixada ao usuário.

Especificamente, a razão pela qual o PSIS-LOO pode falhar é geralmente porque uma ou mais distribuições de LOO são deslocadas e / ou mais amplas que a posterior completa, provavelmente devido a observações influentes, e a importância da distribuição da amostra cai em um ou alguns pontos.

Eu estava pensando que você poderia tentar adotar alguma forma de abordagem de têmpera posterior paralela para resolver esse problema. A ideia não está necessariamente errada, mas foi apontado para mim que:

  • a têmpera posterior do livro didático ainda exigiria muitas correções caso a caso para encontrar o (s) nível (s) de temperatura correto (s), pois não há maneira óbvia nem conhecida de fazer isso (aliás, por esse motivo, Stan não inclui a têmpera paralela);
  • se você usar mais de dois níveis de temperatura (como pode ser necessário ter uma abordagem robusta), o custo computacional final se aproxima do da validação cruzada K-fold ou da execução do MCMC nas distribuições LOO problemáticas.

Em resumo, se o PSIS-LOO falhar, parece difícil obter um método tão robusto e geral quanto outros patches simples; é por isso que Vehtari, Gelman & Gabry sugeriram esses métodos de acordo com a citação que publiquei na minha pergunta original.

lacerbi
fonte