Recentemente, comecei a usar a validação cruzada de amostras de importância suavizada Pareto (PSIS-LOO), descrita nestes documentos:
- Vehtari, A. e Gelman, A. (2015). Pareto suavizou a amostragem de importância. pré-impressão do arXiv ( link ).
- Vehtari, A., Gelman, A. e Gabry, J. (2016). Avaliação prática do modelo bayesiano usando validação cruzada de exclusão e WAIC. pré-impressão do arXiv ( link )
Isso representa uma abordagem muito atraente para a avaliação do modelo fora da amostra, pois permite executar o LOO-CV com uma única execução do MCMC e é supostamente melhor do que os critérios de informação existentes, como o WAIC.
O PSIS-LOO tem um diagnóstico para dizer se a aproximação é confiável, dada pelos expoentes estimados das distribuições de Pareto ajustadas às caudas das distribuições empíricas de pesos importantes (um peso por ponto de dados). Em resumo, se um peso estimado , coisas ruins podem acontecer.
Infelizmente, descobri que, na aplicação deste método ao meu problema, para a maioria dos modelos de interesse, acho que uma grande fração do . Sem surpresa, algumas das probabilidades de log de LOO relatadas eram obviamente absurdas (em comparação com outros conjuntos de dados). Como checagem dupla, realizei uma validação cruzada tradicional (e demorada) em 10 vezes, descobrindo que, de fato, no caso acima o PSIS-LOO estava dando resultados terrivelmente errados (no lado positivo, os resultados estavam em muito boa concordância com 10 CV dobrável para os modelos em que todos os ). Para constar, estou usando a implementação MATLAB do PSIS-LOO de Aki Vehtari.
Talvez eu tenha apenas muito azar porque meu primeiro e atual problema no qual aplico esse método é "difícil" para o PSIS-LOO, mas suspeito que esse caso possa ser relativamente comum. Para casos como o meu, o jornal Vehtary, Gelman & Gabry simplesmente diz:
Mesmo que a estimativa PSIS possua uma variação finita, quando , o usuário deve considerar a amostragem diretamente de para o problemático , use fold cross-fold validação ou use um modelo mais robusto.
Essas são soluções óbvias, mas não realmente ideais, pois consomem muito tempo ou exigem brincadeiras adicionais (compreendo que o MCMC e a avaliação de modelos são todas sobre brincadeiras, mas quanto menos, melhor).
Existe algum método geral que possamos aplicar de antemão para tentar impedir que o PSIS-LOO falhe? Tenho algumas idéias provisórias, mas me pergunto se já existe uma solução empírica que as pessoas estejam adotando.