Entendo que não devemos permitir que o mesmo conjunto de dados que estamos analisando direcione / defina como são as distribuições anteriores em uma análise bayesiana. Especificamente, não é apropriado definir distribuições anteriores para uma análise bayesiana com base em estatísticas resumidas do mesmo conjunto de dados que você utilizará as anteriores para ajudar a ajustar um modelo.
Alguém conhece recursos que discutem especificamente isso como inapropriado? Preciso de algumas citações para este problema.
Respostas:
Sim, isso é inapropriado porque usa os mesmos dados duas vezes, levando a resultados falsamente superconfiantes. Isso é conhecido como 'imersão dupla'.
Para referências, eu começaria com Carlin e Louis (2000). Embora a dupla imersão tenha sido uma das principais críticas de Empirical Bayes, cap. 3, em particular a seção 3.5, deste livro descreve maneiras de estimar intervalos de confiança apropriados usando a abordagem EB.
Berger J (2006). \ O Caso da Análise Bayesiana Objetiva. "Análise Bayesiana, 1 (3), 385 {402
Bradley P. Carlin, Thomas A. Louis 2000. Bayes e métodos empíricos de Bayes para análise de dados.
Darniede, WF 2011. Métodos Bayesianos para Priores Dependentes de Dados. Dissertação de Mestrado, Ohio State Univ.
Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2003), Análise Bayesiana de Dados, Segunda Edição (Chapman & Hall / CRC Textos em Estatística), Chapman e Hall / CRC, 2ª. ed.
fonte
No entanto, pode fazer sentido usar os dados para criar o anterior.
Para um exemplo em modelagem de mistura, consulte Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667
Eles usam a média e o intervalo dos pontos de dados como hiperparâmetros para o anterior e faz todo o sentido.
O problema de usar os dados duas vezes ocorre quando um prior informativo é derivado dos dados, na minha opinião.
Contanto que você verifique se sua distribuição anterior é "plana" onde a distribuição posterior está em pico, então você sabe que sua distribuição anterior não tem um forte impacto nos resultados.
fonte