Permitir que os dados determinem os anteriores e, em seguida, execute o modelo usando esses anteriores? (por exemplo, anteriores orientados a dados do mesmo conjunto de dados)

9

Entendo que não devemos permitir que o mesmo conjunto de dados que estamos analisando direcione / defina como são as distribuições anteriores em uma análise bayesiana. Especificamente, não é apropriado definir distribuições anteriores para uma análise bayesiana com base em estatísticas resumidas do mesmo conjunto de dados que você utilizará as anteriores para ajudar a ajustar um modelo.

Alguém conhece recursos que discutem especificamente isso como inapropriado? Preciso de algumas citações para este problema.

sarah
fonte

Respostas:

11

Sim, isso é inapropriado porque usa os mesmos dados duas vezes, levando a resultados falsamente superconfiantes. Isso é conhecido como 'imersão dupla'.

Para referências, eu começaria com Carlin e Louis (2000). Embora a dupla imersão tenha sido uma das principais críticas de Empirical Bayes, cap. 3, em particular a seção 3.5, deste livro descreve maneiras de estimar intervalos de confiança apropriados usando a abordagem EB.

Berger J (2006). \ O Caso da Análise Bayesiana Objetiva. "Análise Bayesiana, 1 (3), 385 {402

Bradley P. Carlin, Thomas A. Louis 2000. Bayes e métodos empíricos de Bayes para análise de dados.

Darniede, WF 2011. Métodos Bayesianos para Priores Dependentes de Dados. Dissertação de Mestrado, Ohio State Univ.

Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2003), Análise Bayesiana de Dados, Segunda Edição (Chapman & Hall / CRC Textos em Estatística), Chapman e Hall / CRC, 2ª. ed.

David LeBauer
fonte
@sarah Registre sua conta para poder recuperar sua pergunta. Basta visitar este URL: stats.stackexchange.com/users/login
1

No entanto, pode fazer sentido usar os dados para criar o anterior.

Para um exemplo em modelagem de mistura, consulte Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

Eles usam a média e o intervalo dos pontos de dados como hiperparâmetros para o anterior e faz todo o sentido.

O problema de usar os dados duas vezes ocorre quando um prior informativo é derivado dos dados, na minha opinião.

Contanto que você verifique se sua distribuição anterior é "plana" onde a distribuição posterior está em pico, então você sabe que sua distribuição anterior não tem um forte impacto nos resultados.

Pierre
fonte
O uso dos dados para construir o prior não pode ocorrer dentro do paradigma bayesiano. Portanto, não faz sentido do ponto de vista bayesiano e a validação usual dos procedimentos bayesianos não se aplica. A inferência resultante pode ser perfeitamente válida, mas é preciso demonstrá-la a partir dos primeiros princípios. (Richardson e uso verde que é chamado de Bayes empírica que não é um procedimento Bayesian..)
Xi'an
Embora não faça sentido dentro do paradigma bayesiano, às vezes é difícil traçar a linha de divisão entre o que são dados e o que é anterior. Veja a minha resposta para stats.stackexchange.com/questions/112451/...
b Kjetil Halvorsen