Estou confuso sobre como avaliar a distribuição preditiva posterior da regressão linear bayesiana, além do caso básico descrito aqui na página 3 e copiado abaixo.
O caso básico é este modelo de regressão linear:
Se usarmos um uniforme anterior em , com uma escala Inv anterior em , OU o normal-inverso-gama anterior (veja aqui ), a distribuição preditiva posterior é analítica e é o aluno t. χ 2 σ 2
E esse modelo?
Quando , mas é conhecido, a distribuição preditiva posterior é gaussiana multivariada. Normalmente, você não conhece , mas precisa estimar. Talvez você diga a diagonal e torne a diagonal uma função das covariáveis de alguma maneira. Isso é discutido no capítulo de regressão linear da Análise Bayesiana de Dados de Gelman .
Existe uma forma analítica para a distribuição preditiva posterior neste caso? Posso apenas conectar minha estimativa em um aluno multivariado t? Se você estimar mais de uma variação, a distribuição ainda é multivariada t?
Estou perguntando porque dizem que eu tenho algum já na mão. Quero saber se é mais provável que tenha sido previsto por, por exemplo, regressão linear A, regressão linear B
Respostas:
Se você assumir um uniforme anterior ao , o posterior para será com Para encontrar a distribuição preditiva, precisamos de mais informações. Se e for condicionalmente independente de dado , então Mas normalmente para esses tipos de modelos, e não são condicionalmente independentes. Em vez disso, normalmente temos β β | y ~ N ( β , Vβ β β =
fonte
Em prévios Normal-Wishart não informativos ou multivariados, você tem a forma analítica como uma distribuição multivariada de Student, para uma regressão múltipla mutlivariada clássica. Acho que os desenvolvimentos neste documento estão relacionados à sua pergunta (você pode gostar do Apêndice A :-)). Eu normalmente comparei o resultado com uma distribuição preditiva posterior obtida usando o WinBUGS e a forma analítica: eles são exatamente equivalentes. O problema só se torna difícil quando você tem efeitos aleatórios adicionais em modelos de efeito misto, especialmente em design desequilibrado.
Em geral, com regressões clássicas, y e ỹ são condicionalmente independentes (os resíduos são iid)! Obviamente, se não for o caso, a solução proposta aqui não está correta.
Em R, (aqui, solução para anteriores uniformes), supondo que você tenha criado um modelo lm (chamado "modelo") de uma das respostas em seu modelo e chamado de "modelo", aqui está como obter a distribuição preditiva multivariada
Agora, quantis de ysim são intervalos de tolerância de expectativa beta da distribuição preditiva, é claro que você pode usar diretamente a distribuição amostrada para fazer o que quiser.
fonte