Uma abordagem para a comparação de modelos em uma estrutura bayesiana usa uma variável de indicador de Bernoulli para determinar qual dos dois modelos provavelmente é o "modelo verdadeiro". Ao aplicar ferramentas baseadas no MCMC para ajustar esse modelo, é comum usar pseudo-anteriores para melhorar a mistura nas cadeias. Veja aqui um tratamento muito acessível sobre por que os pseudo-anteriores são úteis.
Em seu artigo seminal sobre o tema, Carlin & Chib (p. 475) afirmam que "a forma do [pseudo-prior] é irrelevante", que entendo como que não deve afetar a inferência posterior com base no modelo (embora isso pode afetar a mistura do MCMC durante o ajuste do modelo). No entanto, minha intuição é que a forma do pseudo-prior importa. Eu perguntei sobre isso anteriormente nesta pergunta . @ Xi'an comentou (quarto comentário): "a inferência sobre qual modelo está correto não depende dos pseudo-anteriores ".
Recentemente, li comentários de Martyn Plummer que contradizem minha compreensão de Carlin & Chib. Martyn diz: " Para que o método de Carlin-Chib funcione, o pseudo-prior deve corresponder ao posterior quando o modelo for verdadeiro " .
(NÃO estou dizendo que Plummer contradiz Carlin & Chib; apenas que ele contradiz minha compreensão da afirmação de Carlin & Chib).
Tudo isso me deixa com cinco perguntas:
- O que está acontecendo aqui? Desde que o modelo converja e produza um bom tamanho efetivo da amostra a partir do posterior, minha inferência sobre quais variáveis incluir em um modelo dependerá do meu pseudo-prior?
- Se não, como podemos comparar isso com minha intuição e o comentário de Plummer ? Em caso afirmativo, como podemos comparar isso com o artigo de Carlin & Chib e o comentário de Xi'an (4º comentário) ?
- Se minha compreensão do comentário de Plummer está correta, e os pseudo-anteriores devem corresponder ao posterior quando a variável é incluída ... isso significa que é inadmissível que os pseudo-anteriores correspondam exatamente aos verdadeiros anteriores? Isso significaria que os pseudo-anteriores são muito mais que uma técnica conveniente para melhorar a mistura no MCMC !!
E se a variável indicadora ativar e desativar uma parte do modelo com vários parâmetros (por exemplo, um efeito aleatório com uma grande média, uma variação en efeitos de grupo n )? Quais das opções a seguir são permitidas (em ordem de confiança de que a abordagem é permitida)? Existe uma abordagem melhor que eu não listo?
Eu. Use um pseudo-prior que se aproxime da distribuição posterior da articulação completa de todos os parâmetros.
ii. Se a mixagem for aceitável não atroz, não use pseudo-prioros (ex .: pseudo-anteriores equivalentes aos verdadeiros anteriores).
iii. Use um pseudo-prior com base nas distribuições posteriores univariadas para cada parâmetro, mas não se preocupe em como elas são distribuídas em conjunto.
iv. Seguindo a linguagem aparentemente simples de Carlin & Chib, use qualquer pseudo-prior que ofereça uma mistura computacionalmente eficiente nas cadeias MCMC, pois "a forma do [pseudo-prior] é irrelevante".
O que @ Xi'an significa no primeiro comentário sobre minha pergunta ao dizer " os pseudo-anteriores precisam de correção em um tipo de correção de amostragem importante " .
fonte
Respostas:
Esta é uma pergunta muito genérica, com a resposta óbvia para estudar em detalhes Carlin & Chib (1995) . A idéia essencial é considerar o parâmetro conjunto que denota o índice do modelo ( ) e os parâmetros de ambos os modelos, no sentido de que os dados vêm a partir da densidade ou seja, um dos dois parâmetros é supérfluo quando o índice do modelo é definido.( m ,θ1 1,θ2) m m = 1 , 2 θ1 1,θ2
Depois que essa conclusão é concluída, um prior deve ser escolhido no trio , que é onde por e os verdadeiros anteriores no índice do modelo e no parâmetro de cada modelo. O é livre porque o posterior em é igual ao anterior: Os dados não afetam o parâmetro do qual não depende. E assim a inferência sobre não é afetada pela escolha de( m ,θ1 1,θ2)
O que Martyn Plummer quer dizer em seu comentário é que o pseudo-prioritário não importa no parâmetro com o outro índice mas deve ser o verdadeiro anterior no parâmetro com o índice atual . Isso é 100% coerente com o papel de Carlin e Chib (1995) .m 3 - m
Os pseudo-anteriores podem ser tomados como verdadeiros anteriores, desde que adequados. Mas, como Carlin e Chib (1995) indicam, é muito mais eficiente fazer uma aproximação do posterior verdadeiro, , aproximação que pode ser obtida por um execução preliminar do MCMC para cada modelo.π3 - m(θ3 -m| x)
A resolução desse enigma é considerar conjuntos de parâmetros diferentes para todos os modelos diferentes, ou seja, não ter parâmetros comuns entre dois modelos. Se você estiver com um problema de seleção de variável, isso significa usar um parâmetro diferente e uma notação diferente para o coeficiente da variável quando faz parte da regressão e quando não faz parte da regressão. A partir deste ponto, use qualquer pseudo-anterior desejado nos parâmetros supérfluos.X1 1 X2 X2
Quero dizer que, se as probabilidades de visitas aos dois modelos não são as probabilidades anteriores, a probabilidade posterior de um modelo estimado pela frequência simulada deve ser corrigida.
fonte