Usando pseudo-anteriores adequadamente na seleção de modelos bayesianos

8

Uma abordagem para a comparação de modelos em uma estrutura bayesiana usa uma variável de indicador de Bernoulli para determinar qual dos dois modelos provavelmente é o "modelo verdadeiro". Ao aplicar ferramentas baseadas no MCMC para ajustar esse modelo, é comum usar pseudo-anteriores para melhorar a mistura nas cadeias. Veja aqui um tratamento muito acessível sobre por que os pseudo-anteriores são úteis.

Em seu artigo seminal sobre o tema, Carlin & Chib (p. 475) afirmam que "a forma do [pseudo-prior] é irrelevante", que entendo como que não deve afetar a inferência posterior com base no modelo (embora isso pode afetar a mistura do MCMC durante o ajuste do modelo). No entanto, minha intuição é que a forma do pseudo-prior importa. Eu perguntei sobre isso anteriormente nesta pergunta . @ Xi'an comentou (quarto comentário): "a inferência sobre qual modelo está correto não depende dos pseudo-anteriores ".

Recentemente, li comentários de Martyn Plummer que contradizem minha compreensão de Carlin & Chib. Martyn diz: " Para que o método de Carlin-Chib funcione, o pseudo-prior deve corresponder ao posterior quando o modelo for verdadeiro " .

(NÃO estou dizendo que Plummer contradiz Carlin & Chib; apenas que ele contradiz minha compreensão da afirmação de Carlin & Chib).

Tudo isso me deixa com cinco perguntas:

  1. O que está acontecendo aqui? Desde que o modelo converja e produza um bom tamanho efetivo da amostra a partir do posterior, minha inferência sobre quais variáveis ​​incluir em um modelo dependerá do meu pseudo-prior?
  2. Se não, como podemos comparar isso com minha intuição e o comentário de Plummer ? Em caso afirmativo, como podemos comparar isso com o artigo de Carlin & Chib e o comentário de Xi'an (4º comentário) ?
  3. Se minha compreensão do comentário de Plummer está correta, e os pseudo-anteriores devem corresponder ao posterior quando a variável é incluída ... isso significa que é inadmissível que os pseudo-anteriores correspondam exatamente aos verdadeiros anteriores? Isso significaria que os pseudo-anteriores são muito mais que uma técnica conveniente para melhorar a mistura no MCMC !!
  4. E se a variável indicadora ativar e desativar uma parte do modelo com vários parâmetros (por exemplo, um efeito aleatório com uma grande média, uma variação en efeitos de grupo n )? Quais das opções a seguir são permitidas (em ordem de confiança de que a abordagem é permitida)? Existe uma abordagem melhor que eu não listo?

    Eu. Use um pseudo-prior que se aproxime da distribuição posterior da articulação completa de todos os parâmetros.

    ii. Se a mixagem for aceitável não atroz, não use pseudo-prioros (ex .: pseudo-anteriores equivalentes aos verdadeiros anteriores).

    iii. Use um pseudo-prior com base nas distribuições posteriores univariadas para cada parâmetro, mas não se preocupe em como elas são distribuídas em conjunto.

    iv. Seguindo a linguagem aparentemente simples de Carlin & Chib, use qualquer pseudo-prior que ofereça uma mistura computacionalmente eficiente nas cadeias MCMC, pois "a forma do [pseudo-prior] é irrelevante".

  5. O que @ Xi'an significa no primeiro comentário sobre minha pergunta ao dizer " os pseudo-anteriores precisam de correção em um tipo de correção de amostragem importante " .

Jacob Socolar
fonte
Você já verificou essa pergunta semelhante ? Ele ressalta que Doing Bayesian Data Analysis 2ed , de Kruschke, está usando o método de Carlin e Chib [capítulo 10]. Esta seria uma introdução suave ao método se o papel original parecer muito difícil.
Xian

Respostas:

3
  1. O que está acontecendo aqui?

Esta é uma pergunta muito genérica, com a resposta óbvia para estudar em detalhes Carlin & Chib (1995) . A idéia essencial é considerar o parâmetro conjunto que denota o índice do modelo ( ) e os parâmetros de ambos os modelos, no sentido de que os dados vêm a partir da densidade ou seja, um dos dois parâmetros é supérfluo quando o índice do modelo é definido.(m,θ1,θ2)mm=1,2θ1,θ2

f(x|m,θ1,θ2)=fm(x|θm)
θ3mm

Depois que essa conclusão é concluída, um prior deve ser escolhido no trio , que é onde por e os verdadeiros anteriores no índice do modelo e no parâmetro de cada modelo. O é livre porque o posterior em é igual ao anterior: Os dados não afetam o parâmetro do qual não depende. E assim a inferência sobre não é afetada pela escolha de(m,θ1,θ2)

π(m,θ1,θ2)=π(m)πm(θm)π~m(θ3m)
π(m)πm(θm)π~m(θ3m)θ3m
π(m,θ1,θ2|x)=π(m|x)πm(θm|x)π~m(θ3m)
θmπ~m(.). Na prática, isso significa que o algoritmo de simulação a partir do modelo aumentado produz
  1. uma frequência para cada modelo aproximando a probabilidade posterior desse modelo
  2. uma sequência de parâmetros quando é o índice do modelo, a ser usado para inferência neste parâmetroθmm
  3. uma sequência de parâmetros quando é o índice do modelo, a ser ignorado.θ3mm
  1. como podemos combinar isso com minha intuição e com o comentário de Plummer?

O que Martyn Plummer quer dizer em seu comentário é que o pseudo-prioritário não importa no parâmetro com o outro índice mas deve ser o verdadeiro anterior no parâmetro com o índice atual . Isso é 100% coerente com o papel de Carlin e Chib (1995) .m3m

  1. isso significa que é inadmissível que os pseudo-anteriores correspondam exatamente aos verdadeiros anteriores?

Os pseudo-anteriores podem ser tomados como verdadeiros anteriores, desde que adequados. Mas, como Carlin e Chib (1995) indicam, é muito mais eficiente fazer uma aproximação do posterior verdadeiro, , aproximação que pode ser obtida por um execução preliminar do MCMC para cada modelo.π3m(θ3m|x)

  1. E se a variável indicadora ligar e desligar uma parte do modelo com vários parâmetros

A resolução desse enigma é considerar conjuntos de parâmetros diferentes para todos os modelos diferentes, ou seja, não ter parâmetros comuns entre dois modelos. Se você estiver com um problema de seleção de variável, isso significa usar um parâmetro diferente e uma notação diferente para o coeficiente da variável quando faz parte da regressão e quando não faz parte da regressão. A partir deste ponto, use qualquer pseudo-anterior desejado nos parâmetros supérfluos.X1X2X2

  1. O que significa @ Xi'an no primeiro comentário

Quero dizer que, se as probabilidades de visitas aos dois modelos não são as probabilidades anteriores, a probabilidade posterior de um modelo estimado pela frequência simulada deve ser corrigida.

Xi'an
fonte
Eu respeito seus conhecimentos nesta questão e confio que esta resposta esteja correta. No entanto, acho difícil enquadrar essa resposta no comentário completo de Plummer, onde ele sugere "Ajustar o modelo 1 após adicionar a entrada m = 1 aos dados (forçando o modelo 1 a ser verdadeiro). Monitore os valores de a1 [1] , b1 [1] e c1 [1.] Defina o pseudo anterior para a1 [2], b1 [2], c1 [2] para que ele corresponda aos momentos posteriores de a1 [1], b1 [1] e c1 [ 1], faça o mesmo para o modelo 2, mas com m = 2. Defina o pseudo anterior para a2 [1], b2 [1], c2 [1] para corresponder aos momentos posteriores de a2 [2], b2 [ 2] e c2 [2] neste modelo ".
Jacob Socolar
Esta é apenas uma opção (válida) de pseudo-prior.
Xian
Ótimo. Portanto, meu último problema é enquadrar essas respostas com o seguinte. Se o modelo 1 tiver pseudopriors que não se sobrepõem fortemente à massa posterior e o modelo 2 tiver bons pseudopriors, e os dois modelos tiverem probabilidade posterior semelhante, dados os dados, será fácil pular de 1 para 2 e difícil pular de 2 para 1. Não consigo entender como isso não faz com que o MCMC gaste mais tempo no modelo 2, levando a inferência posterior inválida em m. O comentário completo de Plummer parece que resolveria esse problema (problema falso?).
Jacob Socolar 23/08
Um MCMC ineficiente que não visita frequentemente uma região específica compensará permanecendo muito tempo nessa região, de modo que, em média, haja a quantidade certa de tempo.
Xian
Obrigado novamente. Última pergunta: Claramente, eu não entendo completamente Carlin & Chib. Você pode identificar o que estou perdendo? Porque eu pensei que a cadeia de Markov para m deveria dar um passeio aleatório, onde a probabilidade por etapa de mudar para 2 (dado m = 1) é menor que a probabilidade por etapa de mudar para 1 (dado m = 2)? Quando m = 1, os parâmetros do modelo 2 são amostrados de seus (não bons) pseudoprioros, por isso é difícil aceitar uma proposta em que m = 2. Porém, quando m = 2, os parâmetros do modelo 1 são amostrados de seus (bons) pseudo-anteriores, portanto, deve ser fácil aceitar uma proposta em que m = 1.
Jacob Socolar 23/08