Estou ajustando um HLM Bayesiano no JAGS usando a validação cruzada em dobra k (k = 5). Gostaria de saber se as estimativas do parâmetro são estáveis em todas as dobras. Qual é a melhor forma de fazer isso?
Uma idéia é encontrar as diferenças dos posteriores de e ver se 0 está no IC de 95% da diferença. Em outras palavras, é 0 no intervalo de 95% de (e repita para todos os pares de dobras).
Outra idéia é tratar as partes posteriores de cada dobra como diferentes cadeias MCMC e calcular Gelman (fator de redução de escala em potencial) nessas pseudo-cadeias.
É um desses preferíveis e existem alternativas?
bayesian
cross-validation
Jack Tanner
fonte
fonte
Respostas:
Não sei se isso se qualifica como comentário ou resposta. Estou colocando aqui porque parece uma resposta.
Na validação cruzada k-fold, você está particionando seus dados em k grupos. Se você está cobrindo até o "básico", está selecionando uniformemente aleatoriamente membros para cada um dos k bins.
Quando falo de dados, penso em cada linha como uma amostra e em cada coluna como uma dimensão. Estou acostumado a usar vários métodos para determinar importância variável, importância da coluna.
E se você, como exercício de pensamento, se afastasse do uniforme "manual" aleatoriamente e determinasse quais linhas eram importantes? Talvez eles informem uma única variável de cada vez, mas talvez informem mais. Existem algumas linhas menos importantes que outras? Talvez muitos dos pontos sejam informativos, talvez poucos sejam.
Sabendo a importância da variável, talvez você possa classificá-las por importância. Talvez você possa fazer uma única caixa com as amostras mais importantes. Isso pode definir o tamanho do seu "k". Dessa maneira, você determinaria o k-ésimo "informativo" e o compararia com outros e com o menos informativo.
Isso pode lhe dar uma idéia da variação máxima dos parâmetros do seu modelo. É apenas uma forma.
Uma segunda maneira de dividir os enésimos baldes é pela magnitude e pela direção da influência. Assim, você pode colocar amostras que balançam um parâmetro ou parâmetros em uma direção em um balde e colocar amostras que balançam o mesmo parâmetro ou parâmetros na direção oposta em um balde diferente.
A variação de parâmetro neste formulário pode dar uma varredura mais ampla às variáveis, com base não na densidade de informações, mas na geração de informações.
Boa sorte.
fonte
Pode não ser uma resposta completa, mas se 0 NÃO estiver no IC 95% para várias diferenças, é bastante seguro dizer que elas não são idênticas no nível 0,05.
fonte