Como posso agrupar meios posteriores e intervalos confiáveis ​​após imputação múltipla?

20

Eu usei várias imputações para obter vários conjuntos de dados concluídos.

Eu usei métodos bayesianos em cada um dos conjuntos de dados concluídos para obter distribuições posteriores para um parâmetro (um efeito aleatório).

Como posso combinar / agrupar os resultados para este parâmetro?


Mais contexto:

Meu modelo é hierárquico no sentido de alunos individuais (uma observação por aluno) agrupados nas escolas. Fiz várias imputações (usando MICEem R) nos meus dados, onde incluí schoolcomo um dos preditores para os dados ausentes - para tentar incorporar a hierarquia de dados nas imputações.

Eu ajustei um modelo simples de inclinação aleatória para cada um dos conjuntos de dados concluídos (usando MCMCglmmem R). O resultado é binário.

Eu descobri que as densidades posteriores da variação aleatória da inclinação são "bem comportadas" no sentido de que elas se parecem com isso: insira a descrição da imagem aqui

Como posso combinar / agrupar as médias posteriores e os intervalos credíveis de cada conjunto de dados imputados, para esse efeito aleatório?


Update1 :

Pelo que entendi até agora, eu poderia aplicar as regras de Rubin à média posterior, para fornecer uma média posterior multiplicada por imputação - há algum problema em fazer isso? Mas não tenho ideia de como posso combinar os intervalos de 95% de credibilidade. Além disso, como tenho uma amostra real de densidade posterior para cada imputação - eu poderia, de alguma forma, combiná-las?


Update2 :

Conforme a sugestão de @ cyan nos comentários, eu gosto muito da idéia de simplesmente combinar as amostras das distribuições posteriores obtidas de cada conjunto de dados completo de várias imputações. No entanto, gostaria de saber a justificativa teórica para fazer isso.

Joe King
fonte
Se a falta de qualquer dado dado for independente do valor do resultado associado, é correto simplesmente reunir todas as amostras posteriores dos diferentes conjuntos de dados imputados e tomar os intervalos médios e 95% credíveis das amostras posteriores combinadas.
Ciano
@ Cyan é o mesmo que dizer que o mecanismo de falta está "faltando aleatoriamente" ou "faltando completamente aleatoriamente", mas não "faltando não aleatoriamente" (as suposições usuais que aprendi para realizar MI)? Você conhece alguma referência em que esse "ato de jogar juntos" se justifica formalmente?
9788 Joe King
A imputação múltipla é um procedimento bayesiano em seu coração. Se você usar métodos bayesianos de estimativa (MCMC e outros), você deve lançar a simulação dos dados ausentes como uma etapa de amostragem adicional do MCMC para um modelo totalmente bayesiano e não se incomodará em tentar criar uma interface entre essas abordagens.
StasK
@StasK, obrigado pelo seu comentário. Vou tentar usar essa abordagem no meu próximo projeto, mas infelizmente não tenho tempo para mudar o modelo agora. Eu já executei as imputações e o modelo bayesiano em cada conjunto de dados imputado - levou quase três semanas para ser executado. Você acha que é inválido para mim combinar as amostras posteriores?
Joe King
As regras de Rubin se aplicam apenas a momentos. Não sei se você pode aplicá-las a uma distribuição de maneira significativa. Talvez talvez não. Pode ser que o melhor que você possa fazer seja dizer que a execução do MCMC produziu as estimativas de pontos (médias posteriores) e erros padrão (variações posteriores) e, em seguida, use as regras de Rubin para obter as estimativas gerais de pontos e variações. Você sabe o quão trágicas podem ser as perdas de dfs no modelo hierárquico e como é perigoso agrupar os dados: se você tiver 5 conjuntos de dados completos imputados e 1M de amostras MCMC em cada um, significa que você tem 5 clusters, e não 5M iid MCMC pontos.
StasK

Respostas:

4

Com posteriores particularmente bem comportados que podem ser adequadamente descritos por uma descrição paramétrica de uma distribuição, você pode simplesmente pegar a média e a variação que melhor descrevem o posterior e partir daí. Eu suspeito que isso possa ser adequado em muitas circunstâncias em que você não está recebendo distribuições posteriores genuinamente estranhas.

Fomite
fonte
0

Se você usar stata, existe um procedimento chamado "mim" que agrupou os dados após a imputação usando modelos de efeito misto. Não sei se está disponível em R.

Omar
fonte
Obrigado. Talvez eu não tenha explicado bem - já tenho amostras posteriores, de vários conjuntos de dados imputados, e quero saber se posso simplesmente combiná-las e formar um intervalo credível imputado multiplicado?
21712 Joe