Como funciona a imputação de ratos?

9

Fiquei me perguntando se alguém tinha experiência usando a função de ratos, como descrito em ratos: Imputação multivariada por equações encadeadas em R (JSS 2011 45 (3))? Eu tenho um conjunto de dados com um número de variáveis, cada uma com diferentes graus de dados ausentes.

Minha pergunta principal é: digamos que eu uso a regressão linear bayesiana para imputar dados ausentes, usa miceautomaticamente variáveis ​​preditivas do mais significativo para o menos significativo para imputar? Além disso, é comum, talvez, calcular a média de todos os conjuntos de dados imputados?

mjburns
fonte
Olá a todos. Além disso: desde então, tenho sido capaz de usar a função de mouse com sucesso. Eu tenho outra consulta. Digamos, por exemplo, que a função crie 5 conjuntos de dados completos (X1, X2 ... X5). Aplico a função (x) sobre cada conjunto de dados e ele retorna Y1, Y2 ... Y5. Você acha que seria bom relatar o intervalo de Ymin a Ymax? Ou talvez a média de Y1 a Y5? Alguém tem alguma opinião sobre o assunto? Obrigado.
mjburns

Respostas:

8

Por padrão, os mouses usarão todas as variáveis ​​do seu conjunto de dados para prever qualquer outra.

Quanto à média, você precisa fazer isso depois de calcular suas estatísticas, não antes. Por exemplo, se você quiser fazer uma regressão linear, faça algo assim:

library(mice)
mi <- mice(dataset)
mi.reg <- with(data=mi,exp=glm(y~x+z))
mi.reg.pool <- pool(mi.reg)
summary(mi.reg.pool)

A função de resumo mostrará os coeficientes médios.

Dominic Comtois
fonte
Obrigado por isso - você está dizendo que só devo avaliar depois de verificar se as estatísticas estão "OK"? Além disso - meu conjunto de dados possui 6 variáveis. Como analiso as estatísticas usando regressão linear? Preciso verificar cada variável separadamente? Por exemplo, lm (x1 ~ x2 + x3 + x4 + x5 ....)
mjburns
Você deve estar se referindo à verificação de suposições? A coisa mais importante a verificar são os resíduos do seu modelo (incluindo todos os preditores). Eu provavelmente me ateria à análise de caso completo para fazer isso (antes da imputação múltipla), mas você pode pedir conselhos a um estatístico experiente (o que não sou).
Dominic Comtois
1
@mjburns: No exemplo de dominic999, a média é dos coeficientes que resultam do ajuste do mesmo modelo linear a cada uma das múltiplas versões do conjunto de dados multiplicado por imputação. Não acho que faça sentido calcular a média dos próprios conjuntos de dados, já que você perderia a variabilidade (esperançosamente justificada e realista) que a imputação múltipla fornece. As estatísticas resumidas dos resultados agrupados (em média) são praticamente as mesmas de um modelo linear regular (pelo menos em termos dos próprios coeficientes) em que é necessário examinar o Pr (> | t |) quanto à significância de cada um.
Wayne
Considere votar / aceitar a resposta se ela serviu bem ao seu objetivo.
Dominic Comtois
Obrigado dominic999 e Wayne. Agora entendo o que está acontecendo muito mais depois de seguir suas dicas e brincar mais com os dados.
Mjburns