Eu preciso de um único conjunto de dados imputados (por exemplo, para criar um manequim de grupo de países a partir dos dados de renda per capita do país imputado). O R oferece pacotes de pacotes para criar vários dados imputados (por exemplo, Amelia) e combinar resultados de vários conjuntos de dados (como no MItools). Minha preocupação é se eu puder calcular a média de todos os dados imputados para obter um único conjunto de dados. Se sim, como posso fazer isso no R?
r
data-imputation
Amirul Islam
fonte
fonte
Respostas:
Você não pode calcular a média dos dados. Como as variáveis serão as mesmas nos dados imputados, você deverá anexar cada dado imputado. Por exemplo, se você tiver 6 variáveis com 1000 observações e sua frequência de imputação for 5, terá os dados finais de 6 variáveis com 5000 observações. Você usa a
rbind
função para acrescentar os dados em R. Por exemplo, se você tiver cinco dados imputados (supondo que você já tenha esses dados em mãos), seus dados finais serão obtidos comoPara detalhes, veja aqui.
Após a imputação:
O coeficiente de regressão de cada dado imputado será geralmente diferente; portanto, o coeficiente é obtido como a média dos coeficientes de todos os dados imputados. Mas, existe uma regra adicional para erro padrão. Veja aqui para detalhes.
fonte
finaldata <- complete(data, "long")
em [ratos] [1] faz o mesmo. Também pode produzir outras formas, por exemplo, uma matriz ampla ou matriz repetida. [1]: cran.r-project.org/web/packages/mice/index.html "camundongos"mice
. Gostaria de saber se omice
faz a análise quando temos apenas vários dados imputados (mas não os dados originais) da pesquisa.Múltiplos modelos de imputação para dados ausentes raramente são empregados na prática, pois estudos de simulação sugerem que as chances dos verdadeiros parâmetros subjacentes dentro dos intervalos de cobertura nem sempre são representadas com precisão. Eu recomendaria fortemente um teste do processo com base em dados simulados (com parâmetros conhecidos com precisão), com base em dados reais na área de investigação. Uma referência de estudo de simulação https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&NA=5&hl=pt_BR = d2VORWbqTNygdM6Z51TZEg
Suspeito que empregar, digamos, cinco modelos simples / ingênuos para os dados ausentes, pode ser melhor na produção de menos preconceitos e intervalos de cobertura que incluem com precisão os verdadeiros parâmetros subjacentes. Em vez de agrupar as estimativas dos parâmetros, pode-se fazer melhor empregando técnicas bayesianas (consulte o trabalho com modelos de imputação sob esta luz em https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61 .
Sim, não há um endosso total dos modelos padrão de imputação de dados ausentes e para citar uma fonte, por exemplo, http://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Descrevemos alguns antecedentes da análise de dados ausentes e criticamos métodos ad hoc propensos a problemas sérios. Em seguida, focamos na imputação múltipla, na qual os casos ausentes são preenchidos primeiro por vários conjuntos de valores plausíveis para criar vários conjuntos de dados concluídos. .. "onde eu inseri" (?) "depois de plausíveis como modelos ingênuos, por exemplo, geralmente não é melhor descrito como produzindo previsões plausíveis. No entanto, os modelos que incorporam a variável dependente y, ela própria, como variável independente (a chamada regressão de calibração) podem atender melhor a essa caracterização.
fonte