Como combinar vários conjuntos de dados imputados?

8

Eu preciso de um único conjunto de dados imputados (por exemplo, para criar um manequim de grupo de países a partir dos dados de renda per capita do país imputado). O R oferece pacotes de pacotes para criar vários dados imputados (por exemplo, Amelia) e combinar resultados de vários conjuntos de dados (como no MItools). Minha preocupação é se eu puder calcular a média de todos os dados imputados para obter um único conjunto de dados. Se sim, como posso fazer isso no R?

Amirul Islam
fonte
5
A média de dados é ruim porque aumenta as correlações. A verdadeira questão é por que você acha que precisa de um único conjunto de dados imputados. Tudo o que você pode fazer com um único conjunto de dados, você pode fazer em um conjunto de dados com imputação múltipla.
22413 Stefan Buuren
@ Stef: Também é o caso se queremos calcular o efeito marginal em caso de modelo de seleção como o modelo Heckit ?. Eu posso calcular o efeito marginal em cada dado imputado; mas a questão é se a teoria tem algo a dizer sobre como combiná-las. Obrigado.
Metrics
1
Apenas piscina! Não existe uma teoria que nos permita fazer isso. Mas também não existe uma teoria que proíba isso.
Stef van Buuren
@Stef, em mice :: pool, é especificado que o objeto deve ser with.mids () ou as.mira (). Modelos de aprendizado de máquina podem ser usados ​​em vez de métodos de regressão?
precisa saber é o seguinte

Respostas:

5

Você não pode calcular a média dos dados. Como as variáveis ​​serão as mesmas nos dados imputados, você deverá anexar cada dado imputado. Por exemplo, se você tiver 6 variáveis ​​com 1000 observações e sua frequência de imputação for 5, terá os dados finais de 6 variáveis ​​com 5000 observações. Você usa a rbindfunção para acrescentar os dados em R. Por exemplo, se você tiver cinco dados imputados (supondo que você já tenha esses dados em mãos), seus dados finais serão obtidos como

finaldata <- rbind(data1,data2,data3,data4,data5)

Para detalhes, veja aqui.

Após a imputação:

O coeficiente de regressão de cada dado imputado será geralmente diferente; portanto, o coeficiente é obtido como a média dos coeficientes de todos os dados imputados. Mas, existe uma regra adicional para erro padrão. Veja aqui para detalhes.

Métricas
fonte
4
A declaração finaldata <- complete(data, "long")em [ratos] [1] faz o mesmo. Também pode produzir outras formas, por exemplo, uma matriz ampla ou matriz repetida. [1]: cran.r-project.org/web/packages/mice/index.html "camundongos"
Stef van Buuren
@ Stef: Obrigado. Ainda não usei mice. Gostaria de saber se o micefaz a análise quando temos apenas vários dados imputados (mas não os dados originais) da pesquisa.
Metrics
1
Sim, você pode, mas precisa transformar os dados de imputação múltipla em um objeto mediano para usar as funções de pós-imputação de ratos padrão para análises, diagnósticos e agrupamentos repetidos. A próxima versão do mouse (2.18) incluirá uma função as.mids que faz isso, mas requer que os dados originais estejam presentes. Ele ainda não lidará com o caso em que não sabemos onde estão os dados ausentes.
Stef van Buuren
Obrigado. Portanto, ainda não posso usar, por exemplo, onde tenho apenas os vários dados imputados definidos na Pesquisa de finanças do consumidor .
Metrics
3
Se você não souber onde estão os dados ausentes, precisará calculá-los novamente a partir dos dados imputados. Isso classificará incorretamente os pontos como observado se, por acaso, todas as imputações para essa célula forem idênticas nos m conjuntos de dados. Como conseqüência, o diagnóstico pode rotular incorretamente os pontos imputados como pontos observados (na terminologia do mouse: alguns pontos vermelhos são plotados incorretamente como pontos azuis). No entanto, isso não afeta a validade das inferências estatísticas. Então, com algum esforço extra, você pode.
21413 Stefan Buuren
-1

Múltiplos modelos de imputação para dados ausentes raramente são empregados na prática, pois estudos de simulação sugerem que as chances dos verdadeiros parâmetros subjacentes dentro dos intervalos de cobertura nem sempre são representadas com precisão. Eu recomendaria fortemente um teste do processo com base em dados simulados (com parâmetros conhecidos com precisão), com base em dados reais na área de investigação. Uma referência de estudo de simulação https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&NA=5&hl=pt_BR = d2VORWbqTNygdM6Z51TZEg

Suspeito que empregar, digamos, cinco modelos simples / ingênuos para os dados ausentes, pode ser melhor na produção de menos preconceitos e intervalos de cobertura que incluem com precisão os verdadeiros parâmetros subjacentes. Em vez de agrupar as estimativas dos parâmetros, pode-se fazer melhor empregando técnicas bayesianas (consulte o trabalho com modelos de imputação sob esta luz em https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61 .

Sim, não há um endosso total dos modelos padrão de imputação de dados ausentes e para citar uma fonte, por exemplo, http://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Descrevemos alguns antecedentes da análise de dados ausentes e criticamos métodos ad hoc propensos a problemas sérios. Em seguida, focamos na imputação múltipla, na qual os casos ausentes são preenchidos primeiro por vários conjuntos de valores plausíveis para criar vários conjuntos de dados concluídos. .. "onde eu inseri" (?) "depois de plausíveis como modelos ingênuos, por exemplo, geralmente não é melhor descrito como produzindo previsões plausíveis. No entanto, os modelos que incorporam a variável dependente y, ela própria, como variável independente (a chamada regressão de calibração) podem atender melhor a essa caracterização.

AJKOER
fonte