A imputação múltipla é bastante direta quando você tem um modelo linear a priori que deseja estimar. No entanto, as coisas parecem um pouco mais complicadas quando você realmente deseja fazer uma seleção de modelo (por exemplo, encontre o "melhor" conjunto de variáveis preditoras a partir de um conjunto maior de variáveis candidatas - estou pensando especificamente no LASSO e em polinômios fracionários usando R).
Uma idéia seria ajustar o modelo nos dados originais com os valores ausentes e, em seguida, reestimar esse modelo nos conjuntos de dados de MI e combinar estimativas como faria normalmente. No entanto, isso parece problemático, pois você espera um viés (ou então por que o MI em primeiro lugar?), O que pode levar à seleção de um modelo "errado" desde o início.
Outra idéia seria passar por qualquer processo de seleção de modelo que você esteja usando em cada conjunto de dados de MI - mas como você combinaria os resultados se eles incluíssem conjuntos diferentes de variáveis?
Um pensamento que eu tinha era empilhar um conjunto de conjuntos de dados de MI e analisá-los como um grande conjunto de dados que você usaria para ajustar um único modelo "melhor" e incluir um efeito aleatório para explicar o fato de que você está usando medidas repetidas para cada observação.
Isso soa razoável? Ou talvez incrivelmente ingênuo? Qualquer indicação sobre esse assunto (seleção de modelo com imputação múltipla) seria muito apreciada.
fonte
Respostas:
Você pode fazer muitas coisas para selecionar variáveis a partir de dados multiplicados, mas nem todas produzem estimativas apropriadas. Veja Wood et al (2008) Stat Med para uma comparação de várias possibilidades.
Eu achei o procedimento de duas etapas a seguir útil na prática.
A etapa 1 de pré-seleção está incluída para reduzir a quantidade de computação. Consulte http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (seção 6.4.2) para obter um exemplo de código do método de duas etapas no R usando
mice()
. No Stata, você pode executar a Etapa 2 (em todas as variáveis) commim:stepwise
.fonte
É simples: você pode aplicar regras de combinação de MI padrão - mas os efeitos de variáveis que não são suportadas em conjuntos de dados imputados serão menos pronunciados. Por exemplo, se uma variável não é selecionada em um conjunto de dados imputado específico, sua estimativa (incl. Variação) é zero e isso deve ser refletido nas estimativas usadas ao usar a imputação múltipla. Você pode considerar o bootstrap para construir intervalos de confiança para incorporar a incerteza na seleção de modelos. Dê uma olhada nesta publicação recente que aborda todas as perguntas: http://www.sciencedirect.com/science/article/pii/S016794731300073X
Eu evitaria usar abordagens pragmáticas, como selecionar uma variável se ela for selecionada em conjuntos de dados m / 2 ou sth similar, porque a inferência não é clara e mais complicada do que parece à primeira vista.
fonte
Eu estava tendo o mesmo problema.
Minha escolha foi o chamado "laço de imputação múltipla". Basicamente, combina todos os conjuntos de dados imputados e adota o conceito de laço de grupo: cada variável candidata geraria m variáveis fictícias. Cada variável dummy corresponde a um conjunto de dados imputado.
Então, todos os m variáveis binárias são agrupados. você quer descartar de uma variável candidato m variáveis binárias em todos os conjuntos de dados imputados ou mantê-los em todos os conjuntos de dados imputadas.
Portanto, a regressão do laço é realmente adequada a todos os conjuntos de dados imputados em conjunto.
Verifique o papel :
Chen, Q. e Wang, S. (2013). "Seleção variável para dados de imputação múltipla com aplicação ao estudo de exposição à dioxina", Statistics in Medicine, 32: 3646-59.
E um programa R relevante
fonte
Estou enfrentando um problema semelhante - tenho um conjunto de dados no qual sabia desde o início que queria incluir todas as variáveis (estava mais interessado nos coeficientes do que na previsão), mas não conhecia um a priori que interações devem ser especificadas.
Minha abordagem foi escrever um conjunto de modelos candidatos, executar várias imputações, estimar os vários modelos e simplesmente salvar e calcular a média das AICs de cada modelo. A especificação do modelo com a menor média de AIC foi selecionada.
Pensei em adicionar uma correção em que penalizo a variação entre imputações na AIC. Na reflexão, no entanto, isso parecia inútil.
A abordagem me pareceu bastante direta, mas eu a inventei e não sou um estatístico célebre. Antes de usá-lo, aguarde até que as pessoas me corrijam (o que seria bem-vindo!) Ou atualize esta resposta.
fonte