Imputação múltipla e seleção de modelo

21

A imputação múltipla é bastante direta quando você tem um modelo linear a priori que deseja estimar. No entanto, as coisas parecem um pouco mais complicadas quando você realmente deseja fazer uma seleção de modelo (por exemplo, encontre o "melhor" conjunto de variáveis ​​preditoras a partir de um conjunto maior de variáveis ​​candidatas - estou pensando especificamente no LASSO e em polinômios fracionários usando R).

Uma idéia seria ajustar o modelo nos dados originais com os valores ausentes e, em seguida, reestimar esse modelo nos conjuntos de dados de MI e combinar estimativas como faria normalmente. No entanto, isso parece problemático, pois você espera um viés (ou então por que o MI em primeiro lugar?), O que pode levar à seleção de um modelo "errado" desde o início.

Outra idéia seria passar por qualquer processo de seleção de modelo que você esteja usando em cada conjunto de dados de MI - mas como você combinaria os resultados se eles incluíssem conjuntos diferentes de variáveis?

Um pensamento que eu tinha era empilhar um conjunto de conjuntos de dados de MI e analisá-los como um grande conjunto de dados que você usaria para ajustar um único modelo "melhor" e incluir um efeito aleatório para explicar o fato de que você está usando medidas repetidas para cada observação.

Isso soa razoável? Ou talvez incrivelmente ingênuo? Qualquer indicação sobre esse assunto (seleção de modelo com imputação múltipla) seria muito apreciada.

DL Dahly
fonte
2
Por favor, edite esta postagem para alterar "ajuste do modelo" para "seleção de modelo". Também seria útil discutir qual método você está usando. Por exemplo, se a seleção passo a passo do modelo com base em valores-p for usada, o empilhamento de dados imputados NÃO será absolutamente permitido. Você pode desenhar novas amostras de bootstrap de seus dados, incluindo dados ausentes, aplicar o MI e o processo de seleção de modelo subsequente e calcular um "valor p" exato para o modelo selecionado.
Adamo
No seu segundo parágrafo, por que você acha que esse método perde o ponto da imputação múltipla? Além disso, qual software você está usando?
Peter Flom - Restabelece Monica

Respostas:

10

Você pode fazer muitas coisas para selecionar variáveis ​​a partir de dados multiplicados, mas nem todas produzem estimativas apropriadas. Veja Wood et al (2008) Stat Med para uma comparação de várias possibilidades.

Eu achei o procedimento de duas etapas a seguir útil na prática.

  1. Aplique seu método de seleção de variável preferido independentemente a cada um dos conjuntos de dados imputados. Você vai acabar commmm modelos diferentes. Para cada variável, conte o número de vezes que aparece no modelo. Selecione aquelas variáveis ​​que aparecem em pelo menos metade dos modelos.m
  2. Use o valor p da estatística de Wald ou do teste da razão de verossimilhança, calculado a partir dos conjuntos de dados com imputação múltipla como critério para seleção adicional de modelo por etapas.m

A etapa 1 de pré-seleção está incluída para reduzir a quantidade de computação. Consulte http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (seção 6.4.2) para obter um exemplo de código do método de duas etapas no R usando mice(). No Stata, você pode executar a Etapa 2 (em todas as variáveis) com mim:stepwise.

Stef van Buuren
fonte
Stef, por favor inclua o link para a publicação Stat Med. Também tentei embelezar sua resposta.
StasK
1
A rotina proposta pode fazer sentido apenas quando você seleciona de um conjunto pré-especificado de regressores. Mas se eu escolher dizer uma tendência quadrática, splines B de 5 e 9 nós e pode ser um CART, não tenho certeza de como aplicar esta proposta.
StasK
Stas, o procedimento assume que o modelo de imputação está correto. Em particular, o método de imputação deve capturar adequadamente todos os recursos nos dados nos quais você poderá se interessar posteriormente. Portanto, se você deseja incluir termos quadráticos ou splines B em sua análise de dados completos, o modelo de imputação deve ser configurado de forma que esses recursos sejam preservados nos dados imputados (Nota: isso pode ser realmente difícil de obter , mas esse é um tópico por si só). Dado que o modelo de imputação está especificado corretamente, eu diria que o procedimento de seleção em duas etapas se aplica.
Stef van Buuren
Bem, basicamente o modelo de imputação deve ser o modelo mais rico possível. Eu me deparei com situações em que isso não funciona muito bem, como previsões perfeitas em modelos logísticos super-parametrizados.
StasK
Acordado. Você terá que imputar o modelo mais rico possível. Portanto, primeiro defina as análises mais complexas que você gostaria de fazer e adapte o modelo de imputação a isso. Isso pode ser difícil de conseguir na prática e fica mais difícil à medida que a complexidade do modelo de dados completos aumenta. Não há almoço grátis. A previsão perfeita na regressão logística foi resolvida de várias maneiras e não precisa apresentar um grande obstáculo.
precisa saber é o seguinte
4

É simples: você pode aplicar regras de combinação de MI padrão - mas os efeitos de variáveis ​​que não são suportadas em conjuntos de dados imputados serão menos pronunciados. Por exemplo, se uma variável não é selecionada em um conjunto de dados imputado específico, sua estimativa (incl. Variação) é zero e isso deve ser refletido nas estimativas usadas ao usar a imputação múltipla. Você pode considerar o bootstrap para construir intervalos de confiança para incorporar a incerteza na seleção de modelos. Dê uma olhada nesta publicação recente que aborda todas as perguntas: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Eu evitaria usar abordagens pragmáticas, como selecionar uma variável se ela for selecionada em conjuntos de dados m / 2 ou sth similar, porque a inferência não é clara e mais complicada do que parece à primeira vista.

Michael
fonte
3

Eu estava tendo o mesmo problema.

Minha escolha foi o chamado "laço de imputação múltipla". Basicamente, combina todos os conjuntos de dados imputados e adota o conceito de laço de grupo: cada variável candidata geraria m variáveis ​​fictícias. Cada variável dummy corresponde a um conjunto de dados imputado.

Então, todos os m variáveis binárias são agrupados. você quer descartar de uma variável candidato m variáveis binárias em todos os conjuntos de dados imputados ou mantê-los em todos os conjuntos de dados imputadas.

Portanto, a regressão do laço é realmente adequada a todos os conjuntos de dados imputados em conjunto.

Verifique o papel :

Chen, Q. e Wang, S. (2013). "Seleção variável para dados de imputação múltipla com aplicação ao estudo de exposição à dioxina", Statistics in Medicine, 32: 3646-59.

E um programa R relevante

Fan Wang
fonte
Eu acho que realmente enviei um e-mail a você sobre isso há alguns anos atrás: #
DL Dahly 1/17
1

Estou enfrentando um problema semelhante - tenho um conjunto de dados no qual sabia desde o início que queria incluir todas as variáveis ​​(estava mais interessado nos coeficientes do que na previsão), mas não conhecia um a priori que interações devem ser especificadas.

Minha abordagem foi escrever um conjunto de modelos candidatos, executar várias imputações, estimar os vários modelos e simplesmente salvar e calcular a média das AICs de cada modelo. A especificação do modelo com a menor média de AIC foi selecionada.

Pensei em adicionar uma correção em que penalizo a variação entre imputações na AIC. Na reflexão, no entanto, isso parecia inútil.

A abordagem me pareceu bastante direta, mas eu a inventei e não sou um estatístico célebre. Antes de usá-lo, aguarde até que as pessoas me corrijam (o que seria bem-vindo!) Ou atualize esta resposta.

generic_user
fonte
Obrigado pela resposta. Infelizmente, o que realmente me interessa é usar métodos mais automatizados / exploratórios de seleção de modelos que não se prestam a selecionar primeiro um conjunto razoável de modelos candidatos.
DL Dahly