Qual é a vantagem da imputação sobre a construção de vários modelos em regressão?

Gostaria de saber se alguém poderia fornecer algumas dicas sobre se uma imputação de dados ausentes é melhor do que simplesmente criar modelos diferentes para casos com dados ausentes. Especialmente no caso de modelos lineares [generalizados] (talvez eu possa ver em casos não lineares as coisas são diferentes)

Suponha que tenhamos o modelo linear básico:

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

Mas nosso conjunto de dados contém alguns registros com o ausente. No conjunto de dados de previsão onde o modelo será usado, também haverá casos de falta de . Parece haver duas maneiras de proceder: $X_3$ $X_3$

Vários modelos

Poderíamos dividir os dados em casos e não e criar um modelo separado para cada um. Se supusermos que está intimamente relacionado a , o modelo de dados ausentes pode sobrepor para obter a melhor previsão de dois preditores. Além disso, se os casos de dados ausentes forem ligeiramente diferentes (devido ao mecanismo de dados ausentes), ele poderá incorporar essa diferença. No lado negativo, os dois modelos estão se ajustando apenas a uma parte dos dados cada e não estão "ajudando" um ao outro, portanto, o ajuste pode ser ruim em conjuntos de dados limitados. $X_3$ $X_3$ $X_3$ $X_2$ $X_2$

Imputação

A regressão da imputação múltipla preencheria primeiro o construindo um modelo baseado em e e depois amostrando aleatoriamente para manter o ruído nos dados imputados. Como se trata de dois modelos novamente, isso não acabará sendo o mesmo que o método de modelo múltiplo acima? Se é capaz de superar o desempenho - de onde vem o ganho? Será que o ajuste para o é feito em todo o conjunto? $X_3$ $X_1$ $X_2$ $X_1$

EDITAR:

Embora a resposta de Steffan até agora explique que o ajuste do modelo de caso completo nos dados imputados terá um desempenho superior ao dos dados completos, e parece óbvio que o inverso é verdadeiro, ainda há algum mal-entendido sobre a previsão de dados ausentes.

Se eu tiver o modelo acima, mesmo que esteja perfeitamente ajustado, em geral será um péssimo modelo de previsão se eu colocar zero na previsão. Imagine, por exemplo, que então é completamente inútil ( ) quando está presente, mas ainda seria útil na ausência de . $X_2 = X_3+\eta$ $X_2$ $\beta_2 = 0$ $X_3$ $X_3$

A principal pergunta que não entendo é: é melhor criar dois modelos, um usando e outro usando , ou é melhor criar um único ( completo) modele e use a imputação nos conjuntos de dados de previsão - ou são a mesma coisa? $(X_1, X_2)$ $(X_1, X_2, X_3)$

Trazendo a resposta de Steffan, parece que é melhor criar o modelo de caso completo em um conjunto de treinamento imputado e, inversamente, é provavelmente melhor criar o modelo de dados ausentes no conjunto de dados completo com o descartado. Esta segunda etapa é diferente de usar um modelo de imputação nos dados da previsão? $X_3$

regression missing-data data-imputation Korone
fonte

Respostas:

Eu acho que a chave aqui é entender o mecanismo de dados ausentes; ou pelo menos descartando alguns. Construir modelos separados é semelhante ao tratamento de grupos ausentes e não ausentes como amostras aleatórias. Se a falta no X3 estiver relacionada ao X1 ou X2 ou a alguma outra variável não observada, é provável que suas estimativas sejam tendenciosas em cada modelo. Por que não usar imputação múltipla no conjunto de dados de desenvolvimento e usar os coeficientes combinados em um conjunto de previsão imputado multiplicado? Média entre as previsões e você deve ser bom.

Pesquisa confiável
fonte

Mas se a falta está relacionada a X1 ou X2, certamente é bom ter dois modelos separados - pois eles incorporarão essas informações. Ou seja, quando, no futuro, eu tiver um X3 ausente, saberei ser tendencioso na direção correta.

Korone

Suponho que você esteja interessado em obter estimativas imparciais dos coeficientes de regressão. A análise dos casos completos produz estimativas imparciais dos seus coeficientes de regressão, desde que a probabilidade de falta de X3 não dependa de Y. Isso vale mesmo se a probabilidade de falta de dependência depender de X1 ou X2 e para qualquer tipo de análise de regressão.

Obviamente, as estimativas podem ser ineficientes se a proporção de casos completos for pequena. Nesse caso, você pode usar a imputação múltipla de X3, dadas X2, X1 e Y para aumentar a precisão. Veja White e Carlin (2010) Stat Med para obter detalhes.

Stef van Buuren
fonte

Ah, então a imputação se resume a acertar os coeficientes? Os próprios coeficientes são de nenhum interesse para mim - eu só quero maximizar o meu poder preditivo em novos dados (que também pode ter omissão)

Korone

Isso é bom. Para alcançar o poder preditivo máximo, você também desejaria estimativas precisas e imparciais dos coeficientes do modelo.

precisa

Se eu usar apenas os casos completos, não posso usar esse modelo para previsão quando houver dados ausentes, porque os coeficientes geralmente estarão incorretos (por exemplo, se houver correlação entre X2 e X3). Portanto, devo imputar o X3 ao fazer a previsão ou construir um segundo modelo em apenas X1 e X2. A questão é se isso resulta em previsões diferentes e qual é o melhor?

Korone

Ah, acho que entendo um ponto que você está argumentando: se eu ajustar o modelo para a previsão completa de casos usando a imputação, isso melhorará a previsão completa do caso, em comparação com apenas os casos concorrentes. A questão restante é o que é melhor para os casos incompletos?

precisa saber é

Suponha que beta_1 = beta_2 = 0 e beta_3 = 1. Usar apenas X1 e X2 preverá uma constante, enquanto que a previsão usando X3 explicará algumas das variações de Y e, portanto, resultará em um erro residual menor. Assim, a versão imputada produz melhores previsões.

Stef van Buuren

Um estudo de Harvard sugere imputação múltipla com cinco previsões dos dados ausentes (aqui está a referência, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Mesmo assim, recordo comentários que os modelos de imputação ainda podem não produzir intervalos de cobertura para os parâmetros do modelo que não incluem os verdadeiros valores subjacentes!

Com isso em mente, parece melhor usar cinco modelos simples e ingênuos para o valor ausente (assumindo que não falta aleatoriamente na discussão atual) que produzem uma boa distribuição de valores, de modo que os intervalos de cobertura possam, pelo menos, conter os parâmetros verdadeiros .

Minha experiência na teoria da amostragem é que muitos recursos são frequentemente gastos na subamostragem da população de não resposta que, às vezes, parece ser muito diferente da população de resposta. Como tal, eu recomendaria um exercício semelhante na regressão de valores ausentes pelo menos uma vez na área de aplicação específica. Os relacionamentos não recuperados em tal exploração dos dados ausentes podem ser de valor histórico na construção de melhores modelos de previsão de dados ausentes para o futuro.

AJKOER
fonte