Repito medidas em 2 vezes em uma amostra de pessoas. Existem 18 mil pessoas no tempo 1 e 13 mil no tempo 2 (5000 perdidos no acompanhamento).
Quero regredir um resultado Y medido no tempo 2 (e o resultado não pode ser medido no tempo 1) no conjunto de preditores X medidos no tempo 1. Todas as variáveis têm alguns dados ausentes. A maioria parece relativamente aleatória, ou a falta parece bem descrita pelos dados observados. No entanto, a grande maioria da falta no resultado Y é devida à perda de acompanhamento. Usarei várias imputações (R :: mice) e usarei o conjunto de dados completo para atribuir valores a X, mas recebi 2 conselhos conflitantes sobre a imputação de Y:
1) Impute Y de X e V (V = variáveis auxiliares úteis) na amostra completa de 18k.
2) Não imputa Y em indivíduos perdidos no acompanhamento (e, portanto, os elimine de qualquer modelagem de regressão subsequente).
O primeiro faz sentido porque informação é informação; então, por que não usar tudo; Mas o último também faz sentido, de uma maneira mais intuitiva - parece errado atribuir o resultado para 5000 pessoas com base em Y ~ X + V, para depois se virar e estimar Y ~ X.
Qual é (mais) correto?
Esta pergunta anterior é útil, mas não aborda diretamente a falta devido à perda de acompanhamento (embora talvez a resposta seja a mesma; eu não sei).
fonte
Respostas:
Eu acho que este é um caso de instrumentação. Você quer um X ausente, não um Y ausente.
Mas X freqüentemente está ausente ou mal mensurado.
Então você pode executar:
E requer algum ajuste para os erros padrão.
Você também pode querer observar o procedimento da etapa Heckmann 2 se tiver muito atrito de amostra. http://en.wikipedia.org/wiki/Heckman_correction
fonte
Eu argumentaria que nenhum dos dois é o mais apropriado.
A eliminação de todos os dados ausentes dos seus dados faz com que seus parâmetros fiquem tendenciosos (se os dados não forem MCAR, veja acima) e reduz significativamente a precisão de suas estimativas. Esta é uma análise de "caso completo" e é desaconselhável.
fonte