Eu tenho um conjunto de dados médicos com aproximadamente 200 variáveis. Uma das variáveis é um biomarcador (concentração de uma enzima específica). Sua distribuição está correta, e o problema é que valores acima de um determinado nível são censurados / cortados nesse nível. Portanto, enquanto a média da variável é em torno de 10, quaisquer valores maiores que 50 são registrados como 50.
Eu gostaria de atribuir valores contínuos a esses valores censurados. Atualmente, estou usando imputação múltipla com o pacote de mouses no R, embora outros sistemas estejam disponíveis para mim e estou aberto a outras abordagens. Um pensamento que tive foi recodificar todos os valores censurados que estavam faltando e depois executar as imputações. Se algum dos valores imputados que foram originalmente censurados estiverem abaixo do limite, eles serão atribuídos ao valor de corte.
Eu gostaria de saber opiniões sobre isso e / ou quaisquer métodos melhores para lidar com isso.
fonte
Respostas:
Qualquer método de imputação, incluindo a imputação múltipla, é um tiro no escuro, se você não pode ter em conta como os dados acima de 50 são distribuídos. Como você tem 200 variáveis, alguma delas está correlacionada com o biomarcador? Se você pudesse ajustar uma regressão para o biomarcador em função das covariáveis, poderia usar esse modelo para prever os valores para os truncados. Você pode aplicar um erro à previsão com base na variação residual no modelo para gerar várias imputações dessa maneira. Seria mais sensato. Obviamente, isso pressupõe que você encontre um modelo válido e que os resíduos tenham média zero e variação constante. Você ajustaria apenas valores de biomarcadores não truncados para construir o modelo.
fonte