Imputação de uma variável censurada

9

Eu tenho um conjunto de dados médicos com aproximadamente 200 variáveis. Uma das variáveis ​​é um biomarcador (concentração de uma enzima específica). Sua distribuição está correta, e o problema é que valores acima de um determinado nível são censurados / cortados nesse nível. Portanto, enquanto a média da variável é em torno de 10, quaisquer valores maiores que 50 são registrados como 50.

Eu gostaria de atribuir valores contínuos a esses valores censurados. Atualmente, estou usando imputação múltipla com o pacote de mouses no R, embora outros sistemas estejam disponíveis para mim e estou aberto a outras abordagens. Um pensamento que tive foi recodificar todos os valores censurados que estavam faltando e depois executar as imputações. Se algum dos valores imputados que foram originalmente censurados estiverem abaixo do limite, eles serão atribuídos ao valor de corte.

Eu gostaria de saber opiniões sobre isso e / ou quaisquer métodos melhores para lidar com isso.

Robert Long
fonte
Que papel esse biomarcador desempenhará nas análises subsequentes? Por exemplo, será uma variável explicativa, covariável ou dependente em uma regressão? É possível que você possa usar um método que não exija imputação de valores. Você deve favorecer esses métodos, porque, caso contrário, estará fazendo um WAG sobre o formato da cauda direita censurada, que - por causa da distorção - pode conter alguns valores influentes nas análises.
whuber
@whuber, o biomarcador é uma variável explicativa. A prática normal neste campo é discretizá-lo como 0-1, 1-10, 10+ ou, às vezes, apenas 0-1 e 1+ (ou seja, elevado ou não elevado). Tive a ideia de incluí-lo como uma variável explicativa contínua. Embora o conjunto de dados possua 200 variáveis, a orientação clínica e a experiência anterior sugerem o uso de 10 delas no modelo final, portanto, eu estava pensando em imputar os valores> 50 usando algumas das outras variáveis.
Robert Long

Respostas:

5

Qualquer método de imputação, incluindo a imputação múltipla, é um tiro no escuro, se você não pode ter em conta como os dados acima de 50 são distribuídos. Como você tem 200 variáveis, alguma delas está correlacionada com o biomarcador? Se você pudesse ajustar uma regressão para o biomarcador em função das covariáveis, poderia usar esse modelo para prever os valores para os truncados. Você pode aplicar um erro à previsão com base na variação residual no modelo para gerar várias imputações dessa maneira. Seria mais sensato. Obviamente, isso pressupõe que você encontre um modelo válido e que os resíduos tenham média zero e variação constante. Você ajustaria apenas valores de biomarcadores não truncados para construir o modelo.

Michael R. Chernick
fonte