Eu estou querendo saber como integrar splines cúbicos restritos (como no pacote rms) nos modelos de imputação no pacote de imputação de ratos R.
Contexto : estou fazendo pesquisa biomédica e tenho acesso a um conjunto de dados que consiste em características do paciente e dados sobre a progressão da doença do paciente, próximo aos resultados após o atendimento médico (por exemplo, sobrevivência de um ano). O objetivo é construir um modelo de previsão com base nas características do paciente e na progressão da doença, a fim de prever a ocorrência de determinados resultados. Infelizmente, alguns pacientes não têm informações completas sobre todas as variáveis. Como tal, decidi usar várias técnicas de imputação para estimar (várias vezes) quais seriam esses valores ausentes.
Problema : Ao usar a imputação múltipla, existe esta 'regra' chamada simpatia. Isso significa que a imputação requer que o modelo estatístico usado para a análise final (ou seja, o modelo de previsão que eu quero estudar) também deva ser incluído no modelo de imputação (de preferência com informações adicionais adicionadas a ele). Isso também significa levar em consideração possíveis associações não lineares. Como não sei se determinados preditores têm associações não lineares com outros, gostaria que os modelos de imputação pudessem ajustar splines cúbicos restritos. No entanto, eu realmente não entendo como fazer isso em ratos. Por isso, gostaria de ajudar na criação de modelos de imputação que permitam rcs, adequados para ratos.
Em uma nota de rodapé para qualquer moderador: eu pensei que essa pergunta era adequada para validação cruzada, pois a imputação e as splines são assuntos específicos 'estatísticos'. No entanto, devido ao foco na natureza da programação dessa questão de 'como fazer', não me importaria que a pergunta fosse migrada se você achar que é mais adequado em outro lugar. Após essa dúvida, também postei esta pergunta no StackOverflow ( /programming/45674088/how-to-use-restricted-cubic-splines-with-the-r-mice-imputation-package )
Respostas:
Você está certo de que o modelo de imputação precisa ser tão rico ou mais rico que o modelo de resultado. O fato de a imputação baseada na estimativa da máxima probabilidade máxima e na imputação assumida por
mice
linearidade em todos os lugares foi um dos principais motivos para escrever a função doHmisc
pacote RaregImpute
, que cria modelos de imputação automaticamente usando modelos de spline cúbico restrito aditivo rico. Portanto, a linearidade não é assumida para imputação múltipla. A abordagem padrão emaregImpute
é a correspondência preditiva média, que geralmente prefiro sobre abordagens mais paramétricas (splines ainda são usadas; o PMM é menos paramétrico no lado esquerdo dos modelos).Como
mice
,aregImpute
usa equações encadeadas. Ao contráriomice
, ele usa desenhos de autoinicialização em vez de desenhos posteriores bayesianos aproximados (assumindo normalidade multivariada).fonte
mice
zero nós (linearidade)), que seria uma boa parte de um pacote R. Ao fazer isso, você pode compararmice
earegImpute
codificar para ver ondemice
é um pouco lento e pode ser acelerado.