Como usar splines cúbicos restritos com o pacote de imputação de ratos R

8

Eu estou querendo saber como integrar splines cúbicos restritos (como no pacote rms) nos modelos de imputação no pacote de imputação de ratos R.

Contexto : estou fazendo pesquisa biomédica e tenho acesso a um conjunto de dados que consiste em características do paciente e dados sobre a progressão da doença do paciente, próximo aos resultados após o atendimento médico (por exemplo, sobrevivência de um ano). O objetivo é construir um modelo de previsão com base nas características do paciente e na progressão da doença, a fim de prever a ocorrência de determinados resultados. Infelizmente, alguns pacientes não têm informações completas sobre todas as variáveis. Como tal, decidi usar várias técnicas de imputação para estimar (várias vezes) quais seriam esses valores ausentes.

Problema : Ao usar a imputação múltipla, existe esta 'regra' chamada simpatia. Isso significa que a imputação requer que o modelo estatístico usado para a análise final (ou seja, o modelo de previsão que eu quero estudar) também deva ser incluído no modelo de imputação (de preferência com informações adicionais adicionadas a ele). Isso também significa levar em consideração possíveis associações não lineares. Como não sei se determinados preditores têm associações não lineares com outros, gostaria que os modelos de imputação pudessem ajustar splines cúbicos restritos. No entanto, eu realmente não entendo como fazer isso em ratos. Por isso, gostaria de ajudar na criação de modelos de imputação que permitam rcs, adequados para ratos.


Em uma nota de rodapé para qualquer moderador: eu pensei que essa pergunta era adequada para validação cruzada, pois a imputação e as splines são assuntos específicos 'estatísticos'. No entanto, devido ao foco na natureza da programação dessa questão de 'como fazer', não me importaria que a pergunta fosse migrada se você achar que é mais adequado em outro lugar. Após essa dúvida, também postei esta pergunta no StackOverflow ( /programming/45674088/how-to-use-restricted-cubic-splines-with-the-r-mice-imputation-package )

IWS
fonte
2
Se você não obtiver respostas úteis, tentarei enviar um e-mail para o mantenedor do pacote e, em seguida, postar uma resposta para sua pergunta aqui. Eu não acho que você obterá muita ajuda adicional em R-help, pois eles podem parecer muito estatísticos.
mdewey
1
@mdewey obrigado pela dica; Vou tentar voltar se não há nada para mostrar
IWS
2
Eu adicionei uma recompensa; mas, como observei, acho que isso é desnecessariamente limitado. Ou seja, uma questão maior é como lidar com dados ausentes com splines. Talvez o pacote perturb seja bom.
Peter Flom
1
@ PeterFlom Obrigado por colocar a recompensa. Admito que pedir funcionalidade específica no pacote de mouses é limitante. Vou examinar o pacote perturb para ver o que posso aprender com ele. Como você sugeriu no texto de recompensa e em sua pergunta aqui: stats.stackexchange.com/questions/301017/… , é de grande interesse ter uma resposta geral se associações não lineares durante a imputação são adicionadas ao tratamento de dados ausentes.
IWS

Respostas:

4

Você está certo de que o modelo de imputação precisa ser tão rico ou mais rico que o modelo de resultado. O fato de a imputação baseada na estimativa da máxima probabilidade máxima e na imputação assumida por micelinearidade em todos os lugares foi um dos principais motivos para escrever a função do Hmiscpacote R aregImpute, que cria modelos de imputação automaticamente usando modelos de spline cúbico restrito aditivo rico. Portanto, a linearidade não é assumida para imputação múltipla. A abordagem padrão em aregImputeé a correspondência preditiva média, que geralmente prefiro sobre abordagens mais paramétricas (splines ainda são usadas; o PMM é menos paramétrico no lado esquerdo dos modelos).

Como mice, aregImputeusa equações encadeadas. Ao contrário mice, ele usa desenhos de autoinicialização em vez de desenhos posteriores bayesianos aproximados (assumindo normalidade multivariada).

Frank Harrell
fonte
1
Aceitei esta resposta porque o @ frank-harrel aborda adequadamente o manuseio de possíveis associações não lineares durante a imputação no cenário geral. Para os interessados, eu já estava trabalhando em modelos de imputação (por exemplo, PMM, regressão linear, regressão logística) que são compatíveis com o pacote de ratos de R e permitem splines cúbicos restritos. Vou publicá-las como resposta aqui, por uma questão de integridade mais tarde, mas esses modelos não serão testados. Portanto, para aqueles com um problema semelhante, observe e use aregImpute.
IWS
1
@IWS seria uma boa contribuição e você pode continuar testando (inclusive mostrando resultados idênticos com o uso de micezero nós (linearidade)), que seria uma boa parte de um pacote R. Ao fazer isso, você pode comparar micee aregImputecodificar para ver onde miceé um pouco lento e pode ser acelerado.
Frank Harrell