Atualmente, estou trabalhando com um grande conjunto de dados de solicitações de seguro de saúde que inclui algumas solicitações de laboratório e farmácia. As informações mais consistentes no conjunto de dados, no entanto, são compostas por códigos de diagnóstico (CID-9CM) e procedimentos (CPT, HCSPCS, CID-9CM).
Meus objetivos são:
- Identifique as condições precursoras mais influentes (comorbidades) para uma condição médica como doença renal crônica;
- Identifique a probabilidade (ou probabilidade) de um paciente desenvolver uma condição médica com base nas condições que teve no passado;
- Faça o mesmo que 1 e 2, mas com procedimentos e / ou diagnósticos.
- De preferência, os resultados seriam interpretáveis por um médico
Analisei coisas como os documentos do Marco de Prêmio de Saúde do Patrimônio e aprendi muito com eles, mas eles estão focados na previsão de hospitalizações.
Então, aqui estão minhas perguntas: Quais métodos você acha que funcionam bem para problemas como esse? E que recursos seriam mais úteis para aprender sobre aplicativos e métodos de ciência de dados relevantes para a saúde e a medicina clínica?
EDIT # 2 para adicionar tabela de texto sem formatação:
A DRC é a condição de destino, "doença renal crônica", ".any" indica que eles adquiriram essa condição a qualquer momento, ".isbefore.ckd" significa que eles tinham essa condição antes do primeiro diagnóstico de DRC. As outras abreviações correspondem a outras condições identificadas pelos agrupamentos de códigos da CID-9CM. Esse agrupamento ocorre no SQL durante o processo de importação. Cada variável, com exceção da Patient_age, é binária.
fonte
Respostas:
Eu nunca trabalhei com dados médicos, mas pelo raciocínio geral, diria que as relações entre variáveis na área da saúde são bastante complicadas. Modelos diferentes, como florestas aleatórias, regressão, etc. poderiam capturar apenas parte das relações e ignorar outras. Em tais circunstâncias, faz sentido usar a exploração e modelagem estatística geral .
Por exemplo, a primeira coisa que eu faria é descobrir correlações entre possíveis condições precursoras e diagnósticos. Por exemplo, em que porcentagem dos casos a doença renal crônica foi precedida por gripe longa? Se for alto, nem sempre significa causalidade , mas fornece um bom alimento para o pensamento e ajuda a entender melhor as relações entre diferentes condições.
Outro passo importante é a visualização de dados. A DRC ocorre nos homens com mais frequência do que nas mulheres? E o local de residência deles? Qual é a distribuição dos casos de DRC por idade? É difícil entender grandes conjuntos de dados como um conjunto de números, plotar esses dados torna muito mais fácil.
Quando você tiver uma idéia do que está acontecendo, execute o teste de hipóteses para verificar sua suposição. Se você rejeitar a hipótese nula (suposição básica) em favor da alternativa, parabéns, você fez "algo real".
Finalmente, quando você entender bem seus dados, tente criar um modelo completo . Pode ser algo geral como PGM (por exemplo, rede bayesiana criada manualmente) ou algo mais específico como regressão linear ou SVM , ou qualquer outra coisa. Mas, de qualquer forma, você já saberá como esse modelo corresponde aos seus dados e como pode medir sua eficiência.
Como um bom recurso inicial para o aprendizado da abordagem estatística, eu recomendaria o curso Introdução às Estatísticas , de Sebastian Thrun. Embora seja bastante básico e não inclua tópicos avançados, descreve os conceitos mais importantes e fornece uma compreensão sistemática da teoria e da estatística das probabilidades.
fonte
Embora eu não seja cientista de dados, sou epidemiologista trabalhando em um ambiente clínico. Sua pergunta de pesquisa não especificou um período de tempo (ou seja, chances de desenvolver DRC em 1 ano, 10 anos, vida útil?).
Geralmente, eu realizava várias etapas antes de pensar em modelagem (análise univariada, análise bivariada, verificações de colinearidade etc.). No entanto, o método mais comumente usado para tentar prever um evento binário (usando variáveis binárias OR contínuas) é a regressão logística. Se você quisesse considerar a DRC como um valor de laboratório (albumina na urina, TFGe), usaria regressão linear (resultado contínuo).
Embora os métodos utilizados devam ser informados por seus dados e perguntas, os médicos estão acostumados a ver taxas de chances e taxas de risco, pois essas são as medidas de associação mais comumente relatadas em revistas médicas como NEJM e JAMA.
Se você está trabalhando nesse problema do ponto de vista da saúde humana (em oposição ao Business Intelligence), os Modelos de previsão clínica de Steyerberg são um excelente recurso.
fonte
"Identifique as condições precursoras mais influentes (comorbidades) para uma condição médica como doença renal crônica"
Não sei se é possível identificar as condições mais influentes; Eu acho que vai depender do modelo que você estiver usando. Ontem, encaixei uma floresta aleatória e uma árvore de regressão aprimorada nos mesmos dados, e a ordem e importância relativa que cada modelo deu para as variáveis eram bastante diferentes.
fonte