Esta questão é sobre a estimativa de pontos de corte em um questionário de triagem multidimensional para prever um endpoint binário, na presença de escalas correlatas.
Perguntaram-me sobre o interesse de controlar os subescores associados ao criar pontuações de corte em cada dimensão de uma escala de medida (traços de personalidade) que possam ser usadas para a triagem do alcoolismo. Ou seja, nesse caso em particular, a pessoa não estava interessada em ajustar covariáveis externas (preditores) - o que leva a área (parcial) sob a curva ROC ajustada covariada, por exemplo (1-2) -, mas essencialmente em outras pontuações do mesmo questionário, porque eles se correlacionam (por exemplo, "impulsividade" com "busca de sensação"). Isso equivale a criar um GLM que inclua no lado esquerdo a pontuação de interesse (para a qual buscamos um ponto de corte) e outra pontuação calculada a partir do mesmo questionário, enquanto no lado direito o resultado pode estar no status de beber.
Para esclarecer (por solicitação do @robin), suponha que temos pontuações, digamos (por exemplo, ansiedade, impulsividade, neuroticismo, busca de sensações) e queremos encontrar um valor de corte (por exemplo, "caso positivo" se , "caso negativo" caso contrário) para cada um deles. Geralmente, ajustamos para outros fatores de risco, como sexo ou idade, ao conceber esse ponto de corte (usando a análise da curva ROC). Agora, que tal ajustar a impulsividade (IMP) no sexo, idade e busca por sensação (SS), já que se sabe que a SS se correlaciona com o IMP? Em outras palavras, teríamos um valor de corte para o IMP, onde os efeitos da idade, sexo e nível de ansiedade são removidos.
Além de dizer que um corte deve permanecer o mais simples possível, minha resposta foi
Sobre covariáveis, eu recomendaria estimar as AUCs com e sem ajuste, apenas para ver se o desempenho preditivo aumenta. Aqui, suas covariáveis são meramente outros subescores definidos a partir do mesmo instrumento de medição e eu nunca enfrentei essa situação (geralmente, eu ajusto fatores de risco conhecidos, como Idade ou Sexo). [...] Além disso, como você está interessado em questões prognósticas (por exemplo, eficácia da triagem do questionário), também pode estar interessado em estimar o valor preditivo positivo (VPP, probabilidade de pacientes com resultados positivos nos testes classificados corretamente) desde você pode classificar os assuntos como "positivos" ou "negativos", dependendo das subescores do questionário. Observe, no entanto,
Você tem um entendimento mais aprofundado dessa situação específica, com links para artigos relevantes, quando possível?
Referências
- Janes, H e Pepe, MS (2008). Ajustando para covariáveis em estudos de marcadores de diagnóstico, triagem ou prognóstico: um conceito antigo em um novo cenário . American Journal of Epidemiology , 168 (1): 89-97.
- Janes, H e Pepe, MS (2008). Acomodando covariáveis na análise ROC . UW Biostatistics Working Paper Series , Documento 322.
fonte
Respostas:
A maneira como você visualizou a análise não é realmente a maneira que eu sugeriria que você começasse a pensar nisso. Antes de tudo, é fácil mostrar que, se for necessário usar pontos de corte, os pontos de corte não serão aplicados em recursos individuais, mas na probabilidade geral prevista. O ponto de corte ideal para uma única covariável depende de todos os níveis das outras covariáveis; não pode ser constante. Em segundo lugar, as curvas ROC não desempenham nenhum papel no cumprimento do objetivo de tomar decisões ideais para um indivíduo .
Para lidar com escalas correlatas, existem muitas técnicas de redução de dados que podem ajudar. Uma delas é uma análise formal de redundância em que cada preditor é previsto de maneira não linear de todos os outros preditores, por sua vez. Isso é implementado na
redun
função noHmisc
pacote R. Agrupamento variável, análise de componentes principais e análise de fatores são outras possibilidades. Mas a parte principal da análise, na minha opinião, deveria estar construindo um bom modelo de probabilidade (por exemplo, modelo logístico binário).fonte
O ponto do artigo de Janes, Pepe sobre curvas ROC ajustadas covariadas está permitindo uma interpretação mais flexível dos valores estimados da curva ROC. Este é um método de estratificação de curvas ROC entre grupos específicos na população de interesse. A fração positiva verdadeira estimada (TPF; sensibilidade da eq.) E a fração negativa verdadeira (TNF; especificidade da eq.) São interpretadas como "a probabilidade de um resultado correto da triagem, dado o status da doença ser S / N entre os indivíduos da mesma [variável ajustada Lista]". À primeira vista, parece que o que você está tentando fazer é melhorar seu teste de diagnóstico incorporando mais marcadores em seu painel.
Uma boa base para entender um pouco melhor esses métodos seria ler sobre o modelo de riscos proporcionais de Cox e examinar o livro de Pepe sobre "A avaliação estatística de testes médicos para classificação e ...". Você notará que as medidas de confiabilidade da triagem compartilham muitas propriedades semelhantes com uma curva de sobrevivência, pensando na pontuação ajustada como um tempo de sobrevivência. Assim como o modelo de Cox permite a estratificação da curva de sobrevivência, eles propõem medidas de confiabilidade estratificadas.
A razão pela qual isso é importante para nós pode ser justificada no contexto de um modelo de efeitos mistos binários: suponha que você esteja interessado em prever o risco de se tornar um viciado em metanfetamina. O SES tem um efeito dominante tão óbvio sobre isso, que parece tolice avaliar um teste de diagnóstico, que pode ser baseado em comportamentos pessoais, sem estratificação. Isso ocorre porque, mesmo que uma pessoa rica apresente sintomas maníacos e depressivos, provavelmente nunca experimentará metanfetamina. No entanto, uma pessoa pobre mostraria um risco muito maior de apresentar esses sintomas psicológicos (e uma pontuação de risco mais alta). A análise bruta de risco mostraria um desempenho muito ruim do seu modelo preditivo, porque as mesmas diferenças nos dois grupos não eram confiáveis. No entanto, se você estratificar (rico versus pobre),
O objetivo do ajuste covariável é considerar diferentes grupos homogêneos devido à menor prevalência e interação no modelo de risco entre estratos distintos.
fonte