Como interpretar uma curva ROC?

13

Eu apliquei regressão logística aos meus dados no SAS e aqui estão a curva ROC e a tabela de classificação.

insira a descrição da imagem aqui

Estou confortável com as figuras da tabela de classificação, mas não sei exatamente o que a curva roc e a área abaixo dela mostram. Qualquer explicação seria muito apreciada.

Günal
fonte

Respostas:

20

Ao fazer a regressão logística, você recebe duas classes codificadas como e 0 . Agora, você calcula as probabilidades de que, dadas algumas variáveis ​​explicativas, um indivíduo pertença à classe codificada como 1 . Se você agora escolher um limite de probabilidade e classificar todos os indivíduos com uma probabilidade maior que esse limite como classe 1 e abaixo como 010 0110 0, na maioria dos casos, você cometerá alguns erros, porque geralmente dois grupos não podem ser discriminados perfeitamente. Para esse limite, agora você pode calcular seus erros e a chamada sensibilidade e especificidade. Se você fizer isso para muitos limites, poderá construir uma curva ROC plotando a sensibilidade contra a Especificidade 1 para muitos limites possíveis. A área sob a curva entra em jogo se você quiser comparar diferentes métodos que tentam discriminar entre duas classes, por exemplo, análise discriminante ou um modelo probit. Você pode construir a curva ROC para todos esses modelos e aquele com a área mais alta abaixo da curva pode ser visto como o melhor modelo.

Se você precisar obter uma compreensão mais profunda, também poderá ler a resposta de uma pergunta diferente sobre as curvas ROC clicando aqui.

cara aleatório
fonte
Como a área sob a curva ROC é diferente da taxa correta na tabela de classificação?
Günal 30/11/14
2
A tabela mostra apenas o correto e o incorreto para um limite. No entanto, a curva AUROC é uma medida do método de classificação completo e o correto e o incorreto para muitos limiares diferentes.
Random_guy
Bom ouvir isso!
random_guy
6

A AUC está apenas dizendo a você com que frequência um sorteio aleatório de suas probabilidades de resposta previstas em seus dados com etiqueta 1 será maior do que um sorteio aleatório de suas probabilidades de resposta prevista em seus dados com etiqueta 0.

jlemaitre
fonte
6

O modelo de regressão logística é um método de estimativa de probabilidade direta. A classificação não deve desempenhar nenhum papel em seu uso. Qualquer classificação não baseada na avaliação de serviços públicos (função de perda / custo) em assuntos individuais é inadequada, exceto em emergências muito especiais. A curva ROC não é útil aqui; nem a sensibilidade ou a especificidade que, como a precisão geral da classificação, são regras inadequadas de pontuação de precisão que são otimizadas por um modelo falso que não é ajustado pela estimativa da probabilidade máxima.

c15pYp0,05

Frank Harrell
fonte
@ Frank Harrell: Você poderia elaborar o cálculo referente à interceptação, bem como o comentário referente à margem de erro. Obrigado!
julieth
@FrankHarrell, você aconselha que precisamos de pelo menos 15p de observações se acabarmos fazendo regressão de cume para calibrar o modelo? Meu entendimento é que substituímos p pela dimensionalidade efetiva.
Lepidopterist
Correta, e eu dizer que você usa penalização tais como quadrática (cume) penalidade para estimar os parâmetros, o que resulta em melhor calibração
Frank Harrell