Eu tenho alguns conjuntos de dados EEG que estou testando em duas classes. Posso obter uma taxa de erro decente do LDA (as distribuições condicionais de classe não são gaussianas, mas têm caudas semelhantes e separação suficientemente boa) e, portanto, quero plotar o ROC do preditor LDA contra conjuntos de dados de outros assuntos.
Aqui está um gráfico típico para o preditor testado em uma única tentativa:
Eu tentei alguns pacotes diferentes (pROC e ROCR), e os resultados são consistentes. Minha pergunta é: o que há com o cotovelo afiado? É apenas um artefato da projeção produzida pelo LDA, ou seja, existe um 'penhasco' onde o desempenho do classificador despenca?
fonte
Embora essa pergunta tenha sido feita há cerca de três anos, acho útil respondê-la aqui depois de encontrá-la e ficar intrigada com ela por algum tempo. Quando sua saída da verdade básica é 0,1 e sua previsão é 0,1, você obtém um cotovelo em forma de ângulo. Se a sua previsão ou verdade fundamental são valores ou probabilidades de confiança (digamos, no intervalo [0,1]), você receberá cotovelo curvado.
fonte
Concordo com John, na medida em que a curva acentuada se deve a uma escassez de pontos. Especificamente, parece que você usou as previsões binárias do seu modelo (por exemplo, 1/0) e os rótulos observados (por exemplo, 1/0). Por esse motivo, você tem 3 pontos, um assume um ponto de corte de Inf, um assume um ponto de corte de 0 e o último assume um ponto de corte 1, que é dado pelo TPR e FPR do seu modelo e está localizado em um ângulo agudo em seu gráfico.
Em vez disso, você deve usar as probabilidades da classe prevista (valores entre 0 e 1) e os rótulos observados (ou seja, 1/0). Isso fornecerá a você um número de pontos no gráfico igual ao número de probabilidades únicas que você possui (mais uma para Inf). Portanto, se você tiver 100 probabilidades únicas, terá 101 pontos no gráfico para cada um dos vários pontos de corte.
fonte