Estou tendo problemas para entender a curva ROC.
Existe alguma vantagem / melhoria na área sob a curva ROC se eu construir modelos diferentes de cada subconjunto exclusivo do conjunto de treinamento e usá-lo para produzir uma probabilidade? Por exemplo, se tem valores de { um , um , um , um , b , b , b , b } , e eu construir modelo A , usando um dos valores de 1ª a 4ª de y valores e 8º dia 9 de y e construir modelo B usando dados permanentes de trem. Por fim, gere probabilidade. Quaisquer pensamentos / comentários serão muito apreciados.
Aqui está o código r para uma melhor explicação para minha pergunta:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
Então, minha pergunta é, a área sob a curva ROC de pred_combine
vs pred_full
.
Respostas:
Não sei se entendi a pergunta, mas como o título pede explicação das curvas do ROC, tentarei.
As curvas ROC são usadas para ver quão bem seu classificador pode separar exemplos positivos e negativos e para identificar o melhor limite para separá-los.
Para poder usar a curva ROC, seu classificador deve ser classificado - ou seja, ele deve ser capaz de classificar exemplos de modo que aqueles com classificação mais alta provavelmente sejam positivos. Por exemplo, a Regressão logística gera probabilidades, que é uma pontuação que você pode usar para classificação.
Desenho de curva ROC
Dado um conjunto de dados e um classificador de classificação:
Essa bela imagem animada por gif deve ilustrar esse processo com mais clareza
Área sob ROC
A área sob a curva ROC (sombreada) mostra naturalmente a que distância a curva está da linha de base. Para a linha de base, é 0,5 e, para o classificador perfeito, é 1.
Você pode ler mais sobre a AUC ROC nesta pergunta: O que a AUC representa e o que é?
Selecionando o melhor limite
Descreverei brevemente o processo de seleção do melhor limite e mais detalhes podem ser encontrados na referência.
Para selecionar o melhor limite, você vê cada ponto da sua curva ROC como um classificador separado. Este mini classificador usa a pontuação que o ponto obteve como limite entre + e - (ou seja, classifica como + todos os pontos acima do atual)
Dependendo da fração pos / neg em nosso conjunto de dados - paralelo à linha de base no caso de 50% / 50% -, você cria Linhas de Precisão ISO e escolhe aquela com a melhor precisão.
Aqui está uma figura que ilustra isso e, para mais detalhes, convido novamente a referência
Referência
fonte