A imagem abaixo mostra uma curva contínua de taxas de falsos positivos vs. taxas de verdadeiros positivos:
No entanto, o que não entendo imediatamente é como essas taxas estão sendo calculadas. Se um método é aplicado a um conjunto de dados, ele possui uma certa taxa de FP e uma certa taxa de FN. Isso não significa que cada método deve ter um único ponto ao invés de uma curva? É claro que existem várias maneiras de configurar um método, produzindo vários pontos diferentes, mas não está claro para mim como existe esse continuum de taxas ou como ele é gerado.
Respostas:
O gráfico é curva ROC e os pontos (Taxa de Falso Positivo, Taxa de Verdadeiro Positivo) são calculados para diferentes limites. Supondo que você tenha uma função de utilidade uniforme, o valor limite ideal é o do ponto mais próximo de (0, 1).
fonte
Para gerar curvas ROC (= Curvas de características operacionais do receptor):
Suponha que tenhamos um classificador binário probabilístico, como regressão logística. Antes de apresentar a curva ROC, o conceito de matriz de confusão deve ser entendido. Quando fazemos uma previsão binária, pode haver 4 tipos de erros:
Para obter a matriz de confusão, examinamos todas as previsões feitas pelo modelo e contamos quantas vezes cada um desses 4 tipos de erros ocorre:
Neste exemplo de matriz de confusão, entre os 50 pontos de dados classificados, 45 são classificados corretamente e os 5 são classificados incorretamente.
Como para comparar dois modelos diferentes, geralmente é mais conveniente ter uma única métrica em vez de várias, calculamos duas métricas da matriz de confusão, que posteriormente combinaremos em uma:
Nesta figura, a área azul corresponde à área sob a curva da característica de operação do receptor (AUROC). A linha tracejada na diagonal apresenta a curva ROC de um preditor aleatório: possui um AUROC de 0,5. O preditor aleatório é comumente usado como linha de base para verificar se o modelo é útil.
Se você deseja obter alguma experiência em primeira mão:
fonte
A resposta de Morten aborda corretamente a pergunta no título - a figura é, de fato, uma curva ROC. É produzido plotando uma sequência de taxas de falso positivo (FPR) em relação às taxas positivas verdadeiras correspondentes.
No entanto, gostaria de responder à pergunta que você faz no corpo da sua postagem.
Muitos métodos de aprendizado de máquina possuem parâmetros ajustáveis. Por exemplo, a saída de uma regressão logística é uma probabilidade prevista de associação à classe. Uma regra de decisão para classificar todos os pontos com probabilidades previstas acima de algum limite para uma classe e o restante para outra, pode criar um intervalo flexível de classificadores, cada um com diferentes estatísticas de TPR e FPR. O mesmo pode ser feito no caso de floresta aleatória, em que se considera os votos das árvores, ou SVM, em que você está considerando a distância assinada do hiperplano.
No caso em que você está executando a validação cruzada para estimar o desempenho fora da amostra, a prática típica é usar os valores de previsão (votos, probabilidades, distâncias assinadas) para gerar uma sequência de TPR e FPR. Isso geralmente se parece com uma função de etapa, porque normalmente há apenas um ponto que se move de TP para FN ou FP para FN, em cada valor previsto (ou seja, todos os valores previstos fora da amostra são únicos). Nesse caso, enquanto houver um continuum de opções para calcular TPR e FPR, as funções TPR e FPR não serão contínuas porque existem apenas finitos pontos fora da amostra, de modo que as curvas resultantes terão uma aparência semelhante a um passo .
fonte
Da Wikipedia:
Você pode pensar nos dois eixos como custos que devem ser incorridos para que o classificador binário funcione. Idealmente, você deseja incorrer na menor taxa de falsos positivos possível, na maior taxa possível de verdade. Ou seja, você deseja que o classificador binário chame o mínimo possível de falsos positivos para o maior número possível de verdadeiros positivos.
Para torná-lo concreto, imagine um classificador que possa detectar se uma determinada doença está presente medindo a quantidade de algum biomarcador. Imagine que o biomarcador tivesse um valor no intervalo de 0 (ausente) a 1 (saturado). Qual nível maximiza a detecção da doença? Pode ser que, acima de algum nível, o biomarcador classifique algumas pessoas como tendo a doença, mas elas ainda não a tenham. Estes são falsos positivos. Então, é claro, existem aqueles que serão classificados como portadores da doença quando realmente tiverem a doença. Estes são os verdadeiros positivos.
O ROC avalia a proporção de verdadeiros positivos de todos os positivos em relação à proporção de falsos positivos, levando em consideração todos os valores-limite possíveis.
fonte