Eu gostaria de saber como interpretar uma diferença dos valores da medida f. Sei que f-measure é uma média equilibrada entre precisão e recordação, mas estou perguntando sobre o significado prático de uma diferença nas medidas f.
Por exemplo, se um classificador C1 tem uma precisão de 0,4 e outro classificador C2 com uma precisão de 0,8, podemos dizer que C2 classificou corretamente o dobro dos exemplos de teste em comparação com C1. No entanto, se um classificador C1 tem uma medida F de 0,4 para uma determinada classe e outro classificador C2 uma medida F de 0,8, o que podemos afirmar sobre a diferença no desempenho dos 2 classificadores? Podemos dizer que C2 classificou X mais instâncias corretamente que C1?
Respostas:
Não consigo pensar em um significado intuitivo da medida F, porque é apenas uma métrica combinada. O que é mais intuitivo do que o F-mesure, é claro, é precisão e recall.
Mas, usando dois valores, geralmente não podemos determinar se um algoritmo é superior a outro. Por exemplo, se um algoritmo tem maior precisão, mas menor recall do que outro, como você pode saber qual algoritmo é melhor?
Se você tem um objetivo específico em sua mente como 'Precisão é o rei. Eu não ligo muito para recordar ', então não há problema. Maior precisão é melhor. Mas se você não tiver uma meta tão forte, desejará uma métrica combinada. Essa é a medida F. Ao usá-lo, você comparará um pouco de precisão e outro de recall.
A curva ROC é frequentemente desenhada indicando a medida F. Você pode achar este artigo interessante, pois contém explicações sobre várias medidas, incluindo curvas ROC: http://binf.gmu.edu/mmasso/ROC101.pdf
fonte
A importância da pontuação F1 é diferente com base no cenário. Vamos supor que a variável de destino seja um rótulo binário.
fonte
A medida-F tem um significado intuitivo. Ele mostra o quão preciso é o seu classificador (quantas instâncias são classificadas corretamente) e também como é robusto (não perde um número significativo de instâncias).
Com alta precisão, mas com baixa recordação, o classificador é extremamente preciso, mas perde um número significativo de instâncias difíceis de classificar. Isso não é muito útil.
Dê uma olhada neste histograma. Ignore seu objetivo original.
À direita, você obtém alta precisão, mas baixa recordação. Se eu selecionar apenas instâncias com uma pontuação acima de 0,9, minhas instâncias classificadas serão extremamente precisas, no entanto, perderei um número significativo de instâncias. Experimentos indicam que o ponto ideal aqui é em torno de 0,76, onde a medida F é 0,87.
fonte
A medida F é a média harmônica de sua precisão e recordação. Na maioria das situações, você tem um compromisso entre precisão e recall. Se você otimizar seu classificador para aumentar um e desfavorecer o outro, a média harmônica diminui rapidamente. É maior, no entanto, quando a precisão e a recuperação são iguais.
Dadas medidas F de 0,4 e 0,8 para seus classificadores, você pode esperar que esses sejam os valores máximos alcançados ao pesar a precisão contra a rechamada.
Para referência visual, dê uma olhada nesta figura da Wikipedia :
A medida F é H , A e B são rechamada e precisão. Você pode aumentar um, mas o outro diminui.
fonte
A fórmula para a medida F (F1, com beta = 1) é a mesma que fornece a resistência equivalente composta por duas resistências colocadas em paralelo na física (esquecendo o fator 2).
Isso pode fornecer uma possível interpretação e você pode pensar em resistências eletrônicas ou térmicas. Essa analogia definiria a medida F como a resistência equivalente formada pela sensibilidade e precisão colocadas em paralelo.
Para a medida F, o máximo possível é 1 e você perde a resistência assim que um entre ele também perde a resistência (ou seja, também, obtenha um valor abaixo de 1). Se você quiser entender melhor essa quantidade e sua dinâmica, pense no fenômeno físico. Por exemplo, parece que a medida F <= max (sensibilidade, precisão).
fonte
fonte
fonte
O significado intuitivo mais próximo do escore f1 está sendo percebido como a média do recall e da precisão. Vamos esclarecer para você:
Em uma tarefa de classificação, você pode planejar criar um classificador com alta precisão E recuperação. Por exemplo, um classificador que informa se uma pessoa é honesta ou não.
Para precisão, você é capaz de dizer com precisão quantas pessoas honestas existem em um determinado grupo. Nesse caso, ao se preocupar com alta precisão, você assume que pode classificar incorretamente uma pessoa mentirosa como honesta, mas não com frequência. Em outras palavras, aqui você está tentando identificar o mentiroso do grupo honesto como um todo.
No entanto, para recordar, você ficará realmente preocupado se achar que uma pessoa mentirosa é honesta. Para você, isso será uma grande perda e um grande erro, e você não deseja fazê-lo novamente. Além disso, tudo bem se você classificou alguém honesto como mentiroso, mas seu modelo nunca deve (ou quase não deve) reivindicar uma pessoa mentirosa como honesta. Em outras palavras, aqui você está se concentrando em uma classe específica e tentando não cometer erros.
Agora, vamos considerar o caso em que você deseja que seu modelo (1) identifique com precisão honestidade de um mentiroso (precisão) (2) identifique cada pessoa de ambas as classes (recordação). O que significa que você selecionará o modelo que terá bom desempenho nas duas métricas.
O modelo de decisão de seleção tentará avaliar cada modelo com base na média das duas métricas. O F-Score é o melhor que pode descrever isso. Vamos dar uma olhada na fórmula:
Lembre-se: p = tp / (tp + fp)
Lembre-se: r = tp / (tp + fn)
Escore F: fscore = 2 / (1 / r + 1 / p)
Como você vê, quanto maior a recordação E a precisão, maior o escore F.
fonte
Sabendo que o escore F1 é um meio harmônico de precisão e recordação, abaixo é um pouco breve sobre eles.
Eu diria que a Recall é mais sobre falsos negativos. Ou seja, ter uma Recall mais alta significa que há menos NEGATIVOS FALSOS .
Por menos que FN ou Zero FN signifique, a previsão do seu modelo é realmente boa.
Enquanto ter Precisão mais alta significa, há menos POSITIVOS FALSOSPrecision=tptp+fp
Mesmo aqui, Menos ou Zero Positivos Falsos significa que a previsão do modelo é realmente boa.
fonte