Como interpretar os valores da medida F?

41

Eu gostaria de saber como interpretar uma diferença dos valores da medida f. Sei que f-measure é uma média equilibrada entre precisão e recordação, mas estou perguntando sobre o significado prático de uma diferença nas medidas f.

Por exemplo, se um classificador C1 tem uma precisão de 0,4 e outro classificador C2 com uma precisão de 0,8, podemos dizer que C2 classificou corretamente o dobro dos exemplos de teste em comparação com C1. No entanto, se um classificador C1 tem uma medida F de 0,4 para uma determinada classe e outro classificador C2 uma medida F de 0,8, o que podemos afirmar sobre a diferença no desempenho dos 2 classificadores? Podemos dizer que C2 classificou X mais instâncias corretamente que C1?

AM2
fonte
2
Não sei se você pode dizer muito, já que a medida F é função de precisão e recordação: en.wikipedia.org/wiki/F1_score . Você pode fazer as contas e manter uma (precisão ou recall) constante e dizer algo sobre a outra.
Nick

Respostas:

41

Não consigo pensar em um significado intuitivo da medida F, porque é apenas uma métrica combinada. O que é mais intuitivo do que o F-mesure, é claro, é precisão e recall.

Mas, usando dois valores, geralmente não podemos determinar se um algoritmo é superior a outro. Por exemplo, se um algoritmo tem maior precisão, mas menor recall do que outro, como você pode saber qual algoritmo é melhor?

Se você tem um objetivo específico em sua mente como 'Precisão é o rei. Eu não ligo muito para recordar ', então não há problema. Maior precisão é melhor. Mas se você não tiver uma meta tão forte, desejará uma métrica combinada. Essa é a medida F. Ao usá-lo, você comparará um pouco de precisão e outro de recall.

A curva ROC é frequentemente desenhada indicando a medida F. Você pode achar este artigo interessante, pois contém explicações sobre várias medidas, incluindo curvas ROC: http://binf.gmu.edu/mmasso/ROC101.pdf

Minkoo Seo
fonte
23

A importância da pontuação F1 é diferente com base no cenário. Vamos supor que a variável de destino seja um rótulo binário.

  • Classe balanceada: Nesta situação, a pontuação F1 pode ser efetivamente ignorada, a taxa de má classificação é fundamental.
  • Classe desequilibrada, mas as duas classes são importantes: se a distribuição de classe for altamente inclinada (como 80:20 ou 90:10), um classificador poderá obter uma baixa taxa de má classificação simplesmente escolhendo a classe majoritária. Em tal situação, eu escolheria o classificador que obtém altas pontuações de F1 em ambas as classes, bem como baixa taxa de erros de classificação. Um classificador que obtém baixos escores de F1 deve ser negligenciado.
  • Classe desequilibrada, mas uma classe é mais importante que a outra. Por exemplo, na detecção de fraudes, é mais importante rotular corretamente uma instância como fraudulenta, em vez de rotular a não-fraudulenta. Nesse caso, eu escolheria o classificador que tem uma boa pontuação na F1 apenas na classe importante . Lembre-se de que a pontuação F1 está disponível por classe.
shark8me
fonte
9

A medida-F tem um significado intuitivo. Ele mostra o quão preciso é o seu classificador (quantas instâncias são classificadas corretamente) e também como é robusto (não perde um número significativo de instâncias).

Com alta precisão, mas com baixa recordação, o classificador é extremamente preciso, mas perde um número significativo de instâncias difíceis de classificar. Isso não é muito útil.

Dê uma olhada neste histograma. insira a descrição da imagem aquiIgnore seu objetivo original.

À direita, você obtém alta precisão, mas baixa recordação. Se eu selecionar apenas instâncias com uma pontuação acima de 0,9, minhas instâncias classificadas serão extremamente precisas, no entanto, perderei um número significativo de instâncias. Experimentos indicam que o ponto ideal aqui é em torno de 0,76, onde a medida F é 0,87.

lostsoul29
fonte
5

A medida F é a média harmônica de sua precisão e recordação. Na maioria das situações, você tem um compromisso entre precisão e recall. Se você otimizar seu classificador para aumentar um e desfavorecer o outro, a média harmônica diminui rapidamente. É maior, no entanto, quando a precisão e a recuperação são iguais.

Dadas medidas F de 0,4 e 0,8 para seus classificadores, você pode esperar que esses sejam os valores máximos alcançados ao pesar a precisão contra a rechamada.

Para referência visual, dê uma olhada nesta figura da Wikipedia :

insira a descrição da imagem aqui

A medida F é H , A e B são rechamada e precisão. Você pode aumentar um, mas o outro diminui.

Willi Raschkowski
fonte
Eu encontrei a visualização "Escadas Cruzados" para ser um pouco mais simples - para mim, faz a igualdade de A = B resultando na maior H mais intuitiva
Coruscate5
3

A fórmula para a medida F (F1, com beta = 1) é a mesma que fornece a resistência equivalente composta por duas resistências colocadas em paralelo na física (esquecendo o fator 2).

Isso pode fornecer uma possível interpretação e você pode pensar em resistências eletrônicas ou térmicas. Essa analogia definiria a medida F como a resistência equivalente formada pela sensibilidade e precisão colocadas em paralelo.

Para a medida F, o máximo possível é 1 e você perde a resistência assim que um entre ele também perde a resistência (ou seja, também, obtenha um valor abaixo de 1). Se você quiser entender melhor essa quantidade e sua dinâmica, pense no fenômeno físico. Por exemplo, parece que a medida F <= max (sensibilidade, precisão).

Bardamu
fonte
3

Fβ1/β2

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2
William G. Dearden
fonte
1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
p F ββ2<1pFβ ).
LittleYUYU
fonte
0

O significado intuitivo mais próximo do escore f1 está sendo percebido como a média do recall e da precisão. Vamos esclarecer para você:

Em uma tarefa de classificação, você pode planejar criar um classificador com alta precisão E recuperação. Por exemplo, um classificador que informa se uma pessoa é honesta ou não.

Para precisão, você é capaz de dizer com precisão quantas pessoas honestas existem em um determinado grupo. Nesse caso, ao se preocupar com alta precisão, você assume que pode classificar incorretamente uma pessoa mentirosa como honesta, mas não com frequência. Em outras palavras, aqui você está tentando identificar o mentiroso do grupo honesto como um todo.

No entanto, para recordar, você ficará realmente preocupado se achar que uma pessoa mentirosa é honesta. Para você, isso será uma grande perda e um grande erro, e você não deseja fazê-lo novamente. Além disso, tudo bem se você classificou alguém honesto como mentiroso, mas seu modelo nunca deve (ou quase não deve) reivindicar uma pessoa mentirosa como honesta. Em outras palavras, aqui você está se concentrando em uma classe específica e tentando não cometer erros.

Agora, vamos considerar o caso em que você deseja que seu modelo (1) identifique com precisão honestidade de um mentiroso (precisão) (2) identifique cada pessoa de ambas as classes (recordação). O que significa que você selecionará o modelo que terá bom desempenho nas duas métricas.

O modelo de decisão de seleção tentará avaliar cada modelo com base na média das duas métricas. O F-Score é o melhor que pode descrever isso. Vamos dar uma olhada na fórmula:

Lembre-se: p = tp / (tp + fp)

Lembre-se: r = tp / (tp + fn)

Escore F: fscore = 2 / (1 / r + 1 / p)

Como você vê, quanto maior a recordação E a precisão, maior o escore F.

Cs20
fonte
0

Sabendo que o escore F1 é um meio harmônico de precisão e recordação, abaixo é um pouco breve sobre eles.

Eu diria que a Recall é mais sobre falsos negativos. Ou seja, ter uma Recall mais alta significa que há menos NEGATIVOS FALSOS .

Recall=tptp+fn

Por menos que FN ou Zero FN signifique, a previsão do seu modelo é realmente boa.

Enquanto ter Precisão mais alta significa, há menos POSITIVOS FALSOS

Precision=tptp+fp

Mesmo aqui, Menos ou Zero Positivos Falsos significa que a previsão do modelo é realmente boa.

Anroop
fonte