Por que a medida F geralmente é usada para tarefas de classificação (supervisionadas), enquanto a medida G (ou índice de Fowlkes – Mallows) é geralmente usada para tarefas de agrupamento (não supervisionadas)?
A medida F é a média harmônica da precisão e recuperação .
A medida G (ou índice de Fowlkes – Mallows) é a média geométrica da precisão e recuperação .
Abaixo está um gráfico dos diferentes meios.
F1 (harmônica)
Geométrica
Aritmética
O motivo pelo qual pergunto é que preciso decidir qual média usar em uma tarefa de NLG, onde medi BLEU e ROUGE (onde BLEU é equivalente à precisão e ROUGE para recuperar). Como devo calcular a média dessas pontuações?
machine-learning
evaluation
scoring
metric
nlg
Bruno Lubascher
fonte
fonte
Respostas:
A pontuação Fı é preferida à simples precisão da classificação, a fim de combater o problema de conjuntos de dados desequilibrados; se o que você está procurando ocorre apenas raramente, de qualquer maneira, um classificador ingênuo sempre pode dizer não e parece estar funcionando muito bem! Uma variante em Fı é Fß, onde
Fß = (1 + ß²) × [(P × R) ÷ ((ß² × P) + R)]
Varie ß para equilibrar precisão e recuperação. Quanto ao porquê F ou G, acredito que seja empírico - você não diz se está classificando ou agrupando em seu próprio aplicativo?
fonte
Se Precision e Recall forem semelhantes, F1 é uma boa medida única para comparar diferentes modelos.
Curto e grosso :)
fonte