Por que o F-Measure é uma média harmônica e não uma média aritmética das medidas de Precisão e Recall?

88

Quando calculamos a medida F considerando a precisão e a recuperação, tomamos a média harmônica das duas medidas em vez de uma média aritmética simples.

Qual é a razão intuitiva por trás de tomar a média harmônica e não uma média simples?

Cara londrino
fonte
1
A intuição é equilibrar precisão e recall (geralmente a melhor medição, mas em alguns casos você deseja maximizar a precisão ou recall, o que é uma história diferente). Você não pode obter uma pontuação f alta se qualquer um deles for muito baixo.
greeness
1
cse.unsw.edu.au/~teachadmin/info/harmonic3.html Este é um bom recurso para entender HM
Sudip Bhandari
2
Corrija o link acima: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm ou o original @ archive.org
stason

Respostas:

16

Aqui, já temos algumas respostas elaboradas, mas pensei que mais algumas informações sobre isso seriam úteis para alguns caras que querem se aprofundar (especialmente por que mede F).

De acordo com a teoria da medição, a medida composta deve satisfazer as seguintes 6 definições:

  1. Conectividade (dois pares podem ser ordenados) e transitividade (se e1> = e2 e e2> = e3 então e1> = e3)
  2. Independência: dois componentes contribuem com seus efeitos de forma independente para a eficácia.
  3. Condição de Thomsen: Dado que em uma rechamada constante (precisão) encontramos uma diferença na eficácia para dois valores de precisão (rechamada), essa diferença não pode ser removida ou revertida alterando o valor da constante.
  4. Capacidade de resolução restrita.
  5. Cada componente é essencial: a variação em um enquanto deixa o outro constante fornece uma variação na eficácia.
  6. Propriedade arquimediana para cada componente. Ele apenas garante que os intervalos em um componente sejam comparáveis.

Podemos então derivar e obter a função da eficácia: insira a descrição da imagem aqui

E normalmente não usamos a eficácia, mas a pontuação F muito mais simples porque :
insira a descrição da imagem aqui

Agora que temos a fórmula geral da medida F:

insira a descrição da imagem aqui

onde podemos colocar mais ênfase no recall ou precisão definindo beta, porque beta é definido da seguinte forma:

insira a descrição da imagem aqui

Se considerarmos a recuperação mais importante do que a precisão (todos os relevantes são selecionados), podemos definir beta como 2 e obter a medida F2. E se fizermos o inverso e a precisão do peso maior do que a rechamada (o máximo de elementos selecionados são relevantes quanto possível, por exemplo, em alguns cenários de correção de erros gramaticais como CoNLL ), apenas definimos beta como 0,5 e obtemos a medida F0,5. E, obviamente, podemos definir beta como 1 para obter a medida F1 mais usada (média harmônica de precisão e recall).

Acho que até certo ponto já respondi por que não usamos a média aritmética.

Referências:

  1. https://en.wikipedia.org/wiki/F1_score
  2. A verdade da medida F
  3. Recuperação de informação
Lerner Zhang
fonte
100

Para explicar, considere, por exemplo, qual é a média de 30 mph e 40 mph? se você dirigir por 1 hora em cada velocidade, a velocidade média ao longo das 2 horas é de fato a média aritmética, 35 mph.

No entanto, se você dirigir na mesma distância em cada velocidade - digamos 10 milhas - então a velocidade média acima de 20 milhas é a média harmônica de 30 e 40, cerca de 34,3 mph.

A razão é que, para a média ser válida, você realmente precisa que os valores estejam nas mesmas unidades em escala. As milhas por hora precisam ser comparadas no mesmo número de horas; para comparar no mesmo número de milhas, em vez disso, você precisa calcular a média de horas por milha, que é exatamente o que a média harmônica faz.

A precisão e a recuperação têm verdadeiros positivos no numerador e denominadores diferentes. Para fazer a média deles, realmente só faz sentido fazer a média de seus recíprocos, portanto, a média harmônica.

Sean Owen
fonte
7
Obrigado, esse é um bom argumento sobre por que isso é apoiado pela teoria; minha resposta foi mais pragmática.
QUIT - Anony-Mousse
78

Porque pune mais os valores extremos.

Considere um método trivial (por exemplo, sempre retornando a classe A). Existem infinitos elementos de dados da classe B e um único elemento da classe A:

Precision: 0.0
Recall:    1.0

Ao tirar a média aritmética, teria 50% correto. Apesar de ser o pior desfecho possível! Com a média harmônica, a medida F1 é 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Em outras palavras, ter um alto F1, você precisa ambos têm uma alta precisão e recall.

Tem QUIT - Anony-Mousse
fonte
Quando o recall é 0,0, a precisão tem que ser maior que 0,0 certo? Mas eu entendi no seu exemplo. Bem explicado - Obrigado.
London guy
1
Em seu exemplo, a precisão da classe A é 0,5 em vez de 0 e a recuperação da classe A é 1; a precisão para a classe B é 0 e a recuperação da classe B é 0, como faremos. Presumo que sua classe balanceada significa que os rótulos verdadeiros são A e B; cada um se aplica a 50% dos dados.
greeness de
Vamos fazer infinitos elementos de classe B e um único elemento de classe A. Isso não muda a matemática por trás de F1.
QUIT - Anony-Mousse de
2
Não é apenas uma heurística para selecionar mais equilíbrio. A média harmônica existe apenas uma maneira que faz sentido, dadas as unidades dessas relações. A média não teria um significado em comparação
Sean Owen,
Onde está escrito "heurística" e onde seu comentário difere de minha resposta? Mas: F-measure é uma heurística porque assume que a precisão e a memória são igualmente importantes. É por isso que o termo beta precisa ser escolhido - heuristicamente, geralmente se usa beta = 1.
QUIT - Anony-Mousse
30

As respostas acima são bem explicadas. Isso é apenas para uma referência rápida para entender a natureza da média aritmética e a média harmônica com gráficos. Como você pode ver no gráfico, considere o eixo X e o eixo Y como precisão e recuperação, e o eixo Z como a pontuação F1. Portanto, a partir do gráfico da média harmônica, tanto a precisão quanto a recuperação devem contribuir igualmente para que a pontuação F1 aumente, ao contrário da média aritmética.

Isso é para a média aritmética.

insira a descrição da imagem aqui

Isso é para a média harmônica.

insira a descrição da imagem aqui

Gadde Saikumar
fonte
Use ferramentas de formatação para editar e formatar adequadamente sua resposta. A imagem deve ser exibida aqui, não é um hiperlink.
Morse
26

A média harmônica é o equivalente da média aritmética para os recíprocos de quantidades que devem ser calculadas pela média aritmética. Mais precisamente, com a média harmônica, você transforma todos os seus números para a forma "média" (tomando o recíproco), você pega sua média aritmética e então transforma o resultado de volta à representação original (tomando o recíproco novamente).

A precisão e o recall são recíprocos "naturalmente" porque seu numerador é o mesmo e seus denominadores são diferentes. As frações são mais razoáveis ​​para calcular a média aritmética quando têm o mesmo denominador.

Para mais intuição, suponha que mantemos constante o número de itens positivos verdadeiros. Então, ao tomar a média harmônica da precisão e do recall, você implicitamente obtém a média aritmética dos falsos positivos e falsos negativos. Basicamente, significa que os falsos positivos e os falsos negativos são igualmente importantes para você quando os verdadeiros positivos permanecem os mesmos. Se um algoritmo tem mais N itens falsos positivos, mas N menos falsos negativos (embora tenha os mesmos positivos verdadeiros), a medida F permanece a mesma.

Em outras palavras, a medida F é adequada quando:

  1. erros são igualmente ruins, sejam eles falsos positivos ou falsos negativos
  2. o número de erros é medido em relação ao número de verdadeiros positivos
  3. verdadeiros negativos são desinteressantes

O ponto 1 pode ou não ser verdadeiro, existem variantes ponderadas da medida F que podem ser usadas se esta suposição não for verdadeira. O ponto 2 é bastante natural, pois podemos esperar que os resultados sejam escalonados se apenas classificarmos mais e mais pontos. Os números relativos devem permanecer os mesmos.

O ponto 3 é bastante interessante. Em muitas aplicações, os negativos são o padrão natural e pode até ser difícil ou arbitrário especificar o que realmente conta como um negativo verdadeiro. Por exemplo, um alarme de incêndio está tendo um evento negativo verdadeiro a cada segundo, a cada nanossegundo, toda vez que um tempo de Planck passa, etc. Até mesmo um pedaço de rocha tem esses eventos de detecção de incêndio verdadeiramente negativos o tempo todo.

Ou em um caso de detecção de rosto, na maioria das vezes você " não retorna corretamente " bilhões de áreas possíveis na imagem, mas isso não é interessante. Os casos interessantes é quando você não voltar a detecção proposto ou quando você deve devolvê-lo.

Em contraste, a precisão da classificação se preocupa igualmente com verdadeiros positivos e verdadeiros negativos e é mais adequada se o número total de amostras (eventos de classificação) for bem definido e bastante pequeno.

isarandi
fonte