F1 / Dice-Score vs IoU

24

Eu estava confuso sobre as diferenças entre a pontuação da F1, a pontuação dos dados e a IoU (cruzamento sobre a união). Até agora eu descobri que F1 e Dice significam a mesma coisa (certo?) E IoU tem uma fórmula muito semelhante às outras duas.

  • F1 / Dados:
    2TP2TP+FP+FN
  • IoU / Jaccard:
    TPTP+FP+FN

Há diferenças práticas ou outras coisas dignas de nota, exceto que a F1 pesa os verdadeiros positivos mais altos? Existe uma situação em que eu usaria um, mas não o outro?

pietz
fonte
Aparentemente, o coeficiente de Jaccard é também o mesmo que iou
Pietz
Eu ficaria especialmente interessado se algumas dessas medidas (agora 4) forem apenas para dados binários.
Pietz #

Respostas:

38

Você está no caminho certo.

Então, algumas coisas logo de cara. A partir da definição das duas métricas, temos que a pontuação IoU e F estão sempre dentro de um fator de 2 uma da outra: e também que elas se encontram nos extremos de um e zero nas condições que você esperaria (combinação perfeita e completamente disjunta).

F/2EuovocêF

Observe também que a proporção entre eles pode estar relacionada explicitamente à IoU: modo que a proporção se aproxime de 1/2, pois ambas as métricas se aproximam de zero.

Euovocê/F=1/2+Euovocê/2

Mas há uma afirmação mais forte que pode ser feita para a aplicação típica da classificação à la machine learning. Para qualquer "verdade fundamental" fixa, as duas métricas estão sempre positivamente correlacionadas. Ou seja, se o classificador A for melhor que B em uma métrica, também será melhor que o classificador B na outra métrica.

É tentador concluir que as duas métricas são funcionalmente equivalentes, portanto a escolha entre elas é arbitrária, mas não tão rápida! O problema surge ao obter a pontuação média em um conjunto de inferências . Em seguida, surge a diferença ao quantificar quão pior é o classificador B que A para qualquer caso.

Em geral, a métrica IoU tende a penalizar instâncias únicas de classificação ruim mais do que a pontuação F quantitativamente, mesmo quando os dois concordam que essa instância é ruim. Da mesma forma que L2 pode penalizar os maiores erros mais que L1, a métrica IoU tende a ter um efeito "quadrado" nos erros relativos à pontuação F. Portanto, a pontuação F tende a medir algo mais próximo do desempenho médio, enquanto a pontuação da IoU mede algo mais próximo do desempenho do pior caso.

Suponha, por exemplo, que a grande maioria das inferências seja moderadamente melhor com o classificador A do que B, mas algumas delas são significativamente piores usando o classificador A. Pode ser que a métrica F favorece o classificador A enquanto a métrica IoU favorece classificador B.

Certamente, essas duas métricas são muito mais parecidas do que diferentes. Mas ambos sofrem de outra desvantagem do ponto de vista de obter médias dessas pontuações ao longo de muitas inferências: ambas exageram a importância de conjuntos com conjuntos positivos verdadeiros de pouca ou nenhuma verdade no terreno. No exemplo comum de segmentação de imagem, se uma imagem possui apenas um pixel de alguma classe detectável e o classificador detecta esse pixel e outro pixel, sua pontuação F é um 2/3 baixo e a IoU é ainda pior em 1 / 2) Erros triviais como esses podem dominar seriamente a pontuação média obtida em um conjunto de imagens. Em resumo, ele pesa cada erro de pixel inversamente proporcional ao tamanho do conjunto selecionado / relevante, em vez de tratá-los igualmente.

Há uma métrica muito mais simples que evita esse problema. Simplesmente use o erro total: FN + FP (por exemplo, 5% dos pixels da imagem foram classificados incorretamente). No caso em que um é mais importante que o outro, uma média ponderada pode ser usada: FP + FN.c0 0c1

willem
fonte
willem, eu não poderia ter pedido uma resposta melhor. muito obrigado por reservar um tempo.
Pietz #
5
Eu tentei sua abordagem de erro total e só queria acrescentar que ela não funciona bem com desequilíbrios constantes entre positivos e negativos. Imagine um conjunto de dados inteiro de imagens em que apenas um pixel compõe a segmentação da verdade básica. As redes neurais podem aprender rapidamente que uma previsão vazia é sempre 99,9% precisa usando o erro total. Indo com IoU ou DSC, pressionamos a rede a encontrar uma segmentação devido aos mesmos motivos mencionados acima. Então, no final, é muito problema depende.
Pietz
1
Alguém pode me ajudar a conciliar as duas seguintes declarações ?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."e 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Matt Kleinsmith
1
O primeiro refere-se a uma pontuação de uma única inferência, e o último refere-se a uma pontuação média em um conjunto de inferências (por exemplo, um conjunto de imagens).
Willem