O coeficiente de dados é o mesmo que precisão?

13

Me deparei com o coeficiente Dice para similaridade de volume ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) e precisão ( https://en.wikipedia.org/wiki/Accuracy_and_precision )

Parece-me que essas duas medidas são iguais. Alguma ideia?

RockTheStar
fonte
11
Isso fornece todas as informações stats.stackexchange.com/questions/195006/…
rank1
11
@ rank1 Obrigado. Quero esclarecer: não é que o link para a minha pergunta :)
RockTheStar
2
ooops, este aqui: ncbi.nlm.nih.gov/pmc/articles/PMC4533825
rank1

Respostas:

18

Não são a mesma coisa e são frequentemente usados ​​em contextos diferentes. A pontuação de dados é frequentemente usada para quantificar o desempenho dos métodos de segmentação de imagens . Lá, você anota alguma região de base da verdade na sua imagem e cria um algoritmo automatizado para fazer isso. Você valida o algoritmo calculando a pontuação de dados, que é uma medida de quão semelhantes são os objetos. Portanto, é o tamanho da sobreposição das duas segmentações dividido pelo tamanho total dos dois objetos. Usando os mesmos termos da descrição da precisão, a pontuação dos dados é:

Dice score=2number of true positives2number of true positives + number of false positives + number of false negatives
Portanto, o número de verdadeiros positivos é o número encontrado pelo seu método, o número de positivos é o número total de positivos que podem ser encontrados e o número de falsos positivos é o número de pontos negativos que o seu método classifica como positivo.

A pontuação dos dados não é apenas uma medida de quantos positivos você encontra, mas também penaliza os falsos positivos que o método encontra, semelhante à precisão. portanto, é mais parecido com precisão do que com precisão. A única diferença é o denominador, onde você tem o número total de positivos, em vez de apenas os positivos encontrados pelo método. Portanto, a pontuação dos dados também penaliza os aspectos positivos que seu algoritmo / método não conseguiu encontrar.

Edit: No caso de segmentação de imagem, digamos que você tenha uma máscara com verdade absoluta, vamos chamar a máscara como você sugere. Portanto, a máscara tem valores 1 nos pixels, onde há algo que você está tentando encontrar e mais zero. Agora você tem um algoritmo para gerar imagem / máscara , que também deve ser uma imagem binária, ou seja, você cria uma máscara para sua segmentação. Então temos o seguinte:AB

  • Número de positivos é o número total de pixels que têm intensidade 1 na imagemA
  • Número de verdadeiros positivos é o número total de pixels, que têm o valor 1 em ambos e . Por isso, a interseção das regiões queridos em e . É o mesmo que usar o operador AND em e .ABABAB
  • Número de falsos positivos é o número de pixels que aparecem como 1 em , mas zero .BA

Se você estiver fazendo isso para uma publicação, escreva Dice com D maiúsculo, porque é nomeado após um cara chamado Dice.

EDIT: Sobre o comentário sobre uma correção: Eu não uso a fórmula tradicional para calcular o coeficiente de dados, mas se eu o traduzir para a notação da outra resposta, ele se tornará:

Dice score=2|AB|2|AB|+|BA|+|AB|

O que é equivalente à definição tradicional. É mais conveniente escrevê-lo da maneira que escrevi originalmente para indicar a fórmula em termos de falsos positivos. A barra invertida é o conjunto de menos.

Gumeo
fonte
2
Obrigado pela resposta. Exatamente para comparação de segmentação de imagens. Portanto, essa pontuação de dados é usada, digamos, dê a imagem A e a imagem B. A imagem A é verdadeira (0 ou 1) e a imagem B é minha segmentação. Então, qual é o número total de positivos (1), é que o número de 1 em A + número de 1 em B ?? Estou um pouco confuso aqui. O mesmo que falso positivo
RockTheStar
11
@RockTheStar Vou editar minha resposta para considerar a segmentação de imagens.
Gumeo 11/02
11
Ótimo, muito obrigado pela sua explicação. Mais uma pergunta de acompanhamento. E o intervalo de D? Isso é entre 0 e 1?
RockTheStar
2
Ótimo, obrigado! Vai implementar isso e olhar para o resultado
RockTheStar
2
@Gumeo você pode querer corrigir ou pelo menos explicar sua resposta, por favor, veja a minha nova resposta para mais detalhes
DVB
20

O coeficiente de dados (também conhecido como índice de similaridade de dados) é o mesmo que o escore F1 , mas não é o mesmo que precisão. A principal diferença pode ser o fato de que a precisão leva em consideração os verdadeiros negativos, enquanto o coeficiente de dados e muitas outras medidas apenas tratam os negativos verdadeiros como padrões desinteressantes (consulte O básico da avaliação de classificadores, parte 1 ).

Tanto quanto posso dizer, o coeficiente de dados não é calculado como descrito por uma resposta anterior , que na verdade contém a fórmula do índice Jaccard (também conhecido como "interseção sobre união" na visão computacional).

Dice(A,B)=2|AB||A|+|B|F1(A,B)=2|A|/|AB|+|B|/|AB|Jaccard(A,B)=|AB||max(A,B)|=|AB||A|+|B||AB|Accuracy(A,B)=|AB|+|A¯B¯||All|

Onde vetores binários (com valores de 1 para elementos dentro de um grupo e 0 caso contrário), um significa a verdade fundamental e o outro significa o resultado da classificação, e é apenas todos os elementos considerados (um vetor binário de 1 do mesmo comprimento). Por exemplo,(produto interno de e ) é o número de verdadeiros positivos(produto interno do complemento de e do complemento de ) é o número de verdadeiros negativos.A l l | A B | A B | ¯ A¯ B | A BA,BAll|AB|AB|A¯B¯|AB

O coeficiente de dados e o índice de Jaccard são relacionados monotonicamente, e o índice de Tversky generaliza os dois, para ler mais sobre isso, veja F-scores, Dice e Jaccard definem a similaridade .

O coeficiente de dados também é a média harmônica de Sensibilidade e Precisão, para ver por que faz sentido, leia Por que o F-Measure é uma média harmônica e não uma média aritmética das medidas de Precisão e Recuperação? .

Para ler mais sobre muitos dos termos desta resposta e seus relacionamentos, consulte Avaliação de classificadores binários .

dvb
fonte