Me deparei com o coeficiente Dice para similaridade de volume ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) e precisão ( https://en.wikipedia.org/wiki/Accuracy_and_precision )
Parece-me que essas duas medidas são iguais. Alguma ideia?
descriptive-statistics
roc
accuracy
precision-recall
auc
RockTheStar
fonte
fonte
Respostas:
Não são a mesma coisa e são frequentemente usados em contextos diferentes. A pontuação de dados é frequentemente usada para quantificar o desempenho dos métodos de segmentação de imagens . Lá, você anota alguma região de base da verdade na sua imagem e cria um algoritmo automatizado para fazer isso. Você valida o algoritmo calculando a pontuação de dados, que é uma medida de quão semelhantes são os objetos. Portanto, é o tamanho da sobreposição das duas segmentações dividido pelo tamanho total dos dois objetos. Usando os mesmos termos da descrição da precisão, a pontuação dos dados é:Dice score=2⋅number of true positives2⋅number of true positives + number of false positives + number of false negatives
Portanto, o número de verdadeiros positivos é o número encontrado pelo seu método, o número de positivos é o número total de positivos que podem ser encontrados e o número de falsos positivos é o número de pontos negativos que o seu método classifica como positivo.
A pontuação dos dados não é apenas uma medida de quantos positivos você encontra, mas também penaliza os falsos positivos que o método encontra, semelhante à precisão. portanto, é mais parecido com precisão do que com precisão. A única diferença é o denominador, onde você tem o número total de positivos, em vez de apenas os positivos encontrados pelo método. Portanto, a pontuação dos dados também penaliza os aspectos positivos que seu algoritmo / método não conseguiu encontrar.
Edit: No caso de segmentação de imagem, digamos que você tenha uma máscara com verdade absoluta, vamos chamar a máscara como você sugere. Portanto, a máscara tem valores 1 nos pixels, onde há algo que você está tentando encontrar e mais zero. Agora você tem um algoritmo para gerar imagem / máscara , que também deve ser uma imagem binária, ou seja, você cria uma máscara para sua segmentação. Então temos o seguinte:A B
Se você estiver fazendo isso para uma publicação, escreva Dice com D maiúsculo, porque é nomeado após um cara chamado Dice.
EDIT: Sobre o comentário sobre uma correção: Eu não uso a fórmula tradicional para calcular o coeficiente de dados, mas se eu o traduzir para a notação da outra resposta, ele se tornará:
O que é equivalente à definição tradicional. É mais conveniente escrevê-lo da maneira que escrevi originalmente para indicar a fórmula em termos de falsos positivos. A barra invertida é o conjunto de menos.
fonte
O coeficiente de dados (também conhecido como índice de similaridade de dados) é o mesmo que o escore F1 , mas não é o mesmo que precisão. A principal diferença pode ser o fato de que a precisão leva em consideração os verdadeiros negativos, enquanto o coeficiente de dados e muitas outras medidas apenas tratam os negativos verdadeiros como padrões desinteressantes (consulte O básico da avaliação de classificadores, parte 1 ).
Tanto quanto posso dizer, o coeficiente de dados não é calculado como descrito por uma resposta anterior , que na verdade contém a fórmula do índice Jaccard (também conhecido como "interseção sobre união" na visão computacional).
Onde vetores binários (com valores de 1 para elementos dentro de um grupo e 0 caso contrário), um significa a verdade fundamental e o outro significa o resultado da classificação, e é apenas todos os elementos considerados (um vetor binário de 1 do mesmo comprimento). Por exemplo,(produto interno de e ) é o número de verdadeiros positivos(produto interno do complemento de e do complemento de ) é o número de verdadeiros negativos.A l l | A ⋅ B | A B | ¯ A ⋅ ¯ B | A BA,B All |A⋅B| A B |A¯¯¯¯⋅B¯¯¯¯| A B
O coeficiente de dados e o índice de Jaccard são relacionados monotonicamente, e o índice de Tversky generaliza os dois, para ler mais sobre isso, veja F-scores, Dice e Jaccard definem a similaridade .
O coeficiente de dados também é a média harmônica de Sensibilidade e Precisão, para ver por que faz sentido, leia Por que o F-Measure é uma média harmônica e não uma média aritmética das medidas de Precisão e Recuperação? .
Para ler mais sobre muitos dos termos desta resposta e seus relacionamentos, consulte Avaliação de classificadores binários .
fonte