Em várias competições de kaggle, a pontuação foi baseada em "logloss". Isso está relacionado ao erro de classificação.
Aqui está uma resposta técnica, mas estou procurando uma resposta intuitiva. Gostei muito das respostas para esta pergunta sobre a distância de Mahalanobis, mas o PCA não é logloss.
Posso usar o valor que meu software de classificação coloca, mas realmente não o entendo. Por que o usamos em vez de taxas verdadeiras / falsas positivas / negativas? Você pode me ajudar para que eu possa explicar isso para minha avó ou um novato no campo?
Também gosto e concordo com a citação:
você realmente não entende algo, a menos que possa explicar à sua avó
- Albert Einstein
Eu tentei responder isso sozinho antes de postar aqui.
Os links que não achei intuitivos ou realmente úteis incluem:
- http://www.r-bloggers.com/making-sense-of-logarithmic-loss/
- https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function
- https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/
- https://www.kaggle.com/wiki/LogarithmicLoss
Estes são informativos e precisos. Eles são destinados a um público técnico. Eles não desenham uma figura simples, nem fornecem exemplos simples e acessíveis. Eles não foram escritos para minha avó.
fonte
Respostas:
Logloss é o logaritmo do produto de todas as probabilidades. Suponha que Alice tenha previsto:
Aconteceu que Mary não se casou com John, Bill não é um assassino, mas John matou Jack. O produto das probabilidades, segundo Alice, é 0,2 * 0,999 * 0,99 = 0,197802
Bob previu:
O produto é 0,5 * 0,5 * 0,5 = 0,125.
Alice é melhor preditora que Bob.
fonte