O Statistics.com publicou a resposta errada?

O Statistics.com publicou um problema da semana: A taxa de fraude em seguros residenciais é de 10% (uma em cada dez reivindicações é fraudulenta). Um consultor propôs um sistema de aprendizado de máquina para revisar reivindicações e classificá-las como fraude ou não-fraude. O sistema tem 90% de eficiência na detecção de reivindicações fraudulentas, mas apenas 80% de eficiência na classificação correta de reivindicações que não são de fraude (por engano, rotula uma em cada cinco como "fraude"). Se o sistema classifica uma reivindicação como fraudulenta, qual é a probabilidade de que ela seja realmente fraudulenta?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Eu e meu colega tivemos a mesma resposta de forma independente e ela não corresponde à solução publicada.

Nossa solução:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

A solução deles:

Este é um problema em probabilidade condicional. (Também é um problema bayesiano, mas a aplicação da fórmula na regra de Bayes só ajuda a obscurecer o que está acontecendo.) Considere 100 alegações. 10 serão fraudulentos e o sistema rotulará corretamente 9 deles como "fraude". 90 reivindicações serão aceitáveis, mas o sistema classificará incorretamente 72 (80%) como "fraude". Portanto, um total de 81 reivindicações foram rotuladas como fraudulentos, mas apenas 9 deles, 11%, são realmente fraudulentos.

Quem estava certo

probability bayesian puzzle ChrisG
fonte

parece que eles corrigiram a solução em seu site para estar de acordo com o que você calculou

não

@nope, silenciosamente corrigiu a resposta. sorrateira

Aksakal

Curiosidades: na tomada de decisão comportamental, esse problema costuma ser chamado de "problema da mamografia", pois sua apresentação usual é sobre a chance de um paciente ter câncer recebendo uma mamografia positiva.

Kodiologist

"A boa notícia é que nosso sistema classifica 90% da fraude como fraude. A má notícia é que classifica 80% da não-fraude como fraude". Observe que os 11% calculados são apenas ligeiramente superiores à taxa básica de 10%. Um modelo de aprendizado de máquina em que a taxa de fraude nos casos sinalizados é apenas 10% superior à taxa básica é bastante terrível.

Acccumulation

Isso é conhecido como paradoxo

BlueRaja - Danny Pflughoeft

O Statistics.com publicou a resposta errada?

Respostas: