O Statistics.com publicou a resposta errada?

28

O Statistics.com publicou um problema da semana: A taxa de fraude em seguros residenciais é de 10% (uma em cada dez reivindicações é fraudulenta). Um consultor propôs um sistema de aprendizado de máquina para revisar reivindicações e classificá-las como fraude ou não-fraude. O sistema tem 90% de eficiência na detecção de reivindicações fraudulentas, mas apenas 80% de eficiência na classificação correta de reivindicações que não são de fraude (por engano, rotula uma em cada cinco como "fraude"). Se o sistema classifica uma reivindicação como fraudulenta, qual é a probabilidade de que ela seja realmente fraudulenta?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Eu e meu colega tivemos a mesma resposta de forma independente e ela não corresponde à solução publicada.

Nossa solução:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

A solução deles:

Este é um problema em probabilidade condicional. (Também é um problema bayesiano, mas a aplicação da fórmula na regra de Bayes só ajuda a obscurecer o que está acontecendo.) Considere 100 alegações. 10 serão fraudulentos e o sistema rotulará corretamente 9 deles como "fraude". 90 reivindicações serão aceitáveis, mas o sistema classificará incorretamente 72 (80%) como "fraude". Portanto, um total de 81 reivindicações foram rotuladas como fraudulentos, mas apenas 9 deles, 11%, são realmente fraudulentos.

Quem estava certo

ChrisG
fonte
4
parece que eles corrigiram a solução em seu site para estar de acordo com o que você calculou
não
2
@nope, silenciosamente corrigiu a resposta. sorrateira
Aksakal
Curiosidades: na tomada de decisão comportamental, esse problema costuma ser chamado de "problema da mamografia", pois sua apresentação usual é sobre a chance de um paciente ter câncer recebendo uma mamografia positiva.
Kodiologist
"A boa notícia é que nosso sistema classifica 90% da fraude como fraude. A má notícia é que classifica 80% da não-fraude como fraude". Observe que os 11% calculados são apenas ligeiramente superiores à taxa básica de 10%. Um modelo de aprendizado de máquina em que a taxa de fraude nos casos sinalizados é apenas 10% superior à taxa básica é bastante terrível.
Acccumulation
Isso é conhecido como paradoxo
BlueRaja - Danny Pflughoeft

Respostas:

41

Eu acredito que você e seu colega estão corretos. O Statistics.com tem a linha de pensamento correta, mas comete um erro simples. Das 90 reivindicações "OK", esperamos que 20% delas sejam classificadas incorretamente como fraude, e não 80%. 20% de 90 é 18, levando a 9 reivindicações corretamente identificadas e 18 reivindicações incorretas, com uma proporção de 1/3, exatamente o que a regra de Bayes produz.

James Otto
fonte
11

Você está certo. A solução que o site postou é baseada em uma leitura incorreta do problema, pois 80% das reivindicações não fraudulentas são classificadas como fraudulentas, em vez dos 20% especificados.

Dilip Sarwate
fonte