Estou tentando entender o resultado do teorema de Bayes, aplicado ao exemplo clássico da mamografia, com o toque perfeito da mamografia.
Isso é,
Incidência de câncer:
Probabilidade de uma mamografia positiva, dado o paciente ter câncer:
Probabilidade de uma mamografia positiva, dado que o paciente não tem câncer:
Por Bayes:
P (câncer | mamografia +) =
Então, se uma pessoa aleatória da população faz a mamografia e obtém um resultado positivo, há 50% de chance de ter câncer? Não estou conseguindo entender intuitivamente como a pequena chance de 1% de um falso positivo em 1% da população pode desencadear um resultado de 50%. Logicamente, eu pensaria que uma mamografia positiva perfeitamente verdadeira com uma pequena taxa de falsos positivos seria muito mais precisa.
Respostas:
Responderei a essa pergunta do ponto de vista médico e estatístico. Ele recebeu muita atenção da imprensa leiga, principalmente depois do best-seller The Signal and the Noise, de Nate Silver, além de vários artigos em publicações como The New York Times, explicando o conceito. Estou muito feliz que o @ user2666425 tenha aberto este tópico no CV.
Portanto, recalculando e muito importante, para mulheres mais jovens sem fatores de risco :
Nas mulheres mais velhas, a prevalência (e, portanto, a probabilidade pré-teste) aumenta linearmente com a idade. Segundo o relatório atual, o risco de uma mulher ser diagnosticada com câncer de mama durante os próximos 10 anos , começando nas seguintes idades, é o seguinte:
Resposta específica à sua pergunta:
Questão da intuição: @Juho Kokkala levantou a questão que o OP estava perguntando sobre a intuição . Eu pensei que estava implícito nos cálculos e nos parágrafos finais, mas é justo o suficiente ... É assim que eu explicaria a um amigo ... Vamos fingir que vamos caçar fragmentos de meteoros com um detector de metais em Winslow, Arizona. Bem aqui:
Imagem de meteorcrater.com
... e o detector de metais se apaga. Bem, se você disse que as chances são de que uma moeda caiu de um turista, você provavelmente estaria certo. Mas você entendeu: se o local não tivesse sido tão minuciosamente examinado, seria muito mais provável que um sinal sonoro do detector em um local como este viesse de um fragmento de meteoro do que se estivéssemos nas ruas de Nova York.
O que estamos fazendo com a mamografia está indo para uma população saudável, procurando uma doença silenciosa que, se não for detectada precocemente, pode ser letal. Felizmente, a prevalência (embora muito alta em comparação com outros cânceres menos curáveis) é baixa o suficiente para que a probabilidade de encontrar aleatoriamente câncer seja baixa, mesmo se os resultados forem "positivos" , especialmente em mulheres jovens.
Como nunca temos um dispositivo ou sistema de medição perfeitamente preciso, a fraçãolikelihoodunconditional p(+)=p(+|C)p(+|C)∗p(C)+p(+|C¯)∗p(C¯) <1 p(C) posterior=α∗prior posterior<prior valor preditivo positivo (VPP) : probabilidade de os indivíduos com um teste de triagem positivo realmente apresentarem a doença.
fonte
Um problema-chave da mamografia que não foi tratado adequadamente no discurso é a definição incorreta de "positivo". Isso está descrito no capítulo Diagnóstico em http://biostat.mc.vanderbilt.edu/ClinStat - veja o link para Bioestatística em pesquisa biomédica lá.
Um dos sistemas de codificação de diagnóstico mais amplamente utilizados na mamografia é o escore BI-RADS, e o escore 4 é um resultado "positivo" frequente. A definição da categoria 4 é "Não característica do câncer de mama, mas uma probabilidade razoável de ser maligna (3 a 94%); a biópsia deve ser considerada". Com uma faixa de risco que varia de 0,03 a 0,94 para uma categoria , ou seja, uma incrível heterogeneidade no que "positivo" realmente significa, não é de admirar que tenhamos uma bagunça em nossas mãos.
Também é um sinal de que o sistema BI-RADS não tem categoria para alguém com um risco estimado de 0,945.
Como Nate Silver argumenta tão eloquentemente em The Signal and the Noise , se pensássemos probabilisticamente, tomaríamos melhores decisões ao redor. A remoção de termos como "positivo" e "negativo" para exames médicos removeria os falsos positivos e falsos negativos e transmitiria a incerteza (e justificativa para mais testes antes de fazer um diagnóstico).
fonte
Há uma boa discussão sobre isso no livro Riscos calculados
Grande parte do livro trata de encontrar maneiras mais claras de falar e pensar sobre probabilidade e risco. Um exemplo:
A probabilidade de uma mulher de 40 anos ter câncer de mama é de cerca de 1%. Se ela tiver câncer de mama, a probabilidade de ter um resultado positivo em uma mamografia de rastreamento é de cerca de 90%. Se ela não tem câncer de mama, a probabilidade de ter um resultado positivo é de 9%. Quais são as chances de uma mulher que é positiva ter câncer de mama?
É assim que o livro apresenta a solução, usando 'frequências naturais'. Considere 10.000 mulheres, 1% tem câncer, ou seja, 100 mulheres. Destes, 90% retornarão testes positivos (ou seja, 90 mulheres com câncer serão positivas). Dos 9900 sem câncer, 9% retornará teste positivo ou 891 mulheres. Portanto, existem 891 + 90 = 981 mulheres com testes positivos, das quais 90 têm câncer. Portanto, a chance de uma mulher com teste positivo ter câncer é 90/981 = 0,092
Se 100% da mulher com teste de câncer positivo, isso muda um pouco os números para 100 / (100 + 891) = 0,1
fonte
Talvez esta linha de pensamento esteja correta?
fonte
Aqui está uma maneira simplificada, mas intuitiva, de ver isso. Considere 100 pessoas. Um deles tem câncer e será positivo. Dos 99 que não, um deles receberá um teste falso positivo. Então, dos dois aspectos positivos, um terá câncer e outro não.
fonte