No processamento de imagens médicas, a maioria dos trabalhos publicados tenta reduzir a taxa de falsos positivos (FPR), enquanto na realidade os falsos negativos são mais perigosos do que os falsos positivos. Qual é a lógica por trás disso?
image-classification
image-recognition
Hunar A.Ahmed
fonte
fonte
Respostas:
TL; DR: as doenças são raras; portanto, o número absoluto de falsos positivos é muito mais do que o número de falsos negativos.
Vamos supor que nosso sistema tenha a mesma taxa de falsos positivos e falsos negativos de 1% (muito bom!), E que estamos detectando a presença de novos cânceres este ano: 439,2 / 100.000 pessoas, ou 0,5% da população. [ fonte ]
Então, podemos ver que temos um problema: para todos que têm câncer, duas pessoas que não tiveram câncer acabam com cirurgia invasiva, quimioterapia ou radioterapia.
Para todas as pessoas que não conseguem detectar um câncer atual, duzentas pessoas recebem tratamento ativamente prejudicial que não precisavam e que não podem pagar.
fonte
Você conhece a história do garoto que chorou lobo, certo?
É a mesma ideia. Depois que algum classificador emite alarmes falsos (chora lobo) tantas vezes, a equipe médica o desativa ou ignora.
"Oh, isso de novo! NOPE!"
Pelo menos no grupo de bioengenharia com quem trabalhei, a ênfase está na redução da RPF especificamente, porque o objetivo é criar uma ferramenta que avise os médicos sobre possíveis patologias, e eles nos disseram que ignorariam um produto que chora lobo. demais.
Para um produto que auxilia os médicos, precisamos apelar à psicologia deles, apesar do argumento legítimo de que sentir falta do lobo na fazenda é pior do que chorar.
Edit : Diminuir falsos positivos também tem um argumento legítimo. Se o seu computador continua chorando lobo enquanto obtém o verdadeiro positivo ocasional (e captura a maioria dos verdadeiros positivos), está efetivamente dizendo que alguém pode estar doente. Eles estão no hospital. O médico sabe que o paciente pode estar doente.
fonte
Resumo: a pergunta provavelmente * não é se um falso negativo é pior que um falso positivo, é provavelmente * mais como se 500 falsos positivos são aceitáveis para se reduzir a um falso negativo.
* depende da aplicação
Deixe-me expandir um pouco a resposta do @ Dragon:
Triagem significa que estamos procurando por doenças em uma população aparentemente saudável. Como o @Dragon explicou, para estes precisamos de um FPR extremamente baixo (ou alta sensibilidade), caso contrário, acabaremos com muito mais falsos positivos do que verdadeiros positivos. Ou seja, o valor preditivo positivo (# verdadeiramente doente entre todos os positivos diagnosticados) seria inaceitavelmente baixo.
A sensibilidade (TPR) e a especificidade (TNR) são fáceis de medir para um sistema de diagnóstico: tome vários casos verdadeiramente (não) doentes e meça a fração dos casos detectados corretamente.
OTOH, do ponto de vista dos médicos e dos pacientes, os valores preditivos são mais precisos . Eles são os "inversos" da sensibilidade e especificidade e indicam entre todas as previsões positivas (negativas) qual fração está correta. Em outras palavras, após o teste disse "doença" qual é a probabilidade de o paciente realmente ter a doença.
Como o @Dragon mostrou, a incidência (ou prevalência, dependendo do teste que estamos falando) desempenha um papel crucial aqui. A incidência é baixa em todos os tipos de aplicações de triagem / diagnóstico precoce do câncer.
Para ilustrar isso, a triagem de câncer de ovário para mulheres na pós-menopausa tem uma prevalência de 0,04% na população geral e 0,5% em mulheres de alto risco com histórico familiar e / ou mutações conhecidas dos genes supressores de tumor BRCA1 e 2 [Buchen, L. Câncer: Faltando a marca. Nature, 2011, 471, 428-432]
Portanto, a questão normalmente não é se um falso negativo é pior que um falso positivo, mas mesmo 99% de especificidade (1% FPR) e 95% de sensibilidade (números retirados do artigo acima) significam aproximadamente 500 falsos positivos para cada falso negativo .
Como uma observação lateral, lembre-se também de que o diagnóstico precoce do câncer por si só não é uma cura mágica para o câncer. Por exemplo, para mamografia de rastreamento de câncer de mama, apenas 3 - 13% dos pacientes positivos verdadeiros se beneficiam realmente da triagem .
Portanto, também precisamos ficar de olho no número de falsos positivos para cada paciente que se beneficia . Por exemplo, para mamografia, juntamente com esses números , estima-se que tenhamos algo entre 400 e 1800 falsos positivos por benefício do verdadeiro positivo (grupo de 39 a 49 anos).
Com centenas de falsos positivos por falso negativo (e talvez centenas ou mesmo milhares de falsos positivos por paciente se beneficiando da triagem), a situação não é tão clara quanto "um câncer perdido é pior do que um diagnóstico de câncer falso positivo": falsos positivos têm um impacto, variando de psicológico e psicossomático (se preocupar com o câncer por si só não é saudável) a riscos físicos de diagnósticos de acompanhamento, como biópsia (que é uma pequena cirurgia e, como tal, vem com seu próprio riscos).
Mesmo que o impacto de um falso positivo seja pequeno, os riscos correspondentes podem aumentar substancialmente se centenas de falsos positivos tiverem que ser considerados.
Leitura sugerida: Gerd Gigerenzer: Experiente em riscos: Como tomar boas decisões (2014).
Ainda, o que o PPV e o NPV são necessários para tornar um teste de diagnóstico útil depende muito da aplicação.
Como explicado, na triagem para detecção precoce do câncer, o foco geralmente é o PPV, ou seja, garantir que você não cause muito dano por falsos negativos: encontrar uma fração considerável (mesmo que não toda) dos pacientes com câncer já é uma melhoria em relação ao o status quo sem triagem.
OTOH, teste de HIV em doações de sangue concentra-se primeiro no VPL (ou seja, garantir que o sangue esteja livre de HIV). Ainda assim, em uma segunda (e terceira) etapa, os falsos positivos são reduzidos com a aplicação de mais testes antes de preocupar as pessoas com resultados (falsos) positivos.
Por último, mas não menos importante, também existem aplicativos de testes médicos em que as incidências ou prevalências não são tão extremas quanto costumam ser na triagem de populações de risco não particularmente alto, por exemplo, alguns diagnósticos diferenciais.
fonte
Do ponto de vista pessoal, e não da experiência em ciência de dados, um falso positivo tem um impacto maior na qualidade de vida do paciente do que um falso negativo (pelo menos na maioria das aplicações de processamento de imagens médicas. Não estamos falando de resultados de laboratório aqui) .
Vejamos um exemplo concreto: triagem de tumores .
Um falso negativo significa que um tumor em estágio inicial tem mais tempo para crescer e se transformar em câncer malicioso. No geral, esse processo leva muito tempo e cada triagem subsequente tem uma chance maior de detectá-lo, mas, realisticamente, a saúde a longo prazo de um paciente sofre.
Além disso, sempre há um ser humano envolvido no diagnóstico. O processamento de imagens médicas em seu estágio tecnológico atual deve ser uma ajuda para o pessoal médico, não um substituto . Muitas vezes, isso significa apontar lesões ou alterações nos tecidos que são tão sutis que um ser humano pode ignorá-las. Não há chance de um médico ignorar um tumor em estágio avançado. Eles não precisam de processamento de imagem para isso.
Em termos de procedimentos médicos, se um tumor não se tornar inoperante antes da próxima triagem, não há grande diferença entre remover um tumor em estágio inicial ou um que tenha um pouco mais de tempo para crescer. A quantidade de tecido removido é maior, mas o tipo de operação geralmente é o mesmo. (Isso pressupõe que o paciente faça exames regulares de saúde.)
Um falso positivo tem muitas implicações que nem todas estão diretamente relacionadas a uma doença:
Essa avaliação de risco-benefício mostra que um falso negativo inclui menos risco para um paciente do que um falso positivo. Portanto, a prioridade de reduzir os falsos positivos é geralmente mais alta.
fonte
O tempo do clínico é precioso
No campo da medicina, os médicos geralmente têm uma grande variedade de doenças para tentar detectar e diagnosticar, e esse é um processo demorado. Uma ferramenta que apresenta um falso positivo (mesmo que em uma taxa baixa) é menos útil porque não é possível confiar nesse diagnóstico, ou seja, toda vez que ele faz esse diagnóstico, ele precisa ser verificado. Pense nisso como o WebMD do software - tudo é um sinal de câncer!
Uma ferramenta que apresenta falsos negativos, mas sempre apresenta verdadeiros positivos, é muito mais útil, pois o clínico não precisa perder tempo verificando novamente ou adivinhando o diagnóstico. Se marcar alguém como doente com um diagnóstico específico, o trabalho foi feito. Caso contrário, as pessoas que não estão destacadas como doentes receberão testes adicionais de qualquer maneira.
É melhor ter uma ferramenta que possa identificar com precisão até uma única característica de uma doença do que uma ferramenta que talvez falsifique várias características.
fonte
Taxa de falsos positivos (FPR), também conhecida como taxa de falsos alarmes (FAR); Uma grande taxa de falsos positivos pode produzir um desempenho ruim do sistema de detecção de imagens médicas. Um falso positivo é onde você recebe um resultado positivo para um teste, quando deveria ter recebido um resultado negativo. Por exemplo, um teste de gravidez é positivo quando, na verdade, a pessoa não está grávida.
fonte
Com toda a probabilidade, todo mundo nesse segmento já sabe que esse é um problema no cerne da análise bayesiana. Apenas para o benefício de futuros peregrinos que possam pensar em falsos positivos como de alguma forma apenas um problema em radiologia, espero que este comentário forneça uma perspectiva um pouco mais geral.
fonte