FPR (taxa de falsos positivos) vs FDR (taxa de descobertas falsas)

20

A citação a seguir vem do famoso artigo de pesquisa Estatística significativa para estudos genômicos de Storey & Tibshirani (2003):

Por exemplo, uma taxa de falso positivo de 5% significa que, em média, 5% dos recursos verdadeiramente nulos no estudo serão considerados significativos. Um FDR (taxa de descoberta falsa) de 5% significa que entre todos os recursos chamados significativos, 5% deles são realmente nulos em média.

Alguém pode explicar o que isso significa usando um exemplo numérico ou visual simples? Estou tendo dificuldade para entender o que isso significa. Encontrei várias postagens apenas no FDR ou FPR, mas não encontrei nenhuma onde uma comparação específica foi feita.

Seria especialmente bom se alguém especialista nessa área pudesse ilustrar situações em que um é melhor que o outro, ou ambos são bons ou ruins.

李 慕
fonte
3
Percebo que você concedeu uma recompensa à resposta de @ mkt, Naseer. Se essa resposta resolveu sua pergunta, você também pode aceitá-la clicando na marca de seleção à esquerda abaixo do indicador de recompensa.
gung - Restabelece Monica

Respostas:

29

Vou explicar isso de algumas maneiras diferentes, porque me ajudou a entendê-lo.

Vamos dar um exemplo específico. Você está fazendo um teste para uma doença em um grupo de pessoas. Agora vamos definir alguns termos. Para cada um dos seguintes, estou me referindo a um indivíduo que foi testado:

Verdadeiro positivo (TP) : tem a doença, identificada como portadora da doença

Falso positivo (PF) : Não possui a doença, identificada como portadora da doença

Verdadeiro negativo (TN) : Não possui a doença, identificada como não tendo a doença

Falso negativo (SN) : tem a doença, identificada como não a tendo

Visualmente, isso geralmente é mostrado usando a matriz de confusão :

insira a descrição da imagem aqui

A taxa de falsos positivos (RPF) é o número de pessoas que não têm a doença, mas são identificadas como tendo a doença (todos os PS), dividido pelo número total de pessoas que não têm a doença (inclui todos os PS e TNs) .

FPR=FPFP+TN

A taxa de falsas descobertas (FDR) é o número de pessoas que não têm a doença, mas são identificadas como portadoras da doença (todos os PS), divididas pelo número total de pessoas identificadas como portadoras da doença (inclui todos os PS e TPs) )

FDR=FPFP+TP


Então, a diferença está no denominador, ou seja, com o que você está comparando o número de falsos positivos?

O FPR está informando a proporção de todas as pessoas que não têm a doença que serão identificadas como portadoras da doença.

O FDR está lhe dizendo a proporção de todas as pessoas identificadas como portadoras da doença que não têm a doença.

Ambos são, portanto, medidas distintas úteis de falha. Dependendo da situação e das proporções de TPs, FPs, TNs e FNs, você pode se importar mais com um do que com o outro.


Vamos agora colocar alguns números para isso. Você mediu 100 pessoas para a doença e obtém o seguinte:

Verdadeiros positivos (TPs) : 12

Falsos positivos (PS) : 4

Negativos verdadeiros (TNs) : 76

Falsos negativos (SN) : 8

Para mostrar isso usando a matriz de confusão:

insira a descrição da imagem aqui

Então,

FPR=FPFP+TN=44+76=480=0,05=5%

FDR=FPFP+TP=44+12=416=0,25=25%

Em outras palavras,

O FPR informa que 5% das pessoas que não tiveram a doença foram identificadas como portadoras da doença. O FDR diz que 25% das pessoas que foram identificadas como portadoras da doença realmente não a possuíam.


EDIT com base no comentário da @ amoeba (também nos números do exemplo acima):

n

[Observação: a Wikipedia aponta que, embora o FPR seja matematicamente equivalente à taxa de erro do tipo I, é considerado conceitualmente distinto porque um é geralmente definido a priori enquanto o outro é usado para medir o desempenho de um teste posteriormente. Isso é importante, mas não discutirei isso aqui].


E para um pouco mais de abrangência:

Obviamente, FPR e FDR não são as únicas métricas relevantes que você pode calcular com as quatro quantidades na matriz de confusão. Das muitas métricas possíveis que podem ser úteis em diferentes contextos , duas relativamente comuns que você provavelmente encontrará são:

A taxa positiva verdadeira (TPR) , também conhecida como sensibilidade , é a proporção de pessoas que têm a doença identificadas como portadoras da doença.

TPR=TPTP+FN

A Taxa Negativa Verdadeira (TNR) , também conhecida como especificidade , é a proporção de pessoas que não têm a doença identificadas como não tendo a doença.

TNR=TNTN+FP

mkt - Restabelecer Monica
fonte
3
+1. Poderia fazer sentido ajustar o exemplo numérico para que FPR = 5%, porque é isso que você terá se usar p <0,05 como critério (assumindo que o teste tenha o tamanho correto). Ou 1% se p <0,01, qualquer que seja. Apontar essa conexão pode ser útil para alguns leitores.
Ameba diz Reinstate Monica
1
@amoeba Obrigado, é uma boa ideia. Vou tentar fazer isso mais tarde.
mkt - Reinstala Monica
2

Você deve examinar a tabela em https://en.wikipedia.org/wiki/Confusion_matrix . Observe que o FPR é colocado verticalmente enquanto o FDR está na horizontal.

  • FP acontece se sua hipótese nula for verdadeira, mas você a rejeitar
  • O DF acontece se você prever algo significativo, mas não deve
SmallChess
fonte
Eu sei disso, mas estou especificamente interessado em comparação, como se você pudesse ajudar a explicar esse conceito com alguns números e visualização para apoiar seus números, o que seria muito interessante.
李慕