A citação a seguir vem do famoso artigo de pesquisa Estatística significativa para estudos genômicos de Storey & Tibshirani (2003):
Por exemplo, uma taxa de falso positivo de 5% significa que, em média, 5% dos recursos verdadeiramente nulos no estudo serão considerados significativos. Um FDR (taxa de descoberta falsa) de 5% significa que entre todos os recursos chamados significativos, 5% deles são realmente nulos em média.
Alguém pode explicar o que isso significa usando um exemplo numérico ou visual simples? Estou tendo dificuldade para entender o que isso significa. Encontrei várias postagens apenas no FDR ou FPR, mas não encontrei nenhuma onde uma comparação específica foi feita.
Seria especialmente bom se alguém especialista nessa área pudesse ilustrar situações em que um é melhor que o outro, ou ambos são bons ou ruins.
fonte
Respostas:
Vou explicar isso de algumas maneiras diferentes, porque me ajudou a entendê-lo.
Vamos dar um exemplo específico. Você está fazendo um teste para uma doença em um grupo de pessoas. Agora vamos definir alguns termos. Para cada um dos seguintes, estou me referindo a um indivíduo que foi testado:
Verdadeiro positivo (TP) : tem a doença, identificada como portadora da doença
Falso positivo (PF) : Não possui a doença, identificada como portadora da doença
Verdadeiro negativo (TN) : Não possui a doença, identificada como não tendo a doença
Falso negativo (SN) : tem a doença, identificada como não a tendo
Visualmente, isso geralmente é mostrado usando a matriz de confusão :
A taxa de falsos positivos (RPF) é o número de pessoas que não têm a doença, mas são identificadas como tendo a doença (todos os PS), dividido pelo número total de pessoas que não têm a doença (inclui todos os PS e TNs) .
A taxa de falsas descobertas (FDR) é o número de pessoas que não têm a doença, mas são identificadas como portadoras da doença (todos os PS), divididas pelo número total de pessoas identificadas como portadoras da doença (inclui todos os PS e TPs) )
Então, a diferença está no denominador, ou seja, com o que você está comparando o número de falsos positivos?
O FPR está informando a proporção de todas as pessoas que não têm a doença que serão identificadas como portadoras da doença.
O FDR está lhe dizendo a proporção de todas as pessoas identificadas como portadoras da doença que não têm a doença.
Ambos são, portanto, medidas distintas úteis de falha. Dependendo da situação e das proporções de TPs, FPs, TNs e FNs, você pode se importar mais com um do que com o outro.
Vamos agora colocar alguns números para isso. Você mediu 100 pessoas para a doença e obtém o seguinte:
Verdadeiros positivos (TPs) : 12
Falsos positivos (PS) : 4
Negativos verdadeiros (TNs) : 76
Falsos negativos (SN) : 8
Para mostrar isso usando a matriz de confusão:
Então,
Em outras palavras,
O FPR informa que 5% das pessoas que não tiveram a doença foram identificadas como portadoras da doença. O FDR diz que 25% das pessoas que foram identificadas como portadoras da doença realmente não a possuíam.
EDIT com base no comentário da @ amoeba (também nos números do exemplo acima):
[Observação: a Wikipedia aponta que, embora o FPR seja matematicamente equivalente à taxa de erro do tipo I, é considerado conceitualmente distinto porque um é geralmente definido a priori enquanto o outro é usado para medir o desempenho de um teste posteriormente. Isso é importante, mas não discutirei isso aqui].
E para um pouco mais de abrangência:
Obviamente, FPR e FDR não são as únicas métricas relevantes que você pode calcular com as quatro quantidades na matriz de confusão. Das muitas métricas possíveis que podem ser úteis em diferentes contextos , duas relativamente comuns que você provavelmente encontrará são:
A taxa positiva verdadeira (TPR) , também conhecida como sensibilidade , é a proporção de pessoas que têm a doença identificadas como portadoras da doença.
A Taxa Negativa Verdadeira (TNR) , também conhecida como especificidade , é a proporção de pessoas que não têm a doença identificadas como não tendo a doença.
fonte
Você deve examinar a tabela em https://en.wikipedia.org/wiki/Confusion_matrix . Observe que o FPR é colocado verticalmente enquanto o FDR está na horizontal.
fonte