Como escolher a probabilidade de corte para um evento raro Regressão logística

11

Eu tenho 100.000 observações (9 variáveis ​​indicadoras fictícias) com 1000 positivos. A regressão logística deve funcionar bem neste caso, mas a probabilidade de corte me intriga.

Na literatura comum, escolhemos um ponto de corte de 50% para prever 1s e 0s. Não posso fazer isso, pois meu modelo fornece um valor máximo de ~ 1%. Portanto, um limite pode ser 0,007 ou algo em torno dele.

Entendo as ROCcurvas e como a área sob a curva pode me ajudar a escolher entre dois modelos LR para o mesmo conjunto de dados. No entanto, o ROC não me ajuda a escolher uma probabilidade de corte ideal que possa ser usada para testar o modelo em dados fora da amostra.

Devo simplesmente usar um valor de corte que minimize o misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Adicionado -> Para uma taxa de eventos tão baixa, minhas taxas de classificação incorreta são afetadas por um grande número de falsos positivos. Embora a taxa geral pareça boa, o tamanho total do universo também é grande, mas meu modelo não deve ter tantos falsos positivos (pois é um modelo de retorno do investimento). 5/10 coeff são significativos.

Maddy
fonte
3
É o custo relativo dos dois tipos de classificação incorreta, juntamente com suas probabilidades, que devem determinar o corte. Se você apenas deseja validar o modelo de probabilidade, calcule sua pontuação na AUC ou Brier quando aplicado ao conjunto de testes.
Scortchi - Restabelece Monica
Esta pode ser uma boa resposta: stats.stackexchange.com/a/25398/5597
Tae-Sung Shin
Também respostas relevantes aqui e aqui .
Scortchi - Restabelece Monica
@ Tae-SungShin Obrigado pelo link. Isso é útil. Eu acho que não há uma resposta definitiva para o meu Q. Meu modelo sofre com um alto número de falsos positivos.
Maddy
@ Scortchi Thanks. O uso da AUC poderia ter sido útil se eu estivesse comparando dois modelos de regressão logística diferentes (com preditores extras), mas não tenho certeza de como isso me ajuda no meu caso. Isso me dá uma probabilidade total de sucesso do meu modelo, mas não me ajuda a escolher uma probabilidade de corte.
Maddy

Respostas:

5

Não concordo que um ponto de corte de 50% seja inerentemente válido ou apoiado pela literatura. O único caso em que esse corte pode ser justificado é em um projeto de controle de caso em que a prevalência do resultado seja exatamente de 50%, mas mesmo assim a escolha estará sujeita a algumas condições. Penso que a principal justificativa para a escolha do ponto de corte é a característica operacional desejada do teste de diagnóstico.

Um ponto de corte pode ser escolhido para atingir a sensibilidade ou especificidade desejada. Para um exemplo disso, consulte a literatura sobre dispositivos médicos. A sensibilidade geralmente é definida como uma quantidade fixa: exemplos incluem 80%, 90%, 95%, 99%, 99,9% ou 99,99%. A troca de sensibilidade / especificidade deve ser comparada aos danos dos erros do tipo I e do tipo II. Muitas vezes, como nos testes estatísticos, o dano de um erro do tipo I é maior e, portanto, controlamos esse risco. Ainda assim, esses danos raramente são quantificáveis. Por isso, tenho grandes objeções aos métodos de seleção de corte que se baseiam em uma única medida de precisão preditiva: eles transmitem, incorretamente, que os danos podem e foram quantificados.

Seu problema com muitos falsos positivos é um exemplo do contrário: o erro tipo II pode ser mais prejudicial. Em seguida, você pode definir o limite para atingir a especificidade desejada e relatar a sensibilidade alcançada nesse limite.

Se você achar que ambos são muito baixos para serem aceitáveis ​​para a prática, seu modelo de risco não funcionará e deverá ser rejeitado.

A sensibilidade e a especificidade são facilmente calculadas ou consultadas a partir de uma tabela em toda uma gama de possíveis valores de corte. O problema com o ROC é que ele omite as informações de corte específicas do gráfico. O ROC é, portanto, irrelevante para a escolha de um valor de corte.

AdamO
fonte