Eu tenho 100.000 observações (9 variáveis indicadoras fictícias) com 1000 positivos. A regressão logística deve funcionar bem neste caso, mas a probabilidade de corte me intriga.
Na literatura comum, escolhemos um ponto de corte de 50% para prever 1s e 0s. Não posso fazer isso, pois meu modelo fornece um valor máximo de ~ 1%. Portanto, um limite pode ser 0,007 ou algo em torno dele.
Entendo as ROC
curvas e como a área sob a curva pode me ajudar a escolher entre dois modelos LR para o mesmo conjunto de dados. No entanto, o ROC não me ajuda a escolher uma probabilidade de corte ideal que possa ser usada para testar o modelo em dados fora da amostra.
Devo simplesmente usar um valor de corte que minimize o misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Adicionado -> Para uma taxa de eventos tão baixa, minhas taxas de classificação incorreta são afetadas por um grande número de falsos positivos. Embora a taxa geral pareça boa, o tamanho total do universo também é grande, mas meu modelo não deve ter tantos falsos positivos (pois é um modelo de retorno do investimento). 5/10 coeff são significativos.
Respostas:
Não concordo que um ponto de corte de 50% seja inerentemente válido ou apoiado pela literatura. O único caso em que esse corte pode ser justificado é em um projeto de controle de caso em que a prevalência do resultado seja exatamente de 50%, mas mesmo assim a escolha estará sujeita a algumas condições. Penso que a principal justificativa para a escolha do ponto de corte é a característica operacional desejada do teste de diagnóstico.
Um ponto de corte pode ser escolhido para atingir a sensibilidade ou especificidade desejada. Para um exemplo disso, consulte a literatura sobre dispositivos médicos. A sensibilidade geralmente é definida como uma quantidade fixa: exemplos incluem 80%, 90%, 95%, 99%, 99,9% ou 99,99%. A troca de sensibilidade / especificidade deve ser comparada aos danos dos erros do tipo I e do tipo II. Muitas vezes, como nos testes estatísticos, o dano de um erro do tipo I é maior e, portanto, controlamos esse risco. Ainda assim, esses danos raramente são quantificáveis. Por isso, tenho grandes objeções aos métodos de seleção de corte que se baseiam em uma única medida de precisão preditiva: eles transmitem, incorretamente, que os danos podem e foram quantificados.
Seu problema com muitos falsos positivos é um exemplo do contrário: o erro tipo II pode ser mais prejudicial. Em seguida, você pode definir o limite para atingir a especificidade desejada e relatar a sensibilidade alcançada nesse limite.
Se você achar que ambos são muito baixos para serem aceitáveis para a prática, seu modelo de risco não funcionará e deverá ser rejeitado.
A sensibilidade e a especificidade são facilmente calculadas ou consultadas a partir de uma tabela em toda uma gama de possíveis valores de corte. O problema com o ROC é que ele omite as informações de corte específicas do gráfico. O ROC é, portanto, irrelevante para a escolha de um valor de corte.
fonte