PREFÁCIO: Eu não ligo para o mérito de usar um ponto de corte ou não, ou como alguém deve escolher um ponto de corte. Minha pergunta é puramente matemática e devido à curiosidade.
A regressão logística modela a probabilidade condicional posterior da classe A versus a classe B e se ajusta a um hiperplano onde as probabilidades condicionais posteriores são iguais. Portanto, em teoria, entendi que um ponto de classificação 0,5 minimizará os erros totais, independentemente do equilíbrio definido, pois modela a probabilidade posterior (supondo que você encontre consistentemente a mesma proporção de classe).
No meu exemplo da vida real, obtenho uma precisão muito baixa usando P> 0,5 como ponto de classificação (cerca de 51% de precisão). No entanto, quando olhei para a AUC, ela está acima de 0,99. Então, observei alguns valores de corte diferentes e constatei que P> 0,6 me proporcionou 98% de precisão (90% para a classe menor e 99% para a classe maior) - apenas 2% dos casos classificados incorretamente.
As classes são fortemente desequilibradas (1: 9) e é um problema de alta dimensão. No entanto, aloquei as classes igualmente para cada conjunto de validação cruzada, para que não haja diferença entre o equilíbrio de classes entre o ajuste do modelo e a previsão. Também tentei usar os mesmos dados do ajuste do modelo e nas previsões e ocorreu o mesmo problema.
Estou interessado no motivo pelo qual 0,5 não minimizaria erros. Pensei que isso seria planejado se o modelo estivesse sendo ajustado minimizando a perda de entropia cruzada.
Alguém tem algum feedback sobre o porquê disso acontecer? É devido à adição de penalização, alguém pode explicar o que está acontecendo?
fonte
Respostas:
Você não precisa obter categorias previstas a partir de um modelo de regressão logística. Pode ser bom ficar com probabilidades previstas. Se você começar categorias previstas, você deve não usar essa informação para fazer outra coisa senão dizer 'esta observação é melhor classificados nesta categoria'. Por exemplo, você não deve usar 'precisão' / porcentagem correta para selecionar um modelo.
De um modo mais geral, a regressão logística está tentando ajustar a verdadeira probabilidade positiva para observações em função de variáveis explicativas. Ele não está tentando maximizar a precisão centralizando as probabilidades previstas em torno do.50 corte fora. Se sua amostra não for50 % positivo, simplesmente não há razão .50 maximizaria a porcentagem correta.
fonte
Eu acho que pode ser por várias razões:
Portanto, você pode precisar, em algum momento, brincar com o valor limite, para maximizar o resultado desejado, como precisão, exatidão etc. Porque na maioria das vezes as populações não são muito homogêneas.
fonte