Por que o valor de corte P> 0,5 não é "ideal" para a regressão logística?

13

PREFÁCIO: Eu não ligo para o mérito de usar um ponto de corte ou não, ou como alguém deve escolher um ponto de corte. Minha pergunta é puramente matemática e devido à curiosidade.

A regressão logística modela a probabilidade condicional posterior da classe A versus a classe B e se ajusta a um hiperplano onde as probabilidades condicionais posteriores são iguais. Portanto, em teoria, entendi que um ponto de classificação 0,5 minimizará os erros totais, independentemente do equilíbrio definido, pois modela a probabilidade posterior (supondo que você encontre consistentemente a mesma proporção de classe).

No meu exemplo da vida real, obtenho uma precisão muito baixa usando P> 0,5 como ponto de classificação (cerca de 51% de precisão). No entanto, quando olhei para a AUC, ela está acima de 0,99. Então, observei alguns valores de corte diferentes e constatei que P> 0,6 me proporcionou 98% de precisão (90% para a classe menor e 99% para a classe maior) - apenas 2% dos casos classificados incorretamente.

As classes são fortemente desequilibradas (1: 9) e é um problema de alta dimensão. No entanto, aloquei as classes igualmente para cada conjunto de validação cruzada, para que não haja diferença entre o equilíbrio de classes entre o ajuste do modelo e a previsão. Também tentei usar os mesmos dados do ajuste do modelo e nas previsões e ocorreu o mesmo problema.

Estou interessado no motivo pelo qual 0,5 não minimizaria erros. Pensei que isso seria planejado se o modelo estivesse sendo ajustado minimizando a perda de entropia cruzada.

Alguém tem algum feedback sobre o porquê disso acontecer? É devido à adição de penalização, alguém pode explicar o que está acontecendo?

felix000
fonte
2
Consulte stats.stackexchange.com/search?q=user%3A4253+cutoff
Scortchi - Reinstate Monica
Scortchi, você poderia ser um pouco mais específico sobre qual pergunta sobre pontos de corte você acha relevante? Não vi a pergunta ou resposta relevante antes de postar, nem agora.
Felix000
Desculpe, não quis dizer que todos responderam ao seu q., Mas achei que todos eram relevantes ao sugerir não usar a precisão em nenhum ponto de corte como métrica de desempenho, ou pelo menos não um ponto de corte arbitrário não calculado a partir de uma concessionária função.
Scortchi - Restabelece Monica

Respostas:

16

Você não precisa obter categorias previstas a partir de um modelo de regressão logística. Pode ser bom ficar com probabilidades previstas. Se você começar categorias previstas, você deve não usar essa informação para fazer outra coisa senão dizer 'esta observação é melhor classificados nesta categoria'. Por exemplo, você não deve usar 'precisão' / porcentagem correta para selecionar um modelo.

.50N=1009949.50199% corrigir.

De um modo mais geral, a regressão logística está tentando ajustar a verdadeira probabilidade positiva para observações em função de variáveis ​​explicativas. Ele não está tentando maximizar a precisão centralizando as probabilidades previstas em torno do.50corte fora. Se sua amostra não for50.% positivo, simplesmente não há razão .50 maximizaria a porcentagem correta.

Repor a Monica
fonte
Olá, obrigado pela sua explicação, no entanto, não entendo o exemplo com o modelo somente de interceptação. Com o modelo somente de interceptação, você terá 0,99 para todos os exemplos e, portanto, terá 99% de precisão tomando qualquer valor limite.
abcdaire 27/05/19
0

Eu acho que pode ser por várias razões:

  1. Pode haver não linearidade nos seus dados, portanto, adicionar linearmente os pesos nem sempre resulta em probabilidades corretas
  2. As variáveis ​​são uma mistura de bons preditores e preditores fracos; portanto, a população pontuada em torno de 0,5 é por causa de preditores fracos ou menos efeito de preditores fortes. Conforme você avança, você recebe pessoas, para as quais o efeito dos preditores é forte

Portanto, você pode precisar, em algum momento, brincar com o valor limite, para maximizar o resultado desejado, como precisão, exatidão etc. Porque na maioria das vezes as populações não são muito homogêneas.

user124690
fonte