Atualmente, estou me ensinando a fazer a classificação e, especificamente, estou analisando três métodos: máquinas de vetores de suporte, redes neurais e regressão logística. O que estou tentando entender é por que a regressão logística teria um desempenho melhor do que os outros dois.
Do meu entendimento da regressão logística, a idéia é ajustar uma função logística a todos os dados. Portanto, se meus dados são binários, todos os meus dados com o rótulo 0 devem ser mapeados para o valor 0 (ou próximo a ele) e todos os meus dados com o valor 1 devem ser mapeados para o valor 1 (ou próximo a ele). Agora, como a função logística é contínua e suave, a execução dessa regressão requer que todos os meus dados se ajustem à curva; não há maior importância aplicada aos pontos de dados próximos ao limite da decisão e todos os pontos de dados contribuem para a perda em diferentes quantidades.
No entanto, com máquinas de vetores de suporte e redes neurais, apenas os pontos de dados próximos ao limite de decisão são importantes; enquanto um ponto de dados permanecer no mesmo lado do limite de decisão, ele contribuirá com a mesma perda.
Portanto, por que a regressão logística superaria as máquinas de vetores ou redes neurais de suporte, uma vez que "desperdiça recursos" na tentativa de ajustar uma curva a muitos dados sem importância (facilmente classificáveis), em vez de focar apenas nos dados difíceis em torno da decisão fronteira?
Respostas:
Os recursos que você considera "desperdiçados" são, de fato, ganhos de informações fornecidos por regressão logística. Você começou com a premissa errada. A regressão logística não é um classificador. É um estimador de probabilidade / risco. Ao contrário do SVM, ele permite e espera "chamadas fechadas". Isso levará a uma tomada de decisão ideal porque não tenta enganar o sinal preditivo para incorporar uma função de utilidade implícita sempre que você classifica as observações. O objetivo da regressão logística usando estimativa de máxima verossimilhança é fornecer estimativas ótimas de Prob . O resultado é usado de várias maneiras, por exemplo, curvas de elevação, pontuação de risco de crédito, etc. Veja o livro de Nate Silver, Signal and the Noise( Y= 1 | X) por argumentos convincentes a favor do raciocínio probabilístico.
Observe que a variável dependente na regressão logística pode ser codificada da maneira que desejar: 0/1, A / B, sim / não, etc.Y
A principal premissa da regressão logística é que é verdadeiramente binário, por exemplo, não foi derivado de uma variável de resposta ordinal ou contínua subjacente. Como os métodos de classificação, é para fenômenos verdadeiramente tudo ou nada.Y
Alguns analistas pensam que a regressão logística assume linearidade dos efeitos preditores na escala de chances de log. Isso só aconteceu quando DR Cox inventou o modelo logístico em 1958, quando a computação não estava disponível para estender o modelo usando ferramentas como splines de regressão. A única fraqueza real na regressão logística é que você precisa especificar quais interações você deseja permitir no modelo. Para a maioria dos conjuntos de dados, isso se fortalece porque os efeitos principais aditivos geralmente são preditores muito mais fortes do que as interações, e os métodos de aprendizado de máquina que dão igual prioridade às interações podem ser instáveis, difíceis de interpretar e exigir tamanhos de amostra maiores que a regressão logística para prever bem.
fonte
Você está certo, muitas vezes a regressão logística se sai mal como classificador (especialmente quando comparado a outros algoritmos). No entanto, isso não significa que a regressão logística deva ser esquecida e nunca estudada, pois possui duas grandes vantagens:
Resultados probabilísticos. Frank Harrell (+1) explicou isso muito bem em sua resposta.
fonte