Quando a regressão logística é adequada?

12

Atualmente, estou me ensinando a fazer a classificação e, especificamente, estou analisando três métodos: máquinas de vetores de suporte, redes neurais e regressão logística. O que estou tentando entender é por que a regressão logística teria um desempenho melhor do que os outros dois.

Do meu entendimento da regressão logística, a idéia é ajustar uma função logística a todos os dados. Portanto, se meus dados são binários, todos os meus dados com o rótulo 0 devem ser mapeados para o valor 0 (ou próximo a ele) e todos os meus dados com o valor 1 devem ser mapeados para o valor 1 (ou próximo a ele). Agora, como a função logística é contínua e suave, a execução dessa regressão requer que todos os meus dados se ajustem à curva; não há maior importância aplicada aos pontos de dados próximos ao limite da decisão e todos os pontos de dados contribuem para a perda em diferentes quantidades.

No entanto, com máquinas de vetores de suporte e redes neurais, apenas os pontos de dados próximos ao limite de decisão são importantes; enquanto um ponto de dados permanecer no mesmo lado do limite de decisão, ele contribuirá com a mesma perda.

Portanto, por que a regressão logística superaria as máquinas de vetores ou redes neurais de suporte, uma vez que "desperdiça recursos" na tentativa de ajustar uma curva a muitos dados sem importância (facilmente classificáveis), em vez de focar apenas nos dados difíceis em torno da decisão fronteira?

Karnivaurus
fonte
5
O LR fornecerá estimativas de probabilidade, enquanto o SVM fornece estimativas binárias. Isso também torna o LR útil quando não há hiperplano de separação entre as classes. Além disso, você deve levar em consideração a complexidade dos algoritmos e outras características, como número de parâmetros e sensibilidade.
Bar
1
Relacionado: stats.stackexchange.com/questions/127042/…
Sycorax diz Restabelecer Monica

Respostas:

28

Os recursos que você considera "desperdiçados" são, de fato, ganhos de informações fornecidos por regressão logística. Você começou com a premissa errada. A regressão logística não é um classificador. É um estimador de probabilidade / risco. Ao contrário do SVM, ele permite e espera "chamadas fechadas". Isso levará a uma tomada de decisão ideal porque não tenta enganar o sinal preditivo para incorporar uma função de utilidade implícita sempre que você classifica as observações. O objetivo da regressão logística usando estimativa de máxima verossimilhança é fornecer estimativas ótimas de Prob . O resultado é usado de várias maneiras, por exemplo, curvas de elevação, pontuação de risco de crédito, etc. Veja o livro de Nate Silver, Signal and the Noise(Y=1|X) por argumentos convincentes a favor do raciocínio probabilístico.

Observe que a variável dependente na regressão logística pode ser codificada da maneira que desejar: 0/1, A / B, sim / não, etc.Y

A principal premissa da regressão logística é que é verdadeiramente binário, por exemplo, não foi derivado de uma variável de resposta ordinal ou contínua subjacente. Como os métodos de classificação, é para fenômenos verdadeiramente tudo ou nada.Y

Alguns analistas pensam que a regressão logística assume linearidade dos efeitos preditores na escala de chances de log. Isso só aconteceu quando DR Cox inventou o modelo logístico em 1958, quando a computação não estava disponível para estender o modelo usando ferramentas como splines de regressão. A única fraqueza real na regressão logística é que você precisa especificar quais interações você deseja permitir no modelo. Para a maioria dos conjuntos de dados, isso se fortalece porque os efeitos principais aditivos geralmente são preditores muito mais fortes do que as interações, e os métodos de aprendizado de máquina que dão igual prioridade às interações podem ser instáveis, difíceis de interpretar e exigir tamanhos de amostra maiores que a regressão logística para prever bem.

Frank Harrell
fonte
6
+1. Para ser sincero, nunca achei as SVMs úteis. Eles são sensuais, mas são lentos em treinar e pontuar - na minha experiência - e têm muitas opções com as quais você precisa mexer (incluindo o kernel). Redes neurais que achei úteis, mas também muitas opções e ajustes. A regressão logística é simples e fornece resultados razoavelmente bem calibrados imediatamente. A calibração é importante para uso no mundo real. Obviamente, a desvantagem é que é linear, portanto, não pode caber em dados agrupados e irregulares, bem como em outros métodos, como a Random Forest.
Wayne
1
Ótima resposta. A propósito, você pode estar interessado em saber que recentemente os aprendizes de máquinas passaram a adaptar seus métodos sofisticados a estruturas tradicionais, como a máxima probabilidade penalizada - e os métodos sofisticados funcionam muito melhor quando isso é feito. Considere o XGBoost, sem dúvida o algoritmo de aumento de conjunto de árvores mais eficaz existente. A matemática está aqui: xgboost.readthedocs.io/en/latest/model.html . Deve parecer bastante familiar para um estatístico tradicional, e você pode ajustar modelos para muitos fins estatísticos comuns com as funções de perda usuais.
Paul
5

Você está certo, muitas vezes a regressão logística se sai mal como classificador (especialmente quando comparado a outros algoritmos). No entanto, isso não significa que a regressão logística deva ser esquecida e nunca estudada, pois possui duas grandes vantagens:

  1. Resultados probabilísticos. Frank Harrell (+1) explicou isso muito bem em sua resposta.

  2. Y=1X1=12X2,...Xp

TrynnaDoStat
fonte
5
E o aparente mau desempenho como classificador é resultado do uso de uma pontuação de precisão inadequada, não um problema inerente à regressão logística.
23716 Frank Harrell
@FrankHarrell: Eu tenho feito alguns experimentos recentemente e eu diria que a regressão logística ajusta os dados com muito menos liberdade do que outros métodos. Você precisa adicionar interações e fazer mais engenharia de recursos para corresponder, digamos, à flexibilidade de uma floresta aleatória ou de um GAM. (É claro que a flexibilidade é a corda bamba que atravessa o abismo da super adaptação).
Wayne
3
@wayne Este menos liberdade, como você afirmar isso, é muito útil em muitos casos, porque fornece estabilidade
rapaio
3
Assumir não apenas termos de interação menos importantes do que termos aditivos adiciona flexibilidade, mas você pode relaxar as suposições de várias maneiras. Estou adicionando mais sobre isso na minha resposta original.
24716 Frank Harrell
2
@rapaio: Sim, a flexibilidade é perigosa, tanto em termos de sobreajuste, mas também de outras maneiras. É um problema de domínio / uso: seus dados são barulhentos ou são realmente "irregulares / cluster-ish" se posso usar esse termo?
Wayne