Por que a regressão logística não é chamada de Classificação Logística?

75

Como a Regressão Logística é um modelo de classificação estatística que lida com variáveis ​​dependentes categóricas, por que não é chamado de Classificação Logística ? O nome "Regressão" não deve ser reservado aos modelos que lidam com variáveis ​​dependentes contínuas?

Ismael Ghalimi
fonte
5
A regressão logística pertence à família de modelos GLM.
Stéphane Laurent
10
Você pode usá-lo para regredir probabilidades.
Emre
25
Embora a regressão logística possa certamente ser usada para classificação introduzindo um limite nas probabilidades que ela retorna, esse dificilmente é seu único uso - ou mesmo seu uso principal. Foi desenvolvido para - e continua a ser usado para - propósitos de regressão que nada têm a ver com classificação. Eu diria que isso ainda é fácil para o que é usado, mas acho que depende do que você olha.
Glen_b
6
Você pode achar interessante este artigo sobre o desenvolvimento da regressão logística, principalmente porque fornece algum sentido dos tipos de problemas para os quais é usado como técnica de regressão.
Glen_b

Respostas:

102

A regressão logística não é enfaticamente um algoritmo de classificação por si só. É apenas um algoritmo de classificação em combinação com uma regra de decisão que torna dicotômicas as probabilidades previstas do resultado. A regressão logística é um modelo de regressão porque estima a probabilidade de pertencer a uma classe como uma (transformação de a) função multilinear dos recursos.

Frank Harrell publicou várias respostas neste site, enumerando as armadilhas de considerar a regressão logística como um algoritmo de classificação. Entre eles:

Se bem me lembro, ele uma vez me indicou seu livro sobre estratégias de regressão para mais elaboração sobre esses (e mais!) Pontos, mas não consigo encontrar esse post em particular.

Restabelecer Monica
fonte
1
Se for esse o caso, todos (ou a maioria) dos classificadores prevêem as probabilidades de pertencer a uma classe primeiro (até onde eu saiba) e depois os transformaremos em classes. Não é?
Outlier
9
@ Counterexample externo: SVM não calcula as probabilidades de classe, apenas mede a distância entre uma observação e um hiperplano.
Reintegrar Monica
@ Outlier no ML são chamados de classificadores probabilísticos; árvores e florestas aleatórias não são, xgboost é - pelo menos com logloss)
seanv507
12

E[Y|X=x]

  • Assumindo que (Y | X = x) seja distribuído normalmente, produz-se uma regressão linear clássica.
  • Supondo que uma distribuição de Poisson produz regressão de Poisson.
  • Supondo que uma distribuição de Bernoulli produz regressão logística.

(Y|X=x)

Chad Scherrer
fonte
-3

Além das boas respostas já fornecidas, outra visão é que a regressão logística prediz probabilidades (que são valores contínuos ) que variam de 0 a 1.

insira a descrição da imagem aqui

krish___na
fonte