A regressão logística é realmente um algoritmo de regressão?

11

A definição usual de regressão (tanto quanto sei) é prever uma variável de saída contínua de um determinado conjunto de variáveis ​​de entrada .

A regressão logística é um algoritmo de classificação binária, portanto produz uma saída categórica.

É realmente um algoritmo de regressão? Se sim, por quê?

joews
fonte

Respostas:

23

Regressão logística é regressão, em primeiro lugar. Torna-se um classificador adicionando uma regra de decisão. Vou dar um exemplo que retrocede. Ou seja, em vez de pegar dados e ajustar um modelo, vou começar com o modelo para mostrar como isso é realmente um problema de regressão.

Na regressão logística, estamos modelando as probabilidades de log, ou logit, de que um evento ocorre, que é uma quantidade contínua. Se a probabilidade de o evento UMA ocorrer for P(UMA) , as chances são de:

P(UMA)1 1-P(UMA)

As probabilidades de log, então, são:

registro(P(UMA)1 1-P(UMA))

Como na regressão linear, modelamos isso com uma combinação linear de coeficientes e preditores:

logit=b0 0+b1 1x1 1+b2x2+

Imagine que recebemos um modelo para saber se uma pessoa tem cabelos grisalhos. Nosso modelo usa a idade como o único preditor. Aqui, nosso evento A = uma pessoa tem cabelos grisalhos:

probabilidades de log de cabelos grisalhos = -10 + 0,25 * idade

...Regressão! Aqui estão alguns códigos Python e um gráfico:

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

x = np.linspace(0, 100, 100)

def log_odds(x):
    return -10 + .25 * x

plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")

gráfico das probabilidades de log para o nosso exemplo de brinquedo

Agora, vamos torná-lo um classificador. Primeiro, precisamos transformar as probabilidades do log para extrair nossa probabilidade . Podemos usar a função sigmoide:P(UMA)

P(UMA)=1 11 1+exp(-probabilidades de log))

Aqui está o código:

plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")

gráfico da probabilidade de cabelos grisalhos para o nosso exemplo de brinquedo

A última coisa que precisamos para fazer deste um classificador é adicionar uma regra de decisão. Uma regra muito comum é classificar um sucesso sempre que . Adotaremos essa regra, o que implica que nosso classificador preverá cabelos grisalhos sempre que uma pessoa tiver mais de 40 anos e preverá cabelos não grisalhos sempre que uma pessoa tiver menos de 40 anos.P(UMA)>0,5

A regressão logística também funciona bem como classificador em exemplos mais realistas, mas antes que possa ser um classificador, deve ser uma técnica de regressão!

Ben
fonte
Embora na prática as pessoas usem regressão logística como sinônimo de regressão logística + classificador binário.
jinawee
10

Resposta curta

Sim, a regressão logística é um algoritmo de regressão e prevê um resultado contínuo: a probabilidade de um evento. O fato de usá-lo como classificador binário se deve à interpretação do resultado.

Detalhe

A regressão logística é um tipo de modelo de regressão linear generalizado.

Em um modelo de regressão linear comum, um resultado contínuo y, é modelado como a soma do produto dos preditores e seu efeito:

y = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

onde eestá o erro

Modelos lineares generalizados não modelam ydiretamente. Em vez disso, eles usam transformações para expandir o domínio de ytodos os números reais. Essa transformação é chamada de função de link. Para regressão logística, a função de link é a função de logit (geralmente, veja a nota abaixo).

A função logit é definida como

ln(y/(1 + y))

Assim, a forma de regressão logística é:

ln(y/(1 + y)) = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

Onde yestá a probabilidade de um evento.

O fato de usá-lo como classificador binário se deve à interpretação do resultado.

Nota: probit é outra função de link usada para regressão logística, mas o logit é o mais amplamente usado.

Christopher Louden
fonte
1

Enquanto você discute, a definição de regressão está prevendo uma variável contínua. A regressão logística é um classificador binário. A regressão logística é a aplicação de uma função logit na saída de uma abordagem de regressão usual. A função Logit muda (-inf, + inf) para [0,1]. Eu acho que é apenas por razões históricas que mantém esse nome.

Dizendo algo como "Fiz alguma regressão para classificar imagens. Em particular, usei regressão logística". está errado.

iliasfl
fonte
2
A regressão logística pode ser usada como um classificador binário, mas não é inerentemente um. Você pode usá-lo para estimar probabilidades ou determinar a relação de uma variável preditora com o resultado.
MattBagg
0

ff:XRP(Y=1 1|λ,x)=1 11 1+e-λTx[0 0,1 1]λxsEugn(P(Y=1 1|λ,x))

Sr. Sigma.
fonte