Regressão logística é regressão, em primeiro lugar. Torna-se um classificador adicionando uma regra de decisão. Vou dar um exemplo que retrocede. Ou seja, em vez de pegar dados e ajustar um modelo, vou começar com o modelo para mostrar como isso é realmente um problema de regressão.
Na regressão logística, estamos modelando as probabilidades de log, ou logit, de que um evento ocorre, que é uma quantidade contínua. Se a probabilidade de o evento UMA ocorrer for P( A ) , as chances são de:
P( A )1 - P( A )
As probabilidades de log, então, são:
registro( P( A )1 - P( A ))
Como na regressão linear, modelamos isso com uma combinação linear de coeficientes e preditores:
logit = b0 0+ b1 1x1 1+ b2x2+ ⋯
Imagine que recebemos um modelo para saber se uma pessoa tem cabelos grisalhos. Nosso modelo usa a idade como o único preditor. Aqui, nosso evento A = uma pessoa tem cabelos grisalhos:
probabilidades de log de cabelos grisalhos = -10 + 0,25 * idade
...Regressão! Aqui estão alguns códigos Python e um gráfico:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
x = np.linspace(0, 100, 100)
def log_odds(x):
return -10 + .25 * x
plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")
Agora, vamos torná-lo um classificador. Primeiro, precisamos transformar as probabilidades do log para extrair nossa probabilidade . Podemos usar a função sigmoide:P( A )
P( A ) = 11 + exp( - probabilidades log ) )
Aqui está o código:
plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")
A última coisa que precisamos para fazer deste um classificador é adicionar uma regra de decisão. Uma regra muito comum é classificar um sucesso sempre que . Adotaremos essa regra, o que implica que nosso classificador preverá cabelos grisalhos sempre que uma pessoa tiver mais de 40 anos e preverá cabelos não grisalhos sempre que uma pessoa tiver menos de 40 anos.P( A ) > 0,5
A regressão logística também funciona bem como classificador em exemplos mais realistas, mas antes que possa ser um classificador, deve ser uma técnica de regressão!
Resposta curta
Sim, a regressão logística é um algoritmo de regressão e prevê um resultado contínuo: a probabilidade de um evento. O fato de usá-lo como classificador binário se deve à interpretação do resultado.
Detalhe
A regressão logística é um tipo de modelo de regressão linear generalizado.
Em um modelo de regressão linear comum, um resultado contínuo
y
, é modelado como a soma do produto dos preditores e seu efeito:onde
e
está o erroModelos lineares generalizados não modelam
y
diretamente. Em vez disso, eles usam transformações para expandir o domínio dey
todos os números reais. Essa transformação é chamada de função de link. Para regressão logística, a função de link é a função de logit (geralmente, veja a nota abaixo).A função logit é definida como
Assim, a forma de regressão logística é:
Onde
y
está a probabilidade de um evento.O fato de usá-lo como classificador binário se deve à interpretação do resultado.
Nota: probit é outra função de link usada para regressão logística, mas o logit é o mais amplamente usado.
fonte
Enquanto você discute, a definição de regressão está prevendo uma variável contínua. A regressão logística é um classificador binário. A regressão logística é a aplicação de uma função logit na saída de uma abordagem de regressão usual. A função Logit muda (-inf, + inf) para [0,1]. Eu acho que é apenas por razões históricas que mantém esse nome.
Dizendo algo como "Fiz alguma regressão para classificar imagens. Em particular, usei regressão logística". está errado.
fonte
fonte