Qual é a diferença entre regressão linear e regressão logística?

122

Qual é a diferença entre regressão linear e regressão logística?

Quando você usaria cada um?

B Seven
fonte
28
No modelo de regressão linear, a variável dependente é considerada contínua, enquanto na regressão logística é categórica, ou seja, discreta. Na aplicação, o primeiro é usado em configurações de regressão, enquanto o último é usado para classificação binária ou multi-classe (onde é chamado de regressão logística multinomial). y
Pardis
Embora escrito em um contexto diferente, pode ajudar você a ler minha resposta aqui: Diferença entre os modelos logit e probit , que contém muitas informações sobre o que está acontecendo na regressão logística que pode ajudá-lo a entendê-las melhor.
gung
2
Todas as respostas anteriores estão corretas, mas há razões pelas quais você pode favorecer um modelo de regressão linear, mesmo quando o resultado é uma dicotomia. Eu escrevi sobre estas razões aqui: statisticalhorizons.com/linear-vs-logistic
Paul von Hippel

Respostas:

111

A regressão linear usa a equação linear geral que é uma variável dependente contínua e variáveis ​​independentes são geralmente contínuas (mas também podem ser binárias, por exemplo, quando o modelo linear é usado em t- teste) ou outros domínios discretos. é um termo para a variação que não é explicada pelo modelo e geralmente é chamada apenas de "erro". Os valores dependentes individuais indicados por podem ser resolvidos modificando um pouco a equação:Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

A regressão logística é outro procedimento do modelo linear generalizado (GLM) usando a mesma fórmula básica, mas, em vez do contínuo , está regredindo para a probabilidade de um resultado categórico. Na forma mais simples, isso significa que estamos considerando apenas uma variável de resultado e dois estados dessa variável - 0 ou 1.Y

A equação para a probabilidade de é semelhante a esta: Y=1

P(Y=1)=11+e(b0+(biXi))

Suas variáveis ​​independentes podem ser contínuas ou binárias. Os coeficientes de regressão podem ser exponenciados para fornecer a alteração nas chances de por alteração em , ou seja, e . é chamado de odds ratio, . Em inglês, você pode dizer que as probabilidades de aumentam por um fator de por unidade de mudança em .XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOddsOdds(Xi+1)Odds(Xi)Y=1ebiXi

Exemplo: se você quiser ver como o índice de massa corporal prevê o colesterol no sangue (uma medida contínua), use a regressão linear conforme descrito na parte superior da minha resposta. Se você quiser ver como o IMC prevê as chances de ser diabético (um diagnóstico binário), use a regressão logística.

DocBuckets
fonte
1
Parece uma boa resposta, mas você poderia explicar o que o representa e - em particular - por que incluí-lo nas somatórias? (O que está sendo resumido, afinal?)ϵi
whuber
Parece-me Bill que ele pretendia escrever isto (abreviatura Latina para que é) ao invés de ei
Michael Chernick
1
Mas o εi na soma do expoente não deveria estar lá. Parece que o termo ruído no modelo foi carregado acidentalmente para lá. A única soma deve ser sobre os bis que representam os coeficientes p para as covariáveis.
Michael Chernick 28/05
9
Há um erro na sua expressão para . Você deve ter não A aleatoriedade em um modelo de regressão logística deriva do fato de serem ensaios bernoulli, e não de erros nas probabilidades de sucesso (e é assim que você está escrito). P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}
Macro
3
A regressão logística @samthebrand não é binária em si. Ele pode ser usado para modelar dados com uma resposta binária via probabilidades que variam entre 0 e 1. vai ligar descaradamente meu blog post sobre este que deve limpar a sua confusão.
Ben
34

A regressão linear é usada para estabelecer um relacionamento entre variáveis ​​dependentes e independentes, o que é útil na estimativa da variável dependente resultante no caso de mudança de variável independente. Por exemplo:

Usando uma regressão linear, a relação entre Rain (R) e Umbrella Sales (U) é encontrada - U = 2R + 5000

Esta equação diz que para cada 1mm de chuva, há uma demanda por 5002 guarda-chuvas. Portanto, usando a Regressão Simples, você pode estimar o valor da sua variável.

A regressão logística, por outro lado, é usada para determinar a probabilidade de um evento. E este evento é capturado em formato binário, ou seja, 0 ou 1.

Exemplo - quero verificar se um cliente comprará meu produto ou não. Para isso, eu executaria uma regressão logística nos dados (relevantes) e minha variável dependente seria uma variável binária (1 = Sim; 0 = Não).

Em termos de representação gráfica, a regressão linear fornece uma linha linear como saída, uma vez que os valores são plotados no gráfico. Considerando que, a regressão logística fornece uma linha em forma de S

Referência de Mohit Khurana.

Vijay Ram
fonte
8
Re: "A regressão linear é usada para estabelecer uma relação entre variáveis ​​dependentes e independentes" - isso também é verdade sobre a regressão logística - é apenas que a variável dependente é binária.
Macro
3
A regressão logística não é apenas para prever um evento binário ( classes). Ele pode ser generalizada para classes (regressão logística multinominal)2k
tgy
27

As diferenças foram resolvidas pela DocBuckets e Pardis, mas quero acrescentar uma maneira de comparar o desempenho não mencionado.

A regressão linear é geralmente resolvida minimizando o erro dos mínimos quadrados do modelo para os dados; portanto, grandes erros são penalizados quadraticamente. A regressão logística é exatamente o oposto. O uso da função de perda logística faz com que grandes erros sejam penalizados com uma constante assintoticamente.

Considere regressão linear em resultados categóricos {0,1} para ver por que isso é um problema. Se o seu modelo prevê que o resultado é 38 quando a verdade é 1, você não perdeu nada. A regressão linear tentaria reduzir esses 38, a logística não (o mesmo).

J. Abrahamson
fonte
Eram então as situações / casos que são penalizados em uma logística, ou seja, em que casos teríamos um ajuste inadequado ?
MSIS
1
Exatamente o oposto: sempre que desvios maiores do ajuste realmente produzem resultados piores. Por exemplo, a regressão logística é boa para mantê-lo batendo em um dardo, mas não pode fazer com que um alvo seja bonito. Ou, da mesma forma, pensa que quase faltar ao quadro é o mesmo que deixar o seu próximo.
J. Abrahamson
Ótima resposta. Foi realizada alguma pesquisa quanto prejudica o desempenho do modelo? Quero dizer, se uma regressão linear foi usada para prever a resposta = {0,1} em vez de uma regressão logística.
Tagar