Saída de regressão linear como probabilidades
É tentador usar a saída de regressão linear como probabilidades, mas é um erro, porque a saída pode ser negativa e maior que 1, enquanto a probabilidade não pode. Como a regressão pode realmente produzir probabilidades que podem ser menores que 0, ou até maiores que 1, a regressão logística foi introduzida.
Fonte: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
Resultado
Na regressão linear, o resultado (variável dependente) é contínuo. Pode ter qualquer um de um número infinito de valores possíveis.
Na regressão logística, o resultado (variável dependente) possui apenas um número limitado de valores possíveis.
A variável dependente
A regressão logística é usada quando a variável de resposta é de natureza categórica. Por exemplo, sim / não, verdadeiro / falso, vermelho / verde / azul, 1º / 2º / 3º / 4º, etc.
A regressão linear é usada quando sua variável de resposta é contínua. Por exemplo, peso, altura, número de horas, etc.
Equação
A regressão linear fornece uma equação que tem a forma Y = mX + C, significa equação com grau 1.
No entanto, a regressão logística fornece uma equação que tem a forma Y = e X + e -X
Interpretação coeficiente
Na regressão linear, a interpretação do coeficiente de variáveis independentes é bastante direta (ou seja, mantendo todas as outras variáveis constantes, com um aumento unitário nessa variável, espera-se que a variável dependente aumente / diminua em xxx).
No entanto, na regressão logística, depende da família (binomial, Poisson, etc.) e do link (log, logit, log inverso etc.) que você usa, a interpretação é diferente.
Técnica de minimização de erros
A regressão linear usa o método dos mínimos quadrados ordinários para minimizar os erros e obter o melhor ajuste possível, enquanto a regressão logística usa o método da máxima probabilidade para chegar à solução.
A regressão linear é geralmente resolvida minimizando o erro dos mínimos quadrados do modelo para os dados; portanto, grandes erros são penalizados quadraticamente.
A regressão logística é exatamente o oposto. O uso da função de perda logística faz com que grandes erros sejam penalizados com uma constante assintoticamente.
Considere regressão linear em resultados categóricos {0, 1} para ver por que isso é um problema. Se o seu modelo prevê que o resultado é 38, quando a verdade é 1, você não perdeu nada. A regressão linear tentaria reduzir esses 38, a logística não (tanto) 2 .
Na regressão linear, o resultado (variável dependente) é contínuo. Pode ter qualquer um de um número infinito de valores possíveis. Na regressão logística, o resultado (variável dependente) possui apenas um número limitado de valores possíveis.
Por exemplo, se X contiver a área em pés quadrados de casas e Y contiver o preço de venda correspondente dessas casas, você poderá usar a regressão linear para prever o preço de venda em função do tamanho da casa. Enquanto o preço de venda possível não pode realmente ser qualquer , há tantos valores possíveis que um modelo de regressão linear seriam escolhidos.
Se, em vez disso, você desejasse prever, com base no tamanho, se uma casa seria vendida por mais de US $ 200 mil, você usaria a regressão logística. As saídas possíveis são Sim, a casa será vendida por mais de US $ 200 mil ou Não, a casa não será.
fonte
Apenas para adicionar as respostas anteriores.
Regressão linear
Destina-se a resolver o problema de prever / estimar o valor de saída para um determinado elemento X (digamos f (x)). O resultado da previsão é uma função contínua em que os valores podem ser positivos ou negativos. Nesse caso, você normalmente tem um conjunto de dados de entrada com muitos exemplos e o valor de saída para cada um deles. O objetivo é poder ajustar um modelo a esse conjunto de dados para poder prever essa saída para novos elementos diferentes / nunca vistos. A seguir, é apresentado o exemplo clássico de ajuste de uma linha a um conjunto de pontos, mas, em geral, a regressão linear pode ser usada para ajustar modelos mais complexos (usando graus polinomiais mais altos):
Resolvendo o problema
A regressão linear pode ser resolvida de duas maneiras diferentes:
Regressão logística
Destina-se a resolver problemas de classificação onde determinado elemento é necessário classificar o mesmo em N categorias. Exemplos típicos recebem, por exemplo, um e-mail para classificá-lo como spam ou não, ou um veículo encontra a qual categoria pertence (carro, caminhão, van, etc.). Isso é basicamente a saída é um conjunto finito de valores discretos.
Resolvendo o problema
Os problemas de regressão logística poderiam ser resolvidos apenas usando a descida do gradiente. A formulação em geral é muito semelhante à regressão linear, a única diferença é o uso de diferentes funções de hipótese. Na regressão linear, a hipótese tem a forma:
onde theta é o modelo que estamos tentando ajustar e [1, x_1, x_2, ..] é o vetor de entrada. Na regressão logística, a função de hipótese é diferente:
Esta função possui uma boa propriedade, basicamente mapeia qualquer valor para o intervalo [0,1] apropriado para lidar com propababilities durante a classificação. Por exemplo, no caso de uma classificação binária, g (X) pode ser interpretado como a probabilidade de pertencer à classe positiva. Nesse caso, normalmente você tem classes diferentes que são separadas por um limite de decisão, basicamente uma curva que decide a separação entre as diferentes classes. A seguir, é apresentado um exemplo de conjunto de dados separado em duas classes.
fonte
Ambos são bastante semelhantes na solução da solução, mas, como já foi dito, um (Regressão Logística) é para prever uma categoria "adequada" (S / N ou 1/0) e o outro (Regressão Linear) é para prever um valor.
Portanto, se você deseja prever se tem câncer S / N (ou uma probabilidade) - use a logística. Se você quiser saber quantos anos você viverá - use a Regressão Linear!
fonte
A diferença básica:
A regressão linear é basicamente um modelo de regressão, o que significa que ele fornecerá uma saída não discreta / contínua de uma função. Portanto, essa abordagem fornece o valor. Por exemplo: dado x o que é f (x)
Por exemplo, dado um conjunto de treinamento de diferentes fatores e o preço de uma propriedade após o treinamento, podemos fornecer os fatores necessários para determinar qual será o preço da propriedade.
A regressão logística é basicamente um algoritmo de classificação binária, o que significa que aqui haverá uma saída com valor discreto para a função. Por exemplo: para um determinado x se f (x)> limiar classifique-o como 1 ou classifique-o como 0.
Por exemplo, dado um conjunto de tamanho de tumor cerebral como dados de treinamento, podemos usar o tamanho como entrada para determinar se é um tumor benino ou maligno. Portanto, aqui a saída é discreta 0 ou 1.
* aqui a função é basicamente a função de hipótese
fonte
Simplificando, a regressão linear é um algoritmo de regressão que supera um possível valor contínuo e infinito; a regressão logística é considerada um algoritmo classificador binário, que gera a 'probabilidade' da entrada pertencente a um rótulo (0 ou 1).
fonte
Regressão significa variável contínua, Linear significa que existe uma relação linear entre y e x. Ex = Você está tentando prever o salário a partir de anos de experiência. Portanto, aqui o salário é variável independente (y) e o ano de experiência é variável dependente (x). y = b0 + b1 * x1 Estamos tentando encontrar o valor ideal das constantes b0 e b1, o que nos fornecerá a melhor linha de ajuste para seus dados de observação. É uma equação de linha que fornece valor contínuo de x = 0 a valor muito grande. Essa linha é chamada de modelo de regressão linear.
A regressão logística é o tipo de técnica de classificação. Não se deixe enganar pela regressão de termos. Aqui, prevemos se y = 0 ou 1.
Aqui primeiro precisamos encontrar p (y = 1) (probabilidade de y = 1) dado x a partir do formulário abaixo.
A probabilidade p está relacionada a y por baixo do formulário
Ex = podemos fazer a classificação do tumor com mais de 50% de chance de ter câncer como 1 e do tumor com menos de 50% de chance de ter câncer como 0.
Aqui, o ponto vermelho será previsto como 0, enquanto o ponto verde será previsto como 1.
fonte
Em resumo: a regressão linear fornece saída contínua. ou seja, qualquer valor entre uma faixa de valores. Regressão logística fornece saída discreta. ie Sim / Não, 0/1 tipo de saídas.
fonte
Não posso concordar mais com os comentários acima. Acima disso, existem mais algumas diferenças, como
Na regressão linear, presume-se que os resíduos sejam normalmente distribuídos. Na regressão logística, os resíduos precisam ser independentes, mas não normalmente distribuídos.
A regressão linear pressupõe que uma mudança constante no valor da variável explicativa resulte em mudança constante na variável de resposta. Essa suposição não se aplica se o valor da variável de resposta representar uma probabilidade (em Regressão logística)
O GLM (modelos lineares generalizados) não assume uma relação linear entre variáveis dependentes e independentes. No entanto, ele assume uma relação linear entre a função de link e variáveis independentes no modelo de logit.
fonte
fonte
Simplificando, se no modelo de regressão linear chegar mais casos de teste que estão muito longe do limite (digamos = 0,5) para uma previsão de y = 1 e y = 0. Então, nesse caso, a hipótese mudará e se tornará pior. Portanto, o modelo de regressão linear não é usado para o problema de classificação.
Outro problema é que, se a classificação é y = 0 ey = 1, h (x) pode ser> 1 ou <0. Portanto, usamos regressão logística onde 0 <= h (x) <= 1.
fonte
A regressão logística é usada na previsão de saídas categóricas como Sim / Não, Baixa / Média / Alta, etc. Você tem basicamente dois tipos de regressão logística Regressão logística binária (Sim / Não, Aprovado / Reprovado) ou Regressão logística multi-classe (Baixa / Média / Alto, dígitos de 0 a 9, etc.)
Por outro lado, a regressão linear é se sua variável dependente (y) for contínua. y = mx + c é uma equação de regressão linear simples (m = inclinação e c é a interceptação em y). A regressão multilinear possui mais de 1 variável independente (x1, x2, x3 ... etc)
fonte
Na regressão linear, o resultado é contínuo, enquanto na regressão logística, o resultado tem apenas um número limitado de valores possíveis (discreto).
exemplo: Em um cenário, o valor fornecido de x é o tamanho de uma plotagem em pés quadrados, prevendo y, ou seja, a taxa da plotagem está sob regressão linear.
Se, em vez disso, você desejasse prever, com base no tamanho, se o gráfico seria vendido por mais de 300000 Rs, você usaria a regressão logística. As saídas possíveis são Sim, o lote será vendido por mais de 300000 Rs ou Não.
fonte
No caso de regressão linear, o resultado é contínuo, enquanto no caso de regressão logística, o resultado é discreto (não contínuo)
Para realizar a regressão linear, é necessária uma relação linear entre as variáveis dependentes e independentes. Mas, para realizar a regressão logística, não exigimos uma relação linear entre as variáveis dependentes e independentes.
A Regressão Linear trata de ajustar uma linha reta nos dados, enquanto a Regressão Logística trata de ajustar uma curva aos dados.
A regressão linear é um algoritmo de regressão para Machine Learning, enquanto a regressão logística é um algoritmo de classificação para aprendizado de máquina.
A regressão linear assume distribuição gaussiana (ou normal) da variável dependente. A regressão logística assume distribuição binomial da variável dependente.
fonte