Eu estava aprendendo auto-aprendizado. Encontrei esta seção da página da Wikipedia sobre regressão logística , onde ela afirma
Como o modelo pode ser expresso como um modelo linear generalizado (veja abaixo), para 0
Parece-me que posso reformular uma configuração de regressão logística em uma configuração de regressão linear. Mas não consigo ver como fazer isso. Eu não entendo o que significa também. Talvez esse seja o truque?
regression
logistic
kirakun
fonte
fonte
Respostas:
A função sigmóide no modelo de regressão logística impede a utilização da estimativa aproximada de parâmetros algébricos como nos mínimos quadrados ordinários (OLS). Em vez disso , métodos analíticos não lineares , como descida por gradiente ou método de Newton, serão usados para minimizar a função de custo do formulário:
Equivalentemente, podemos maximizar a função de probabilidade como:
A frase que você cita, no entanto, faz referência, acredito, à parte relativamente linear da função sigmóide:
O modelo de regressão logística é:
ou,
Portanto, isso é "próximo o suficiente" de um modelo OLS ( ) para ser adequado como tal e para que os parâmetros sejam estimados em forma fechada, desde que a probabilidade de (lembre-se da modelagem de Bernoulli da variável resposta na regressão logística) não é próxima de ou . Em outras palavras, enquanto na Eq. * fica longe das regiões assintóticas.y=Θ⊤X+ϵ y=1 0 1 log(p(Y=1)1−p(Y=1))
Veja, por exemplo, esta entrada interessante no Statistical Horizons , que eu queria testar com o
mtcars
conjunto de dados em R. A variável para transmissão automáticaam
é binária, para que possamos regredi-la em milhas por galãompg
. Podemos prever que um modelo de carro tem transmissão automática com base no consumo de gás?Se eu prosseguir e resolver o problema com as estimativas do OLS, obtenho uma precisão de previsão de apenas com base nesse único preditor. E adivinha? Eu obtenho exatamente a mesma matriz de confusão e taxa de precisão se ajustar uma regressão logística.75%
O fato é que a saída do OLS não é binária, mas sim contínua e, tentando estimar os valores binários reais , eles geralmente estão entre e , muito parecidos com os valores de probabilidade, embora não sejam estritamente limitados como na regressão logística ( função sigmóide).y 0 1
Aqui está o código:
A frequência dos carros automáticos v manuais é bastante equilibrada e o modelo OLS é bom o suficiente como um perceptron:
fonte
Você interpreta mal a declaração que cita. Um modelo linear generalizado (normalmente estimado por máxima verossimilhança) não é um problema de mínimos quadrados *.
Veja a página da wikipedia Modelo linear generalizado, por exemplo.
Entretanto, a probabilidade geralmente é resolvida como uma sequência de aproximações lineares de mínimos quadrados - mínimos quadrados iterativamente ponderados (de maneira semelhante a uma abordagem comum para problemas não lineares de mínimos quadrados).
Portanto, na prática, muitas vezes, uma sequência de problemas de mínimos quadrados ponderados é resolvida para obter as estimativas dos parâmetros. Estes são obtidos iniciando-se com uma estimativa aproximada (existem algumas maneiras padrão de obtê-las) e construindo valores e pesos de resposta de trabalho para uma aproximação linear ao modelo que é ajustado por mínimos quadrados ponderados, produzindo novas estimativas que, por sua vez, são usadas atualizar os valores e pesos da resposta de trabalho; este ciclo sendo repetido várias vezes.
Não é a única maneira de ajustar esses modelos, mas uma usada por vários pacotes de estatísticas.
* (NB não confundir com um modelo linear geral do qual a estimativa possa ser convertida como uma forma de mínimos quadrados, nem com mínimos quadrados generalizados)
fonte