Intuição por trás da regressão logística

Recentemente, comecei a estudar aprendizado de máquina, mas não compreendi a intuição por trás da regressão logística .

A seguir, são apresentados os fatos sobre a regressão logística.

Como base para a hipótese, usamos a função sigmóide . Entendo por que é uma escolha correta, mas por que é a única opção que não entendo. A hipótese representa a probabilidade de que a saída apropriada seja ; portanto, o domínio de nossa função deve ser ; essa é a única propriedade da função sigmóide que eu achei útil e apropriada aqui, embora muitas funções satisfaçam essa propriedade. Além disso, a função sigmóide possui uma derivada nesta forma , mas não vejo a utilidade dessa forma especial na regressão logística. $1$ $[0,1]$ $f(x)(1-f(x))$

Pergunta : o que há de tão especial na função sigmóide e por que não podemos usar nenhuma outra função com domínio ? $[0,1]$
A função de custo consiste em dois parâmetros se se . Na mesma situação acima, eu entendo por que está correto, no entanto, por que é a única forma? Por exemplo, por que não foi possívelser uma boa escolha para a função de custo? ${\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))$ $y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))$ $y=0$ $|h_{\theta(x)}-y|$

Pergunta : o que há de tão especial na forma de função de custo acima; por que não podemos usar outro formulário?

Eu gostaria que você pudesse compartilhar seu entendimento sobre regressão logística.

regression machine-learning logistic user16168
fonte

A função logit / logistic não é a única função que pode ser usada como uma função de link para modelos de regressão quando a resposta é distribuída como um binomial. Em relação a esse ponto, pode ser útil ler minha resposta aqui: diferença entre modelos de logit e probit .

gung - Restabelece Monica

Minha resposta aqui: é a função logit sempre a melhor para modelagem de regressão de dados binários , também pode ser útil para pensar em diferentes possibilidades.

gung - Restabelece Monica

O @AdamO fornece uma excelente visão geral abaixo. Se você quiser informações mais detalhadas sobre o que significa que o logit é a 'função de link canônico', leia a resposta de Momo aqui: diferença entre função de link e função de link canônico para glm .

gung - Restabelece Monica

Um exemplo ilustrado trabalhado de (1) onde um "sigmoide" não é usado aparece em stats.stackexchange.com/a/70922 . Essa resposta inclui uma explicação de (2). Outro exemplo aparece em stats.stackexchange.com/questions/63978/… . Uma discussão mais mundana (mas menos técnica) ocorre em stats.stackexchange.com/a/69873 , com foco no problema (2).

whuber

Respostas:

O modelo de regressão logística é de máxima probabilidade usando o parâmetro natural (a razão de chances de log) para contrastar as mudanças relativas no risco do resultado por diferença de unidade no preditor. Isso pressupõe, é claro, um modelo de probabilidade binomial para o resultado. Isso significa que as propriedades de consistência e robustez da regressão logística se estendem diretamente da máxima probabilidade: robusta a ausente em dados aleatórios, consistência raiz-n e existência e exclusividade de soluções para estimativa de equações. Isso pressupõe que as soluções não estejam nos limites do espaço de parâmetro (onde as probabilidades de log são ). Como a regressão logística é de probabilidade máxima, a função de perda está relacionada à probabilidade, pois são problemas de otimização equivalentes. $\pm \infty$

Com quase-probabilidade de probabilidade ou equações de estimativa (inferência semiparamétrica), a existência, as propriedades de exclusividade ainda se mantêm, mas a suposição de que o modelo médio mantém não é relevante e a inferência e os erros padrão são consistentes, independentemente da especificação incorreta do modelo. Portanto, neste caso, não é uma questão de saber se a sigmóide é a função correta, mas uma que nos dá uma tendência em que podemos acreditar e é parametrizada por parâmetros que têm uma interpretação extensível.

O sigmóide, no entanto, não é a única função de modelagem binária existente. A função probit mais comumente contrastada possui propriedades semelhantes. Ele não estima razões de log-odds, mas funcionalmente elas parecem muito semelhantes e tendem a fornecer aproximações muito semelhantes à mesma coisa . Também não é necessário usar propriedades de limite na função do modelo médio. O simples uso de uma curva de log com uma função de variação binomial fornece regressão de risco relativo; um link de identidade com variação binomial fornece modelos de risco aditivos. Tudo isso é determinado pelo usuário. Infelizmente, a popularidade da regressão logística é o motivo pelo qual é tão comumente usada. No entanto, tenho minhas razões (as que afirmei) por que acho que é bem justificado por ser usado na maioria das circunstâncias de modelagem de resultados binários.

No mundo da inferência, para resultados raros, o odds ratio pode ser interpretado aproximadamente como um "risco relativo", isto é, uma "mudança relativa percentual no risco de resultado comparando X + 1 a X". Isso nem sempre é o caso e, em geral, um odds ratio não pode e não deve ser interpretado como tal. No entanto, esses parâmetros têm interpretação e podem ser facilmente comunicados a outros pesquisadores é um ponto importante, algo que infelizmente está faltando nos materiais didáticos dos aprendizes de máquina.

O modelo de regressão logística também fornece os fundamentos conceituais para abordagens mais sofisticadas, como modelagem hierárquica, bem como modelagem mista e abordagens de probabilidade condicional que são consistentes e robustas ao número exponencial de parâmetros de incômodo. GLMMs e regressão logística condicional são conceitos muito importantes em estatística de alta dimensão.

AdamO
fonte

Muito obrigado pela sua resposta! Parece que tenho uma enorme falta de experiência.

user16168

Penso que o livro Generalized Linear Models de McCullough e Nelder seria um excelente recurso para uma perspectiva mais estatística.

AdamO 29/09

Em geral, que manual você recomenda no aprendizado de máquina com conteúdo descritivo muito detalhado?

user16168

Elementos de aprendizagem estatística de Hastie, Tibshirani, Friedman.

AdamO 30/09

@ user48956 Análise estatística com dados perdidos, Little & Rubin 2ª ed. Dados ausentes não são "representados" per se, mas "manipulados" por omissão. Isso não é específico da regressão logística: é a abordagem ingênua usada por todos os modelos estatísticos. Quando os dados são formatados em uma matriz retangular, as linhas com valores ausentes são omitidas. Isso é conhecido como uma análise de caso completa. GLMs e GLMMS são robustos para a falta de dados, no sentido de que análises completas de casos geralmente são imparciais e não muito ineficientes.

21416 AdamOu em 06/07

$Y$ $X$ $Y$ $Y$ $X$ $Y_i=X_i\beta+\epsilon_i$

$Y^*$ $Y$ $Y^*$

\begin{aligned} Y_{Eu}^{*} & = X_{Eu} β + ϵ_{Eu} \\ Y_{Eu} & = 0 0 E se Y_{Eu}^{*} < 0 0 \\ Y_{Eu} & = 1 1 E se Y_{Eu}^{*} > 0 0 \end{aligned}

$\begin{align} Y^*_i &= X_i \beta + \epsilon_i\\ &\\ Y_i &= 0 \;\textrm{if}\; Y_i^*<0\\ Y_i &= 1 \; \textrm{if} \; Y_i^*>0 \end{align}$

X

$X$

$Y^*$ $X$ $Y$ $Y^*$

$\beta$ $\epsilon$ $F$ $P\{Y_i=1\}=F(X_i\beta)$

$P\{Y_i=1\}=1-F(-X_i\beta)$

$\epsilon$ $F$

$F$

Conta
fonte

O que você descreveu é exatamente a motivação para o modelo probit, não a regressão logística.

Adamo

ϵ_{i}

$\epsilon_i$

Parece uma suposição muito sensível e difícil de testar. Penso que a regressão logística pode ser motivada quando essas distribuições de erros não se mantêm.

AdamO 27/09

@AdamO, por mais que você motive a regressão logística, ainda é matematicamente equivalente a um modelo de regressão linear com limiar em que os erros têm uma distribuição logística. Concordo que essa suposição pode ser difícil de testar, mas existe, independentemente de como você motiva o problema. Lembro-me de uma resposta anterior no CV (não posso colocá-lo agora) que mostrou com um estudo de simulação que tentar dizer se um modelo logístico ou probit "se encaixava melhor" era basicamente uma troca de moeda, independentemente do verdadeiro modelo de geração de dados . Eu suspeito que a logística é mais popular por causa da interpretação conveniente.

Macro

P (Y_{i} = 1) = \frac{e x p (X_{i} β)}{1 + e x p (X_{i} β)}

$P(Y_i=1)=\frac{exp(X_i\beta)}{1+exp(X_i\beta)}$