Como treino uma regressão (logística?) Em R usando a função de perda L1?

Eu posso treinar uma regressão logística Rusando

glm(y ~ x, family=binomial(logit)))

mas, IIUC, isso otimiza a probabilidade do log.

Existe uma maneira de treinar o modelo usando a função de perda linear ( ) (que neste caso é igual à distância total da variação )? $L_1$

Ou seja, dado um vetor numérico e um vetor bit (lógico) , quero construir uma função monotônica (de fato, crescente) modo que é minimizado. $x$ $y$ $f$ $\sum |f(x)-y|$

Veja também

Como treino uma regressão logística em R usando a função de perda L1?

logistic sds
fonte

O que você deseja não existe e, para ser franco, não faz muito sentido. Podemos discutir alternativas, mas você precisa declarar mais detalhadamente o que está tentando fazer. Por que você deseja ajustar um modelo logístico com uma perda de L1?

User603 22/05

@ user603: Porque eu quero avaliar o meu modelo usando TVD

sds

Você parece estar falando sobre ajustar uma curva logística aos dados, em vez de ajustar dados distribuídos binomialmente - isto é, uma forma de regressão não linear , mas usando

em vez da norma

. De fato, a função de perda

sugere que o máximo não é

(se for esse o caso, faz referência ao binômio GLM enganoso). Por outro lado, se realmente estiver restrito a 0-1, a função de perda não faz sentido. Você pode dar detalhes da sua situação atual, por favor?

L_{1}

$L_1$

L_{2}

$L_2$

\sum | f (x) - y |

$\sum |f(x)-y|$

1

$1$

Glen_b

Observe que a ajuda solicita que você não publique a mesma pergunta em vários sites, mas escolha um único site. Se, posteriormente, você mudar de idéia sobre qual site é melhor, sinalize-o para atenção do moderador e peça que seja movido.

Glen_b -Reinstate Monica

@Glen_b: Eu acho que o "vetor bit (lógico) y" implica resposta 0/1.

Sds

Respostas:

O que você quer fazer não existe porque é, por falta de palavras melhores, matematicamente falho.

Mas primeiro, enfatizarei por que acho que as premissas da sua pergunta são sólidas. Tentarei então explicar por que acho que as conclusões que você tira delas se baseiam em um mal-entendido do modelo logístico e, finalmente, vou sugerir uma abordagem alternativa.

Vou denotar suasobservações (as letras em negrito denotam vetores) que se encontram noespaço dimensional(a primeira entrada de $\{(\pmb x_i,y_i)\}_{i=1}^n$ $n$ $p$ $\pmb x_i$ $p<n$ $y_i\in [0,1]$ $f(\pmb x_i)= f(\pmb x_i'\pmb\beta)$ $\pmb x_i'\pmb\beta$ $n$ $p$

Você está certo de que, se pretende usar o TVD como critério para avaliar o modelo ajustado, é razoável esperar que seu ajuste otimize o mesmo critério entre todos os candidatos possíveis em seus dados. Conseqüentemente

β β^{*} = \underset{β β \in R^{p}}{\arg min} | | y y - f (x x_{i}^{'} β β) | |_{1}

$\pmb\beta^*=\underset{\pmb\beta\in\mathbb{R}^{p}}{\arg\min}\;\;\;\;\;||\pmb y-f(\pmb x_i'\pmb\beta)||_1$

$\epsilon_i=y_i-f(\pmb x_i'\pmb\beta)$ $E(\pmb\epsilon)=0$ $\epsilon_i$ $y_i$ $\pmb x_i$ $\epsilon_i$ $1-f(\pmb x_i'\pmb\beta)$ $y_i=1$ $f(\pmb x_i'\pmb\beta)$ $-f(\pmb x_i'\pmb\beta)$ $y_i=1$ $1-f(\pmb x_i'\pmb\beta)$

Essas considerações em conjunto implicam que:

var (ϵ ϵ) = E (ϵ ϵ^{2}) = (1 - f (x x^{'} β β))^{2} f (x x^{'} β β) + (- f (x x^{'} β β))^{2} (1 - f (x x^{'} β β)) = (1 - f (x x^{'} β β)) f (x x^{'} β β) = E (y y | x x) E (1 - y y | x x)

$\text{var}(\pmb\epsilon)=E(\pmb\epsilon^2)=(1-f(\pmb x'\pmb\beta))^2f(\pmb x'\pmb\beta)+(-f(\pmb x'\pmb\beta))^2(1-f(\pmb x'\pmb\beta))\\ \;\;\;\;\;\;\;\;\;\;\;\;\;=(1-f(\pmb x'\pmb\beta))f(\pmb x'\pmb\beta)=E(\pmb y|\pmb x)E(1-\pmb y|\pmb x)$

$\text{var}(\pmb\epsilon)$ $\pmb x$ $E(y|\pmb x)\approx .5$

$l_1$ $\pmb\beta^*$ $\pmb x$ $E(\pmb y|\pmb x)\approx .5$ $\pmb\beta^*=\pmb\beta:f(\pmb x'\pmb\beta)\approx .5$

Uma solução, como fica claro na exposição acima, é abandonar a exigência de imparcialidade. Uma maneira popular de influenciar o estimador (com alguma interpretação bayesiana anexada) é incluir um termo de encolhimento. Se redimensionarmos a resposta:

y_{i}^{+} = 2 (y_{i} - .5), 1 \leq i \leq n

$y^+_i=2(y_i-.5),1\leq i\leq n$

$f(\pmb x'\pmb\beta)$ $g(\pmb x,[c,\pmb\gamma])=\pmb x'[c,\pmb\gamma]$ $c$ $p-1$ $\pmb\gamma$ $||\pmb\gamma||_2$

[c^{*}, γ γ^{*}] = \underset{[[c, γ γ] \in R^{p}}{\arg min} \sum_{i = 1}^{n} max (0, 1 - y_{i}^{+} x x_{i}^{'} [[c, γ γ]) + \frac{1}{2} | | γ γ | |_{2}

$[c^*,\pmb\gamma^{*}]=\underset{\pmb[c,\pmb\gamma]\in\mathbb{R}^{p}}{\arg\min}\;\;\sum_{i=1}^n\max(0,1-y_i^+\pmb x_i'\pmb[c,\pmb\gamma])+\frac{1}{2}||\pmb\gamma||_2$

$\pmb x'\pmb[c,\gamma]$ $l_1$ $[c^*,\pmb\gamma^*]$ $\pmb\beta^*$ $[c^*,\pmb\gamma^{*}]$

user603
fonte

Eu gostaria de poder dar a você mais de 25 pontos :-)

sds 23/05

@sds; obrigado: foi uma ótima pergunta :) Volto durante o dia e preenche os detalhes, corrija algum erro de digitação.

User603 23/05

Não sei por que você desejaria usar a perda L1 para algo restrito entre 0 e 1. Dependendo do seu objetivo, considere algo como perda de dobradiça, que é semelhante à perda L1 em uma direção e horizontalmente. no outro.

De qualquer forma, o código abaixo deve fazer o que você pediu. Observe que a resposta ideal é basicamente uma função de etapa.

set.seed(1)

# Fake data
x = seq(-1, 1, length = 100)
y = rbinom(100, plogis(x), size = 1) # plogis is the logistic function

# L1 loss
loss = function(y, yhat){
  sum(abs(y - yhat))
}

# Function to estimate loss associated with a given slope & intercept
fn = function(par){
  a = par[1]
  b = par[2]
  loss(y = y, yhat = plogis(a + b * x))
}

# Find the optimal parameters
par = optim(
  par = c(a = 0, b = 0),
  fn = fn
)$par

# Plot the results
plot(y ~ x)
curve(plogis(par[1] + par[2] * x), add = TRUE, n = 1000)

David J. Harris
fonte

Você pode usar o pacote glmnet para ajustar os modelos L1, L2. Não se limita à regressão logística, mas a inclui.

Aqui está a vinheta: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html

Há também um webminar: https://www.youtube.com/watch?v=BU2gjoLPfDc

Liblinear é bom, mas achei o glmnet mais fácil de começar. O Glmnet inclui uma função que faz validação cruzada e seleciona um parâmetro de regularização para você com base em diferentes métricas, como a AUC.

Em relação à teoria, eu lia o artigo tibshiarini sobre o laço (regularização de L1) e o capítulo sobre elementos do aprendizado estatístico. http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

Sobre a perda de log, é apenas para avaliar modelos. Não é uma função de perda para o ajuste do modelo.

marbel
fonte