Por que o Lasso fornece seleção variável?

Eu tenho lido Elements of Statistical Learning e gostaria de saber por que o Lasso fornece seleção de variáveis e regressão de crista não.

Ambos os métodos minimizam a soma residual dos quadrados e têm uma restrição nos possíveis valores dos parâmetros . Para o Lasso, a restrição é , enquanto no cume é , para alguns . $\beta$ $||\beta||_1 \le t$ $||\beta||_2 \le t$ $t$

Eu vi a figura do diamante versus elipse no livro e tenho alguma intuição sobre o motivo pelo qual o Lasso pode atingir os cantos da região restrita, o que implica que um dos coeficientes está definido como zero. No entanto, minha intuição é bastante fraca e não estou convencida. Deve ser fácil de ver, mas não sei por que isso é verdade.

Então, acho que estou procurando uma justificativa matemática ou uma explicação intuitiva do motivo pelo qual os contornos da soma residual dos quadrados provavelmente atingem os cantos da região restrita (embora essa situação seja improvável se a restrição é ). $||\beta||_1$ $||\beta||_2$

regression feature-selection lasso regularization Zhi Zhao
fonte

Todas as respostas abaixo são boas explicações. Mas eu publiquei um artigo com representação visual. A seguir está o link medium.com/@vamsi149/…

solver149

Respostas:

Vamos considerar um modelo muito simples: , com uma penalidade de L1 em e uma função de perda de mínimos quadrados em . Podemos expandir a expressão para ser minimizada como: $y = \beta x + e$ $\hat{\beta}$ $\hat{e}$

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

Vamos supor que a solução dos mínimos quadrados seja algum , o que equivale a assumir que , e ver o que acontece quando adicionamos a penalidade de L1. Com , , portanto, o termo da penalidade é igual a . A derivada da função objetivo wrt é: $\hat{\beta} > 0$ $y^Tx > 0$ $\hat{\beta}>0$ $|\hat{\beta}| = \hat{\beta}$ $2\lambda\beta$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

que evidentemente tem solução . $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$

Obviamente, aumentando , podemos levar a zero (em ). No entanto, uma vez que , aumentar não o levará a negativo, porque, escrevendo livremente, o instante se torna negativo, a derivada da função objetivo muda para: $\lambda$ $\hat{\beta}$ $\lambda = y^Tx$ $\hat{\beta} = 0$ $\lambda$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

onde a inversão do sinal de é devida à natureza do valor absoluto do termo da penalidade; quando se torna negativo, o termo da penalidade se torna igual a e a derivada wrt resulta em . Isso leva à solução , que é obviamente inconsistente com (dado que a solução de mínimos quadrados , o que implica e $\lambda$ $\beta$ $-2\lambda\beta$ $\beta$ $-2\lambda$ $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ $\hat{\beta} < 0$ $> 0$ $y^Tx > 0$ $\lambda > 0$ ) Há um aumento na penalidade L1 E um aumento no termo do erro ao quadrado (à medida que estamos nos afastando da solução dos mínimos quadrados) ao mover de para ; portanto, não fazemos, apenas fique em . $\hat{\beta}$ $0$ $< 0$ $\hat{\beta}=0$

Deve ficar intuitivamente claro que a mesma lógica se aplica, com alterações de sinal apropriadas, para uma solução de mínimos quadrados com . $\hat{\beta} < 0$

Com a penalidade de mínimos quadrados , no entanto, a derivada se torna: $\lambda\hat{\beta}^2$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

que evidentemente tem solução . Obviamente, nenhum aumento em levará isso a zero. Portanto, a penalidade de L2 não pode atuar como uma ferramenta de seleção variável sem alguns ad-hockery moderados, como "defina a estimativa de parâmetro igual a zero se for menor que ". $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ $\lambda$ $\epsilon$

Obviamente, as coisas podem mudar quando você muda para modelos multivariados, por exemplo, mover uma estimativa de parâmetro pode forçar outra a mudar o sinal, mas o princípio geral é o mesmo: a função de penalidade L2 não pode levá-lo a zero, porque, escrevendo muito heuristicamente, na verdade, ele adiciona ao "denominador" da expressão para , mas a função de penalidade L1 pode, porque na verdade adiciona ao "numerador". $\hat{\beta}$

jbowman
fonte

O Lasso também fornece seleção de recursos no caso de modelos não lineares, por exemplo, NN?

Ilya

Uma pequena pergunta de acompanhamento: como pode ser se é um vetor e é um escalar que podemos variar para encontrar o ajuste?

λ = y^{T} x

$\lambda = y^Tx$

y^{T} x

$y^Tx$

λ

$\lambda$

Jekaterina Kokatjuhha

Eu estava usando um exemplo univariado, então é um escalar. Se você estiver solucionando um problema multivariado, será multiplicado por um vetor de comprimento = o tamanho de ou a matriz de identidade de tamanho apropriado, dependendo do problema que estiver sendo resolvido. Você pode resolver isso observando, por exemplo, que a norma L2 de = e fazendo substituições nas fórmulas acima.

y^{T} x

$y^Tx$

λ

$\lambda$

β

$\beta$

z

$z$

z^{T} I z

$z^T\text{I}z$

jbowman

Seria possível mostrar (matematicamente?) Como o sinal do lambda muda devido à natureza absoluta da função de penalidade, pois sou incapaz de seguir esse trecho da lógica.

user1420372

@ user1420372 - já fizeram; Diz-me o que pensas.

jbowman

Suponha que tenhamos um conjunto de dados com y = 1 ex = [1/10 1/10] (um ponto de dados, dois recursos). Uma solução é escolher um dos recursos, outro recurso é ponderar os dois. Ou seja, podemos escolher w = [5 5] ou w = [10 0].

Observe que, para a norma L1, ambos têm a mesma penalidade, mas o peso mais espalhado tem uma penalidade menor para a norma L2.

blarg
fonte

Eu acho que já existem excelentes respostas, mas apenas para acrescentar alguma intuição sobre a interpretação geométrica:

"O laço executa contração , de modo que há" cantos "na restrição, que em duas dimensões corresponde a um diamante. Se a soma dos quadrados" bate "em um desses cantos, o coeficiente correspondente ao eixo é reduzido para zero. $L1$

À medida que aumenta, o diamante multidimensional tem um número crescente de cantos e, portanto, é altamente provável que alguns coeficientes sejam definidos como zero. Portanto, o laço executa retração e (efetivamente) seleção de subconjuntos. $p$

Ao contrário da seleção de subconjuntos, o cume realiza um limiar suave: conforme o parâmetro de suavização varia, o caminho da amostra das estimativas se move continuamente para zero. "

Fonte: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

O efeito pode ser bem visualizado onde as linhas coloridas são os caminhos dos coeficientes de regressão que encolhem em direção a zero.

"A regressão de Ridge reduz todos os coeficientes de regressão para zero; o laço tende a fornecer um conjunto de coeficientes de regressão zero e leva a uma solução esparsa".

Fonte: https://onlinecourses.science.psu.edu/stat857/node/158

vonjd
fonte