Como a regressão de Ridge ou Lasso realmente funciona?

7

Pergunta muito básica aqui, mas eu gostaria de entender (não matematicamente) como o fato de adicionar uma "penalidade" (soma do coeficiente ao quadrado. Vezes um escalar) à soma residual do quadrado pode reduzir grandes coeficientes? obrigado !

TmSmth
fonte
3
Para uma intuição gráfica / visual, dê uma olhada neles: stats.stackexchange.com/questions/350046/… , stats.stackexchange.com/questions/351631/…
Xavier Bourret Sicotte

Respostas:

5

Como sua representação "penalizada" do problema de minimização é apenas a forma de intervalo de um problema de otimização de restrição:

Suponha variáveis ​​centralizadas. Em ambos os casos, laço e cordilheira, sua função de destino irrestrita é a soma usual de resíduos quadrados; ou seja, dadopregressores que você minimiza: over all .

RSS(β)=i=1n(yi(xi,1β1++xi,pβp))2.
β=(β1,,βp)

Agora, no caso de uma regressão de cume, você minimiza o modo que por algum valor de . Para valores pequenos de , será impossível derivar a mesma solução que no cenário quadrado mínimo padrão; nesse caso, você apenas minimiza o - Pense em seguida, em somente a solução possível pode ser .RSS(β)

i=1pβp2tridge,
tridge0tridgeRSS(β)tridge=0β1βp=0

Por outro lado, no caso do laço, você minimiza o sob a restrição para algum valor de .RSS(β)

i=1p|βp|tlasso,
tlasso0

Ambos os problemas de otimização restritos podem ser equivalentemente forumlated em termos de um problema de otimização irrestrito, ou seja, para o laço: você pode minimizar de forma equivalente

i=1n(yi(xi,1β1++xi,pβp))2+λlassoi=1p|βp|.
BloXX
fonte
Obrigado, vou ter que me aprofundar na parte "restrito a irrestrito", mas entendi a idéia #
TmSmth