Normas Ridge & LASSO

12

Esta publicação segue esta: Por que a estimativa da crista se torna melhor que a OLS adicionando uma constante à diagonal?

Aqui está a minha pergunta:

Até onde eu sei, a regularização de cume usa uma -norm (distância euclidiana). Mas por que usamos o quadrado dessa norma? (uma aplicação direta de resultaria na raiz quadrada da soma do beta ao quadrado).222

Como comparação, não fazemos isso para o LASSO, que usa um -norm para regularizar. Mas aqui está a norma "real" (apenas a soma do quadrado dos valores absolutos beta, e não o quadrado dessa soma).111

Alguém pode me ajudar a esclarecer?

PLOTZ
fonte
2
O termo de penalidade na regressão de crista é a norma L2 ao quadrado. Veja esses slides escritos por Tibshirani como um exemplo (corrediça 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Veja também aqui en.wikipedia.org/wiki/Tikhonov_regularization
Boscovich
Pequeno ponto de esclarecimento, esses são slides de Ryan Tibshirani e não de Rob.
Ellis Valentiner
ok, muito obrigado pelo esclarecimento. Mas não entendo por que ao quadrado para L2 e não ao quadrado para L1. Não temos uma fórmula geral para qualquer tipo de regularização?
PLOTZ
@ user12202013: obrigado por apontar isso. Eu não percebi isso.
Boscovich

Respostas:

9

Ridge e laço são duas maneiras de regularizar e uma regressão. A regressão do laço impõe uma restrição à soma dos coeficientes absolutos:

iβi2=||β||1

A regressão de Ridge impõe uma restrição da soma das diferenças ao quadrado:

iβi2=iβi22=||βi||22

Você sugeriu introduzir ainda outra norma, o comprimento euclidiano dos coeficientes:

iβi2=||βi||2

A diferença entre a regressão de Ridge e o comprimento euclidiano é a quadratura. Isso muda a interpretação da regularização. Enquanto a crista e o comprimento euclidiano se regularizam para zero, a regressão da crista também difere a quantidade de regularização. Coeficientes que estão mais longe de zero puxam mais forte para zero. Isso o torna mais estável em torno de zero, porque a regularização muda gradualmente em torno de zero. Este não é o caso do comprimento euclidiano ou, de fato, da regressão do laço.

Pieter
fonte
7

Atualmente, existem muitas abordagens penalizadas que têm todos os tipos de funções diferentes de penalidade (cume, laço, MCP, SCAD). A questão de por que uma de uma forma específica é basicamente "que vantagens / desvantagens essa penalidade proporciona?".

Propriedades de interesse podem ser:

1) estimadores quase imparciais (observe que todos os estimadores penalizados serão tendenciosos)

2) Escassez (a regressão da cumeeira não produz resultados esparsos, isto é, não reduz os coeficientes até zero)

3) Continuidade (para evitar instabilidade na previsão do modelo)

Estas são apenas algumas propriedades que podem estar interessadas em uma função de penalidade.

É muito mais fácil trabalhar com uma soma em derivações e trabalho teórico: por exemplo e | | beta | | 1 = | β i | . Imagine se tivéssemos ||β||22=|βi|2||β||1=|βi| ou(|βi|)2. Tomar derivativos (que é necessário para mostrar resultados teóricos como consistência, normalidade assintótica etc.) seria uma dor com penalidades como essa.(|βi|2)(|βi|)2

bdeonovic
fonte
ok obrigada Mas por que ao quadrado para L2 e não ao quadrado para L1? Não temos uma fórmula geral para qualquer tipo de regularização? Isso está me confundindo ...
PLOTZ
Adicionei um pouco à minha resposta.
Bdonovic 15/10
Muito obrigado Benjamin! Com certeza está mais claro agora! Eu não entendi esse propósito teórico antes da sua resposta. Muito obrigado pela sua resposta.
PLOTZ
@ Benjamin: no ponto 1 você realmente quis dizer "( nem todos os estimadores penalizados serão imparciais)"? A regressão de Ridge - apenas para citar um - é enviesada.
Boscovich
gritos sim obrigado por pegar isso! Acho que, de fato, todos os estimadores penalizados serão tendenciosos.
Bdeonovic 16/10
5

Na verdade, tanto o quadrado da -norm eo 1 -norm vêm de uma mesma classe de regularização: β p p quando p > 0 .21βppp>0

p=2p=1p

p1p

p1p<1

Tonio Bonnef
fonte
2

l2

yXβ22+λβ22

yXβ22+λβTβ

β

β^ridge=(XTX+λI)1XTy

a partir do qual todo tipo de inferência pode ser derivado.

Tim Atreides
fonte
1

222x||x||2xx||x||22β=02

22

psboonstra
fonte