Por que usar a regularização L1 sobre L2?

10

Conduzindo um modelo de regressão linear usando uma função de perda, por que devo usar vez da regularização ?eu1 1eu2

É melhor prevenir o sobreajuste? É determinístico (sempre uma solução única)? É melhor na seleção de recursos (porque produz modelos escassos)? Dispersa os pesos entre os recursos?

astudentofmaths
fonte
2
L2 não faz seleção de variáveis, então L1 é definitivamente melhor nisso.
Michael M

Respostas:

5

Basicamente, adicionamos um termo de regularização para impedir que os coeficientes se ajustem tão perfeitamente ao excesso de ajuste.

A diferença entre L1 e L2 é L1 é a soma dos pesos e L2 é apenas a soma do quadrado dos pesos.

L1 não pode ser usado em abordagens baseadas em gradiente, pois não é diferenciável ao contrário de L2

L1 ajuda a executar a seleção de recursos em espaços esparsos. A seleção de características é saber quais recursos são úteis e quais são redundantes.

A diferença entre suas propriedades pode ser resumida como:

l1 vs l2

Bathini Pranay kumar
fonte
11
Não é verdade que "L1 não pode ser usado em abordagens baseadas em gradiente". Keras suporta , por exemplo. Sim, a derivada é sempre constante, tornando mais difícil para a descida do gradiente encontrar o mínimo. Mas regularização é um termo pequeno na função de perda, portanto não é muito importante no grande esquema das coisas.
Ricardo Cruz
-1

L2 tem uma vantagem muito importante para L1, que é a invariância à rotação e escala.

Isso é especialmente importante na aplicação geográfica / física.

Digamos que seu técnico instalou acidentalmente seu sensor em anjo de 45 graus, L1 seria afetado, enquanto L2 (distância euclidiana) permaneceria o mesmo.

Chati Denati
fonte
4
Esta não é de todo uma resposta para a pergunta.
Kbrose # 14/17
Você poderia explicar a invariância, por favor?
Aneesh Joshi
@Chati, a questão é sobre regularização. Você o está confundindo com outros usos de 1-norma e 2-norma em funções de perda.
Ricardo Cruz