Por que a perda de norma L2 tem uma solução única e a perda de norma L1 tem possivelmente várias soluções?

16

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

Se você olhar para o início deste post, o escritor menciona que a norma L2 tem uma solução única e a norma L1 tem possivelmente muitas soluções. Entendo isso em termos de regularização, mas não em termos do uso da norma L1 ou da norma L2 na função de perda.

Se você olhar para gráficos de funções do escalar x (x ^ 2 e | x |), poderá ver facilmente que ambos têm uma solução única.

user3180
fonte
2
"fnx"? ... Edite para tornar isso mais claro. Você quer dizer "funções"?
Glen_b -Reinstala Monica

Respostas:

25

Vamos considerar um problema unidimensional para a exposição mais simples possível. (Os casos dimensionais mais altos têm propriedades semelhantes.)

Enquanto ambos |xμ|e (xμ)2 cada um tem um mínimo único, i|xiμ|(uma soma das funções de valor absoluto com diferentes compensações x) geralmente não. Considere x1=1 e x2=3 :

Lote de sum_i | x_i - mu |

μ

L1

i(xiμ)2=n(x¯μ)2+k(x)


L1

Como (fora de algumas circunstâncias específicas) você normalmente não tem essa garantia de nenhuma observação altamente influente, eu não consideraria a regressão L1 robusta.


Código R para plotagem:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)
Glen_b -Reinstate Monica
fonte
Isso é ótimo. Qual software você usou para criar o gráfico?
user3180
2
R. Isso é feito apenas nos gráficos básicos. Eu adicionei o código ao final da minha resposta.
Glen_b -Reinstala Monica
1
Woah, nunca percebi que você poderia fornecer uma função para plot. A mente está soprada.
JAD
5

Minimizar a perda de L2 corresponde ao cálculo da média aritmética, que é inequívoca, enquanto minimizar a perda de L1 corresponde ao cálculo da mediana, que é ambígua se um número par de elementos for incluído no cálculo da mediana (consulte Tendência central: soluções para problemas variacionais )

Olá adeus
fonte