Como implementar a regularização L2 em direção a um ponto arbitrário no espaço?

11

Aqui está algo que eu li no livro de Ian Goodfellow, Deep Learning .

No contexto de redes neurais ", a penalidade da norma de parâmetro L2 é comumente conhecida como decaimento de peso. Essa estratégia de regularização aproxima os pesos da origem [...]. Em geral, podemos regularizar os parâmetros para estarem próximos de qualquer ponto específico. no espaço ", mas é muito mais comum regularizar os parâmetros do modelo para zero. (Deep Learning, Goodfellow et al.)

Eu só estou curioso. Entendo que simplesmente adicionando um termo de regularização à nossa função de custo e que, ao minimizar esse custo total , podemos influenciar os parâmetros do modelo para permanecer pequeno:J

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Mas como se implementaria uma versão dessa estratégia de regularização que levaria os parâmetros a qualquer ponto arbitrário? (digamos que queremos que a norma tenda para 5)

Julep
fonte

Respostas:

14

Você realmente faz duas perguntas diferentes.

  1. Ter a norma tendendo a 5 implica que você deseja que os pesos fiquem perto da superfície de uma hiperesfera centrada na origem com raio 5. Essa regularização parece algo como

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

Mas você poderia usar algo como , suponho.λabs(||w||225)

  1. Por outro lado, se você deseja tender para um ponto arbitrário, basta usar esse ponto como o centro .c

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22
Sycorax diz restabelecer Monica
fonte
(+1) Eu acho que uma maneira proveitosa para pensar sobre a "norma tende a cinco" poderia ser através da escolha do parâmetro de ajuste na versão de dada pelo OP (em vez de alterar a função)J
user795305
(. Eu escrevi uma resposta curta para esclarecer o que quero dizer com acima Obrigado, por sinal, para clarificar a distinção das duas perguntas!)
user795305
um objetivo comum (prático) ao fazer que é regularizar em direção a algum ponto de operação conhecido, por exemplo, o modelo anterior que pretende substituir, mas para o qual você gostaria de um "suavizar" transição
oDDsKooL
6

DefinaSabemos que , devido à penalidade tem a origem como minimizador.limλ w λ=0ww 2 2

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

A Sycorax ressalta que, da mesma forma,Essa generalização bem-sucedida pode nos levar a propor o estimador onde é uma função cujo minimizador satisfaz alguma propriedade que procuramos. De fato, o Sycorax usa , onde é (exclusivamente) minimizado na origem e, em particular, . Portanto, , conforme desejado. Infelizmente, porém, as duas opções de˜ w λ = arg min w L ( Θ , X , y ) + λ p e n ( w ) , p e n p e n (limλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
peng g { | | ,pen(w)=g(w225)glim λ ˜ w λ 2 2 = 5 gg{||,()2}limλw~λ22=5glevar a penalidades não-convexas, dificultando o cálculo do estimador.

A análise acima parece ser a melhor solução (talvez até a escolha de , para a qual não tenho uma melhor a sugerir) se insistirmos em como sendo a interpretação exclusiva de "tende a" descrita em a questão. No entanto, assumindo que , existe algum para que o minimizador do problema do OP seja satsifes . Portanto, sem a necessidade de alterar a função objetivo. Se não existir esse , o problema da computaçãogλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λw λw λ 2 2argminw:w22=5L(Θ,X,y) é intrinsecamente difícil. De fato, não há necessidade de considerar nenhum estimador além de ao tentar incentivar as propriedades naturais de .w^λw^λ22

(Forçar que um estimador penalizado atinja um valor da penalidade que não é atingido pelo estimador não-penalizado me parece altamente antinatural. Se alguém tiver conhecimento de algum lugar onde isso é de fato desejado, por favor, comente!)

user795305
fonte
1
Esta é uma excelente adição. +1
Sycorax diz Reinstate Monica
2

Para apropriado , é possível visualizá-lo como probabilidade logarítmica negativa e a regularização apropriada pode ser vista como probabilidade logarítmica negativa para distribuição anterior. Essa abordagem é chamada Máximo A Posteriori (MAP).JLJ

Deve ser fácil ver os exemplos do Sycorax à luz do MAP.

Para detalhes do MAP, você pode ver estas notas . Pela minha experiência, pesquisar no Google 'regularização máxima a posteriori' dá bons resultados.

Jakub Bartczuk
fonte