Aqui está algo que eu li no livro de Ian Goodfellow, Deep Learning .
No contexto de redes neurais ", a penalidade da norma de parâmetro L2 é comumente conhecida como decaimento de peso. Essa estratégia de regularização aproxima os pesos da origem [...]. Em geral, podemos regularizar os parâmetros para estarem próximos de qualquer ponto específico. no espaço ", mas é muito mais comum regularizar os parâmetros do modelo para zero. (Deep Learning, Goodfellow et al.)
Eu só estou curioso. Entendo que simplesmente adicionando um termo de regularização à nossa função de custo e que, ao minimizar esse custo total , podemos influenciar os parâmetros do modelo para permanecer pequeno:
Mas como se implementaria uma versão dessa estratégia de regularização que levaria os parâmetros a qualquer ponto arbitrário? (digamos que queremos que a norma tenda para 5)
DefinaSabemos que , devido à penalidade tem a origem como minimizador.limλ→∞ w λ=0w↦‖w‖ 2 2
A Sycorax ressalta que, da mesma forma,Essa generalização bem-sucedida pode nos levar a propor o estimador onde é uma função cujo minimizador satisfaz alguma propriedade que procuramos. De fato, o Sycorax usa , onde é (exclusivamente) minimizado na origem e, em particular, . Portanto, , conforme desejado. Infelizmente, porém, as duas opções de˜ w λ = arg min w L ( Θ , X , y ) + λ p e n ( w ) , p e n p e n (limλ→∞{argminwL(Θ,X,y)+λ∥w−c∥22}=c.
A análise acima parece ser a melhor solução (talvez até a escolha de , para a qual não tenho uma melhor a sugerir) se insistirmos em como sendo a interpretação exclusiva de "tende a" descrita em a questão. No entanto, assumindo que , existe algum para que o minimizador do problema do OP seja satsifes . Portanto, sem a necessidade de alterar a função objetivo. Se não existir esse , o problema da computaçãog λ→∞ ∥argminwL(Θ,X,y)∥22≥5 Λ w^Λ ∥w^Λ∥22=5
(Forçar que um estimador penalizado atinja um valor da penalidade que não é atingido pelo estimador não-penalizado me parece altamente antinatural. Se alguém tiver conhecimento de algum lugar onde isso é de fato desejado, por favor, comente!)
fonte
Para apropriado , é possível visualizá-lo como probabilidade logarítmica negativa e a regularização apropriada pode ser vista como probabilidade logarítmica negativa para distribuição anterior. Essa abordagem é chamada Máximo A Posteriori (MAP).JL J
Deve ser fácil ver os exemplos do Sycorax à luz do MAP.
Para detalhes do MAP, você pode ver estas notas . Pela minha experiência, pesquisar no Google 'regularização máxima a posteriori' dá bons resultados.
fonte