Sempre que a regularização é usada, ela é frequentemente adicionada à função de custo, como na função de custo a seguir. Isso faz um sentido intuitivo para mim, pois minimiza o função de custo significa minimizar o erro (o termo esquerdo) e minimizar as magnitudes dos coeficientes (o termo correto) ao mesmo tempo (ou pelo menos equilibrar as duas minimizações).
Minha pergunta é por que esse termo de regularização adicionado à função de custo original e não multiplicado ou algo mais que mantenha o espírito da motivação por trás da idéia de regularização? Será que, se simplesmente adicionarmos o termo, ele é suficientemente simples e nos permite resolver isso analiticamente ou há algum motivo mais profundo?
regularization
Grenmester
fonte
fonte
Respostas:
Tem uma intuição bastante agradável na estrutura bayesiana. Considere que a função de custo regularizadoJ tem um papel semelhante à probabilidade de uma configuração de parâmetro θ dadas as observações X,y . Aplicando o teorema de Bayes, obtemos:
Tomar o log da expressão nos dá:
Agora, digamos que é o negativo 1 log-posterior, . Como o último termo não depende de , podemos omiti-lo sem alterar o mínimo. Você tem dois termos: 1) o termo de probabilidade dependendo de e , e 2) o termo anterior dependendo apenas de . Esses dois termos correspondem exatamente ao termo de dados e ao termo de regularização em sua fórmula.J(θ) −logP(θ|X,y) θ logP(X,y|θ) X y logP(θ) θ
Você pode ir ainda mais longe e mostrar que a função de perda que você postou corresponde exatamente ao seguinte modelo:
onde parâmetros provêm de uma distribuição gaussiana média zero e as observações têm ruído gaussiano médio zero. Para mais detalhes, veja esta resposta .θ y
1 Negativo, pois você deseja maximizar a probabilidade, mas minimizar o custo.
fonte
Jan e Cagdas dão uma boa razão bayesiana, interpretando o regularizador como um prior. Aqui estão alguns que não são bayesianos:
Se seu objetivo não regulamentado for convexo e você adicionar um regularizador convexo, seu objetivo total ainda será convexo. Isso não será verdade se você o multiplicar, ou na maioria dos outros métodos de combinação. A otimização convexa é realmente muito boa em comparação com a otimização não convexa; se a formulação convexa funcionar, é melhor fazer isso.
Às vezes, leva a uma forma fechada muito simples, pois o wpof menciona o caso da regressão de crista.
Se você pensa no problema que "realmente" deseja resolver como um problema com uma restrição rígida seu dual Lagrange é o problema Embora você não precise usar a dualidade de Lagrange, muito se entende sobre isso.
Como ogogmad mencionou , o teorema do representante se aplica ao caso de uma penalidade aditiva: se você deseja otimizar em todo o núcleo de reprodução Hilbert, espaço de funções , então sabemos que a solução para otimização em todo o espaço reside em um subespaço finito-dimensional simples para muitas perdas ; Não sei se isso seria válido para um regularizador multiplicativo (embora possa). Essa é a base dos SVMs do kernel.f H
Se você está aprendendo profundamente ou algo não convexo: as perdas aditivas fornecem gradientes aditivos simples. Para o simples regularizador você deu, torna-se uma redução de peso muito simples . Mas, mesmo para um regularizador mais complicado, digamos que a perda do WGAN-GP é mais fácil para a calcular gradientes quando é necessário considerar apenas a soma da perda e o regularizador complicado (considerando as coisas separadamente), em vez de precisar faça a regra do produto.L2
As perdas aditivas também são passíveis do popular algoritmo de otimização do ADMM e de outros algoritmos baseados em "decomposição".
Nenhuma dessas regras é rígida e rápida e, de fato, às vezes um regularizador multiplicativo (ou algum outro) pode funcionar melhor (como ogogmad aponta ). (De fato, outro dia enviei um artigo sobre como algo que você poderia interpretar como um regularizador multiplicativo se sai melhor do que o aditivo WGAN-GP acima!) Mas espero que isso ajude a explicar por que os regularizadores aditivos são "o padrão".
fonte
Você deseja minimizar os dois termos na função objetivo. Portanto, você precisa desacoplar os termos. Se você multiplicar os termos, poderá ter um termo grande e o outro muito baixo. Portanto, você ainda acaba com um valor baixo da função objetivo, mas com um resultado indesejável.
Você pode acabar com um modelo que tem a maioria das variáveis perto de zero, sem poder preditivo.
A função objetivo, que é a função que deve ser minimizada, pode ser construída como a soma da função de custo e dos termos de regularização.
Caso ambos sejam independentes, você obtém os valores ilustrados na primeira figura para o objetivo. Você vê que, no caso da soma, existe apenas um mínimo em (0, 0). No caso do produto, você tem ambiguidade. Você tem uma hiper-superfície inteira igual a zero em (x = 0 ou y = 0). Portanto, o algoritmo de otimização pode terminar em qualquer lugar, dependendo da sua inicialização. E não pode decidir qual solução é melhor.
fonte
Você pode tentar outras operações binárias ( ) e ver como elas se comparam.max,min,×
O problema com e é que, se o erro for , a penalidade regularizada será . Isso permite que o modelo se ajuste demais.min × 0 0
O problema com é que você acaba minimizando o "mais difícil" das duas penalidades (erro de treinamento ou regularização), mas não a outra.max
Por outro lado, o é simples e funciona.+
Você pode perguntar por que não outras operações binárias? Não há argumento que possa descartá-los, então por que não?
fonte
Eu acho que você tem uma pergunta válida. Para lhe dar uma resposta adequada, você terá que entender a natureza probabilística do problema.
Em geral, o problema que estamos tentando resolver é o seguinte: Dados dados qual é a distribuição de hipóteses que explica esses dados. Quando dizemos hipótese, queremos dizer um PDF (pelo menos neste contexto). E uma distribuição de hipóteses é um PDF de PDFs, ou seja, .D p(H|D)
Agora, se tomarmos o de ambos os lados da equação de Bayes, obtemos:−log
Normalmente, é difícil de calcular. O bom é que não afeta o resultado. É simplesmente uma constante de normalização.p(D)
Agora, por exemplo, se nosso conjunto de hipóteses é um bando de gaussianos com onde não sabemos , mas suponha conhecer (ou pelo menos suponha que seja uma constante) e, além disso, as próprias hipóteses são distribuídas como gaussianas com então, conectar tudo acima se parece com:p(D|H) p(y|X,θ)∼N(θX,σ) θ σ p(H)=p(θ)∼N(0,α−1I)
Agora, se minimizarmos essa expressão, encontraremos a hipótese com a maior probabilidade. As constantes não afetam a minimização. Esta é a expressão na sua pergunta.
O fato de termos utilizado gaussianos não altera o fato de o termo de regularização ser adicional. Deve ser aditivo (em termos de log ou multiplicativo em probabilidades), não há outra opção. O que mudará se usarmos outras distribuições são os componentes da adição. A função de custo / perda que você forneceu é ideal para um cenário específico de gaussianos.
fonte
Ridge é uma formulação muito conveniente. Em contraste com as respostas probabilísticas, essas respostas não dão nenhuma interpretação da estimativa, mas explicam por que o cume é uma formulação antiga e óbvia.
Na regressão linear, as equações normais dãoθ^=(XTX)−1XTy
Mas, a matriz às vezes não é invertível; uma forma de ajustar é pela adição de um pequeno elemento para a diagonal: .XTX XTX+αI
Isso fornece a solução: ; o não resolve o problema original, mas o problema do cume.θ~=(XTX+αI)−1XTy θ~
fonte
Penso que há uma razão mais intuitiva para explicar por que não podemos multiplicar pelo termo de regularização.
Vamos levar nossa função de penalidade para a função de penalidade regular multiplicada por um termo de regularização, como você sugere.
Aqui, criamos um mínimo global da função de penalidade em que . Nesse caso, nosso modelo pode produzir erros altos entre a previsão e os dados, mas isso não importa, se os pesos dos parâmetros do modelo forem zero, nossa função de penalidade será zero .α∥θ∥22=0 J(θ=0)=0
Como, a menos que nosso modelo seja completamente perfeito, o termo nunca pode ser zero (a probabilidade de existir um conjunto θ para tornar nosso modelo 'perfeito' é insignificante para dados reais), então nosso modelo sempre deve tender para a solução θ = 0.(12(y−θXT)(y−θXT)T)
É isso que ele retornará, a menos que fique preso em um mínimo local em algum lugar.
fonte