Por que o termo de regularização * é adicionado * à função de custo (em vez de multiplicado etc.)?

51

Sempre que a regularização é usada, ela é frequentemente adicionada à função de custo, como na função de custo a seguir. Isso faz um sentido intuitivo para mim, pois minimiza o função de custo significa minimizar o erro (o termo esquerdo) e minimizar as magnitudes dos coeficientes (o termo correto) ao mesmo tempo (ou pelo menos equilibrar as duas minimizações).

J(θ)=12(yθXT)(yθXT)T+αθ22

Minha pergunta é por que esse termo de regularização αθ22 adicionado à função de custo original e não multiplicado ou algo mais que mantenha o espírito da motivação por trás da idéia de regularização? Será que, se simplesmente adicionarmos o termo, ele é suficientemente simples e nos permite resolver isso analiticamente ou há algum motivo mais profundo?

Grenmester
fonte
11
Outro argumento é via o teorema representer,
jkabrg
2
multiplicador lagrangiano
Haitao Du
9
Se você tiver variáveis ​​mais independentes do que observações, poderá conseguir que 12(yθXT)(yθXT)T zere várias maneiras diferentes, portanto, multiplicar por qualquer coisa não será possível. ajudar a distinguir um modelo útil
Henry

Respostas:

47

Tem uma intuição bastante agradável na estrutura bayesiana. Considere que a função de custo regularizado J tem um papel semelhante à probabilidade de uma configuração de parâmetro θ dadas as observações X,y . Aplicando o teorema de Bayes, obtemos:

P(θ|X,y)=P(X,y|θ)P(θ)P(X,y).

Tomar o log da expressão nos dá:

logP(θ|X,y)=logP(X,y|θ)+logP(θ)logP(X,y).

Agora, digamos que é o negativo 1 log-posterior, . Como o último termo não depende de , podemos omiti-lo sem alterar o mínimo. Você tem dois termos: 1) o termo de probabilidade dependendo de e , e 2) o termo anterior dependendo apenas de . Esses dois termos correspondem exatamente ao termo de dados e ao termo de regularização em sua fórmula.J(θ)logP(θ|X,y)θlogP(X,y|θ)XylogP(θ)θ

Você pode ir ainda mais longe e mostrar que a função de perda que você postou corresponde exatamente ao seguinte modelo:

P(X,y|θ)=N(y|θX,σ12),
P(θ)=N(θ|0,σ22),

onde parâmetros provêm de uma distribuição gaussiana média zero e as observações têm ruído gaussiano médio zero. Para mais detalhes, veja esta resposta .θy


1 Negativo, pois você deseja maximizar a probabilidade, mas minimizar o custo.

Jan Kukacka
fonte
5
Estou um pouco insatisfeito com esta resposta, porque apenas acena manualmente a correspondência entre a função de custo e o log-posterior. Se o custo não corresponder ao log-posterior, mas sim ao próprio posterior, concluiremos que a regularização deve ser multiplicada pelo custo não-regularizado (como o OP perguntou sobre). - Para justificar adequadamente essa resposta, você precisa justificar por que é o log-posterior que estamos equiparando ao custo. (Você meio que ver com a "ir ainda mais longe", mas você começa uma mão-ondulado nesse ponto bit.)
RM
11
@RM, ponto válido. Há uma razão: é porque as funções de perda padrão usadas no aprendizado de máquina correspondem ao log-posterior e não ao posterior em si. Por quê? Porque eles usam minimização de risco empírico; e as funções de perda padrão geralmente assumem a forma onde é uma função de perda que tem uma interpretação sensata como uma probabilidade log-posterior. (Eu suspeito que você sabe disso, mas eu estou apenas ortografia-lo para outros visitantes.)logP(X1,,Xn,y1,,yn|θ)=ilogP(Xi,yi|θ)if(Xi,yi,θi)f
DW
@ RM Se você tiver algum custo em sempre poderá redefinir seu problema em termos de . Em outras palavras, qualquer que seja sua função de custo, ela define uma distribuição baseada em dividida por alguma constante de normalização que você pode ignorar ao usar os métodos MCMC. O fato de você sempre pode reformular em termos de uma exponencial é muito importante para, por exemplo, recozimento simulado, samplers MCMC, etc.CC=explnCexplnC
Ely
@RM, por exemplo, considere este artigo de Jun Liu (e há um comentário semelhante no livro MCMC de Liu), onde na página 3 na parte inferior diz: "Let seja a distribuição de probabilidade alvo sob investigação (presumivelmente todos os pdfs podem ser escritos neste formulário) "(ênfase adicionada). Portanto, do ponto de vista bayesiano, onde a porção posterior definida pelo modelo de verossimilhança seria essa função de perda, essa decomposição bayesiana para essa resposta seria totalmente geral. π(x)=cexph(x)
ely
Obrigado pela resposta! Estou tentando entender o "it" no início do seu post: o que exatamente você está afirmando ter uma boa intuição dentro da estrutura bayesiana? a razão fundamental pela qual a adição de penalidades fornece bons estimadores? ou a razão histórica (e não estatística) pela qual as pessoas usam esses estimadores aditivos? (Como eu estava tentando chamar minha fraseado sugerir, acho que seus endereços de Resposta A razão histórica em vez de uma razão estatística.)
user795305
34

Jan e Cagdas dão uma boa razão bayesiana, interpretando o regularizador como um prior. Aqui estão alguns que não são bayesianos:

  • Se seu objetivo não regulamentado for convexo e você adicionar um regularizador convexo, seu objetivo total ainda será convexo. Isso não será verdade se você o multiplicar, ou na maioria dos outros métodos de combinação. A otimização convexa é realmente muito boa em comparação com a otimização não convexa; se a formulação convexa funcionar, é melhor fazer isso.

  • Às vezes, leva a uma forma fechada muito simples, pois o wpof menciona o caso da regressão de crista.

  • Se você pensa no problema que "realmente" deseja resolver como um problema com uma restrição rígida seu dual Lagrange é o problema Embora você não precise usar a dualidade de Lagrange, muito se entende sobre isso.

    minθ:c(θ)0J(θ),
    minθJ(θ)+λc(θ).
  • Como ogogmad mencionou , o teorema do representante se aplica ao caso de uma penalidade aditiva: se você deseja otimizar em todo o núcleo de reprodução Hilbert, espaço de funções , então sabemos que a solução para otimização em todo o espaço reside em um subespaço finito-dimensional simples para muitas perdas ; Não sei se isso seria válido para um regularizador multiplicativo (embora possa). Essa é a base dos SVMs do kernel.fH

    minfHJ(f)+λfH2
    J
  • Se você está aprendendo profundamente ou algo não convexo: as perdas aditivas fornecem gradientes aditivos simples. Para o simples regularizador você deu, torna-se uma redução de peso muito simples . Mas, mesmo para um regularizador mais complicado, digamos que a perda do WGAN-GP é mais fácil para a calcular gradientes quando é necessário considerar apenas a soma da perda e o regularizador complicado (considerando as coisas separadamente), em vez de precisar faça a regra do produto.L2

    x,yfθ(x)fθ(y)the loss+λE^αUniform(0,1)(fθ(αx+(1α)y)1)2the regularizer,
  • As perdas aditivas também são passíveis do popular algoritmo de otimização do ADMM e de outros algoritmos baseados em "decomposição".

Nenhuma dessas regras é rígida e rápida e, de fato, às vezes um regularizador multiplicativo (ou algum outro) pode funcionar melhor (como ogogmad aponta ). (De fato, outro dia enviei um artigo sobre como algo que você poderia interpretar como um regularizador multiplicativo se sai melhor do que o aditivo WGAN-GP acima!) Mas espero que isso ajude a explicar por que os regularizadores aditivos são "o padrão".

Dougal
fonte
2
+1. Boa sorte com a sua submissão ao [provavelmente NIPS]!
Ameba diz Reinstate Monica
13

Você deseja minimizar os dois termos na função objetivo. Portanto, você precisa desacoplar os termos. Se você multiplicar os termos, poderá ter um termo grande e o outro muito baixo. Portanto, você ainda acaba com um valor baixo da função objetivo, mas com um resultado indesejável.

Você pode acabar com um modelo que tem a maioria das variáveis ​​perto de zero, sem poder preditivo.

insira a descrição da imagem aqui insira a descrição da imagem aqui

A função objetivo, que é a função que deve ser minimizada, pode ser construída como a soma da função de custo e dos termos de regularização.

Caso ambos sejam independentes, você obtém os valores ilustrados na primeira figura para o objetivo. Você vê que, no caso da soma, existe apenas um mínimo em (0, 0). No caso do produto, você tem ambiguidade. Você tem uma hiper-superfície inteira igual a zero em (x = 0 ou y = 0). Portanto, o algoritmo de otimização pode terminar em qualquer lugar, dependendo da sua inicialização. E não pode decidir qual solução é melhor.

Sören
fonte
10

Você pode tentar outras operações binárias ( ) e ver como elas se comparam.max,min,×

O problema com e é que, se o erro for , a penalidade regularizada será . Isso permite que o modelo se ajuste demais.min×00

O problema com é que você acaba minimizando o "mais difícil" das duas penalidades (erro de treinamento ou regularização), mas não a outra.max

Por outro lado, o é simples e funciona.+

Você pode perguntar por que não outras operações binárias? Não há argumento que possa descartá-los, então por que não?

jkabrg
fonte
8

Eu acho que você tem uma pergunta válida. Para lhe dar uma resposta adequada, você terá que entender a natureza probabilística do problema.

Em geral, o problema que estamos tentando resolver é o seguinte: Dados dados qual é a distribuição de hipóteses que explica esses dados. Quando dizemos hipótese, queremos dizer um PDF (pelo menos neste contexto). E uma distribuição de hipóteses é um PDF de PDFs, ou seja, .Dp(H|D)

  1. p(H|D) é uma distribuição sobre hipóteses dadas . Se conseguirmos encontrar isso, podemos selecionar uma dentre essas hipóteses, por exemplo, a que tem maior probabilidade, ou podemos optar pela média de todas elas. Uma abordagem um pouco mais fácil é atacar o problema de uma direção diferente usando o Teorema de Bayes.D

    p(H|D)=p(D|H)×p(H)p(D)
  2. p(D|H) é uma das hipóteses, também é chamada de probabilidade. é a distribuição das hipóteses em nosso universo de hipóteses antes de observar os dados. Depois de observarmos os dados, atualizamos nossas crenças.p(H)

  3. p(D) é a média das hipóteses antes de atualizarmos nossas crenças.

Agora, se tomarmos o de ambos os lados da equação de Bayes, obtemos:log

log[p(H|D)]=log[p(D|H)]log[p(H)]+log[p(D)]

Normalmente, é difícil de calcular. O bom é que não afeta o resultado. É simplesmente uma constante de normalização.p(D)

Agora, por exemplo, se nosso conjunto de hipóteses é um bando de gaussianos com onde não sabemos , mas suponha conhecer (ou pelo menos suponha que seja uma constante) e, além disso, as próprias hipóteses são distribuídas como gaussianas com então, conectar tudo acima se parece com:p(D|H)p(y|X,θ)N(θX,σ)θσp(H)=p(θ)N(0,α1I)

log[p(H|D)]=bunch of constants+12(yθX)2+12α||θ||2+constant

Agora, se minimizarmos essa expressão, encontraremos a hipótese com a maior probabilidade. As constantes não afetam a minimização. Esta é a expressão na sua pergunta.

O fato de termos utilizado gaussianos não altera o fato de o termo de regularização ser adicional. Deve ser aditivo (em termos de log ou multiplicativo em probabilidades), não há outra opção. O que mudará se usarmos outras distribuições são os componentes da adição. A função de custo / perda que você forneceu é ideal para um cenário específico de gaussianos.

Cagdas Ozgenc
fonte
Ei Cagdas, obrigado pela explicação. Não entendi a transformação da última equação no RHS. Você pode apontar para algum recurso para mim entender essa parte mais claramente
Itachi
7

Ridge é uma formulação muito conveniente. Em contraste com as respostas probabilísticas, essas respostas não dão nenhuma interpretação da estimativa, mas explicam por que o cume é uma formulação antiga e óbvia.

Na regressão linear, as equações normais dão θ^=(XTX)1XTy

Mas, a matriz às vezes não é invertível; uma forma de ajustar é pela adição de um pequeno elemento para a diagonal: .XTXXTX+αI

Isso fornece a solução: ; o não resolve o problema original, mas o problema do cume.θ~=(XTX+αI)1XTyθ~

wpof
fonte
3
Especifique as respostas às quais você está se referindo. A ordem se moverá à medida que os votos se acumularem, de modo que "acima" seja inerentemente ambíguo.
gung - Restabelece Monica
1

Penso que há uma razão mais intuitiva para explicar por que não podemos multiplicar pelo termo de regularização.

Vamos levar nossa função de penalidade para a função de penalidade regular multiplicada por um termo de regularização, como você sugere.

J(θ)=(12(yθXT)(yθXT)T)αθ22

Aqui, criamos um mínimo global da função de penalidade em que . Nesse caso, nosso modelo pode produzir erros altos entre a previsão e os dados, mas isso não importa, se os pesos dos parâmetros do modelo forem zero, nossa função de penalidade será zero .αθ22=0J(θ=0)=0

Como, a menos que nosso modelo seja completamente perfeito, o termo nunca pode ser zero (a probabilidade de existir um conjunto θ para tornar nosso modelo 'perfeito' é insignificante para dados reais), então nosso modelo sempre deve tender para a solução θ = 0.(12(yθXT)(yθXT)T)

É isso que ele retornará, a menos que fique preso em um mínimo local em algum lugar.

James Fulton
fonte