A regularização de L2 é equivalente a Gaussian Prior

56

Eu continuo lendo isso e intuitivamente eu posso ver isso, mas como se passa da regularização L2 para dizer que este é um prior gaussiano analiticamente? O mesmo vale para dizer que L1 é equivalente a um anterior do Laplacean.

Quaisquer outras referências seriam ótimas.

Anônimo
fonte

Respostas:

54

Vamos imaginar que você deseja inferir algum parâmetro de alguns pares de entrada-saída observados . Vamos supor que as saídas estejam relacionadas linearmente às entradas via e que os dados estejam corrompidos por algum ruído :β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

onde é ruído gaussiano com média e variância . Isso gera uma probabilidade gaussiana:ϵ0σ2

n=1NN(yn|βxn,σ2).

Vamos regularizar o parâmetro , impondo o onde é um escalar estritamente positivo. Portanto, combinando a probabilidade e o prior, simplesmente temos:βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

Vamos pegar o logaritmo da expressão acima. Soltando algumas constantes, obtemos:

n=1N1σ2(ynβxn)2λβ2+const.

Se maximizarmos a expressão acima em relação a , obteremos a chamada estimativa máxima a posteriori para , ou estimativa MAP para abreviar. Nesta expressão, torna-se evidente por que o prior gaussiano pode ser interpretado como um termo de regularização de L2.βββ


Da mesma forma, a relação entre a norma L1 e a Laplace anterior pode ser entendida da mesma maneira. Tome em vez de um prior gaussiano, um prior de Laplace combine-o com a sua probabilidade e faça o logaritmo.

Uma boa referência (talvez um pouco avançada) detalhando os dois problemas é o artigo "Escassez adaptativa para aprendizado supervisionado", que atualmente não parece fácil de encontrar on-line. Como alternativa, veja "Sparseness adaptável usando Jeffreys Prior" . Outra boa referência é "Sobre a classificação bayesiana com os anteriores de Laplace" .

ngiann
fonte
11
Em um D dimensioncaso de regressão linear, pode betae sigmatem soluções explícitas? Estou lendo PRML e encontre a equação (1,67) na página 30 e não tenho idéia de como resolvê-lo. Na probabilidade máxima, resolvemos betae, em seguida , definimos sigmao gradiente como zero. No quadrado mínimo regularizado, como os parâmetros de reqularização lambdasão conhecidos, resolvemos betadiretamente. Mas se resolver diretamente o MAP, o que é o fim de resolver beta, sigma? Eles podem ter uma solução explícita ou devemos usar um processo iterativo?
stackunderflow
Está faltando um "quadrado" no na última equação, isto é, ? λ β 2λβλβ2
Brian.keng
@AdamO Limita o número de valores que os coeficientes podem assumir. Se o anterior estiver entre 1 e 10, por exemplo, existe 0 probabilidade de o coeficiente assumir qualquer outro valor, como [-inf para 1] e [10, + inf].
imsrgadich
11
Nesse caso, é conhecido. Funciona quando é desconhecido? Para a regressão linear bayesiana, um gama inversa anterior pode ser usado para formar um conjugado anterior à variação. Mas não tenho certeza se a álgebra equivaleria à mesma expressão. σ 2σ2σ2
AdamO 02/10
11

Para um modelo linear com probabilidade normal multivariada anterior e normal multivariada, você acaba com uma distribuição posterior normal multivariada na qual a média do modelo posterior (e máximo a posteriori) é exatamente o que você obteria usando Tikhonov regularizado ( regularizado) mínimos quadrados com um parâmetro de regularização apropriado. L2

Observe que há uma diferença mais fundamental em que o posterior bayesiano é uma distribuição de probabilidade, enquanto a solução de mínimos quadrados regularizada de Tikhonov é uma estimativa pontual específica.

Isso é discutido em muitos livros sobre métodos bayesianos para problemas inversos. Veja, por exemplo:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Da mesma forma, se você tem uma probabilidade anterior de Laplaciana e uma probabilidade normal multivariada, o máximo da distribuição posterior ocorre em um ponto que você pode obter resolvendo um problema de mínimos quadrados regularizados com . L1

Brian Borchers
fonte
9

Primeiro aviso que a mediana minimiza a norma L1 (veja aqui ou aqui para saber mais sobre L1 e L2)

median(x)=argminsi|xis|1

enquanto a média minimiza L2

mean(x)=argminsi|xis|2

Agora, lembre-se de que o parâmetro das distribuições normais pode ser estimado usando a média da amostra , enquanto o estimador MLE para o parâmetro distribuição Laplace é mediano. Portanto, usar a distribuição Normal é equivalente à otimização da norma L2 e usar a distribuição Laplace, ao usar a otimização L1. Na prática, você pode pensar que a mediana é menos sensível a valores discrepantes do que a média, e o mesmo, usar a distribuição Laplace de cauda mais gorda como anterior torna seu modelo menos propenso a discrepâncias do que usar a distribuição Normal.μμμ


Hurley, WJ (2009) Uma abordagem indutiva para calcular o MLE para a distribuição exponencial dupla . Revista de Métodos Estatísticos Aplicados Modernos: 8 (2), Artigo 25.

Tim
fonte
Talvez essa não seja a resposta matematicamente mais rigorosa dada aqui, mas é definitivamente a mais fácil e intuitiva para um iniciante na regularização de L1 / L2.
SQLServerSteve
8

Para um problema de regressão com variáveis ​​(sem interceptação), você faz OLS comok

minβ(yXβ)(yXβ)

Na regressão regularizada com pena de você fazLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

Podemos fazer o mesmo (observe que o sinal muda)

maxβ(yXβ)(yXβ)λi=1k|βi|p

Isto está diretamente relacionado ao princípio bayesiano de

posteriorlikelihood×prior

ou equivalente (sob condições de regularidade)

log(posterior)log(likelihood)+log(penalty)

Agora não é difícil ver qual distribuição familiar exponencial corresponde a qual tipo de penalidade.

Georg M. Goerg
fonte
3

Para colocar a equivalência com mais precisão:

Otimizar pesos do modelo para minimizar uma função quadrática de perda de erro com regularização L2 é equivalente a encontrar os pesos que são mais prováveis ​​em uma distribuição posterior avaliada usando a regra de Bayes, com pesos Gaussianos independentes de média zero antes

Prova:

A função de perda como descrita acima seria dada por

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

Observe que a distribuição para um gaussiano multivariado é

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

Usando a regra de Bayes, temos que

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

Onde somos capazes de dividir o Guassian multidimensional em um produto, porque a covariância é um múltiplo da matriz de identidade.

Obtenha probabilidade de log negativo

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

É claro que podemos eliminar a constante e multiplicar por qualquer valor sem afetar fundamentalmente a função de perda. (a constante não faz nada, a multiplicação efetivamente escala a taxa de aprendizado. Não afetará a localização dos mínimos). Portanto, podemos ver que a probabilidade logarítmica negativa da distribuição posterior é uma função de perda equivalente à função de perda de erro quadrada regularizada de L2.

Essa equivalência é geral e vale para qualquer função parametrizada dos pesos - não apenas para a regressão linear, como parece estar implícito acima.

nickelnine37
fonte
1

Há duas características da modelagem bayesiana que precisam ser enfatizadas ao discutir a equivalência de certas estimativas de verossimilhança máxima penalizada e procedimentos bayesianos.

  1. Na estrutura bayesiana, o prior é selecionado com base nas especificidades do problema e não é motivado pela conveniência computacional. Portanto, os bayesianos usam uma variedade de priores, incluindo o agora popular ferradura anterior, para problemas preditores esparsos, e não precisam confiar tanto em priores que são equivalentes às penalidades de L1 ou L2.
  2. Com uma abordagem bayesiana completa, você tem acesso a todos os procedimentos inferenciais quando terminar. Por exemplo, você pode quantificar evidências de grandes coeficientes de regressão e obter intervalos confiáveis ​​nos coeficientes de regressão e nos valores gerais previstos. Na estrutura freqüentista, quando você escolhe a penalização, perde toda a máquina inferencial.
Frank Harrell
fonte