A regularização de L2 é equivalente a Gaussian Prior

56

Eu continuo lendo isso e intuitivamente eu posso ver isso, mas como se passa da regularização L2 para dizer que este é um prior gaussiano analiticamente? O mesmo vale para dizer que L1 é equivalente a um anterior do Laplacean.

Quaisquer outras referências seriam ótimas.

regression references regularization Anônimo
fonte

54

Vamos imaginar que você deseja inferir algum parâmetro de alguns pares de entrada-saída observados . Vamos supor que as saídas estejam relacionadas linearmente às entradas via e que os dados estejam corrompidos por algum ruído : $\beta$ $(x_1,y_1)\dots,(x_N,y_N)$ $\beta$ $\epsilon$

y_{n} = β x_{n} + ϵ,

$y_n = \beta x_n + \epsilon,$

onde é ruído gaussiano com média e variância . Isso gera uma probabilidade gaussiana: $\epsilon$ $0$ $\sigma^2$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2).$

Vamos regularizar o parâmetro , impondo o onde é um escalar estritamente positivo. Portanto, combinando a probabilidade e o prior, simplesmente temos: $\beta$ $\mathcal{N}(\beta|0,\lambda^{-1}),$ $\lambda$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) N (β | 0, λ^{- 1}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2) \mathcal{N}(\beta|0,\lambda^{-1}).$

Vamos pegar o logaritmo da expressão acima. Soltando algumas constantes, obtemos:

\sum_{n = 1}^{N} - \frac{1}{σ^{2}} (y_{n} - β x_{n})^{2} - λ β^{2} + const .

$\sum_{n=1}^N -\frac{1}{\sigma^2}(y_n-\beta x_n)^2 - \lambda \beta^2 + \mbox{const}.$

Se maximizarmos a expressão acima em relação a , obteremos a chamada estimativa máxima a posteriori para , ou estimativa MAP para abreviar. Nesta expressão, torna-se evidente por que o prior gaussiano pode ser interpretado como um termo de regularização de L2. $\beta$ $\beta$

Da mesma forma, a relação entre a norma L1 e a Laplace anterior pode ser entendida da mesma maneira. Tome em vez de um prior gaussiano, um prior de Laplace combine-o com a sua probabilidade e faça o logaritmo.

Uma boa referência (talvez um pouco avançada) detalhando os dois problemas é o artigo "Escassez adaptativa para aprendizado supervisionado", que atualmente não parece fácil de encontrar on-line. Como alternativa, veja "Sparseness adaptável usando Jeffreys Prior" . Outra boa referência é "Sobre a classificação bayesiana com os anteriores de Laplace" .

ngiann
fonte

11

Em um D dimensioncaso de regressão linear, pode betae sigmatem soluções explícitas? Estou lendo PRML e encontre a equação (1,67) na página 30 e não tenho idéia de como resolvê-lo. Na probabilidade máxima, resolvemos betae, em seguida , definimos sigmao gradiente como zero. No quadrado mínimo regularizado, como os parâmetros de reqularização lambdasão conhecidos, resolvemos betadiretamente. Mas se resolver diretamente o MAP, o que é o fim de resolver beta, sigma? Eles podem ter uma solução explícita ou devemos usar um processo iterativo?

stackunderflow

Está faltando um "quadrado" no na última equação, isto é, ?

λ β

$\lambda \beta$

λ β^{2}

$\lambda \beta^2$

Brian.keng

@AdamO Limita o número de valores que os coeficientes podem assumir. Se o anterior estiver entre 1 e 10, por exemplo, existe 0 probabilidade de o coeficiente assumir qualquer outro valor, como [-inf para 1] e [10, + inf].

imsrgadich

11

Nesse caso, é conhecido. Funciona quando é desconhecido? Para a regressão linear bayesiana, um gama inversa anterior pode ser usado para formar um conjugado anterior à variação. Mas não tenho certeza se a álgebra equivaleria à mesma expressão.

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

AdamO 02/10

11

Para um modelo linear com probabilidade normal multivariada anterior e normal multivariada, você acaba com uma distribuição posterior normal multivariada na qual a média do modelo posterior (e máximo a posteriori) é exatamente o que você obteria usando Tikhonov regularizado ( regularizado) mínimos quadrados com um parâmetro de regularização apropriado. $L_{2}$

Observe que há uma diferença mais fundamental em que o posterior bayesiano é uma distribuição de probabilidade, enquanto a solução de mínimos quadrados regularizada de Tikhonov é uma estimativa pontual específica.

Isso é discutido em muitos livros sobre métodos bayesianos para problemas inversos. Veja, por exemplo:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Da mesma forma, se você tem uma probabilidade anterior de Laplaciana e uma probabilidade normal multivariada, o máximo da distribuição posterior ocorre em um ponto que você pode obter resolvendo um problema de mínimos quadrados regularizados com . $L_{1}$

Brian Borchers
fonte

9

Primeiro aviso que a mediana minimiza a norma L1 (veja aqui ou aqui para saber mais sobre L1 e L2)

median (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{1}

$\DeclareMathOperator*{\argmin}{arg\,min} \text{median}(x) = \argmin_s \sum_i |x_i - s|^1$

enquanto a média minimiza L2

mean (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{2}

$\text{mean}(x) = \argmin_s \sum_i |x_i - s|^2$

Agora, lembre-se de que o parâmetro das distribuições normais pode ser estimado usando a média da amostra , enquanto o estimador MLE para o parâmetro distribuição Laplace é mediano. Portanto, usar a distribuição Normal é equivalente à otimização da norma L2 e usar a distribuição Laplace, ao usar a otimização L1. Na prática, você pode pensar que a mediana é menos sensível a valores discrepantes do que a média, e o mesmo, usar a distribuição Laplace de cauda mais gorda como anterior torna seu modelo menos propenso a discrepâncias do que usar a distribuição Normal. $\mu$ $\mu$

Hurley, WJ (2009) Uma abordagem indutiva para calcular o MLE para a distribuição exponencial dupla . Revista de Métodos Estatísticos Aplicados Modernos: 8 (2), Artigo 25.

Tim
fonte

Talvez essa não seja a resposta matematicamente mais rigorosa dada aqui, mas é definitivamente a mais fácil e intuitiva para um iniciante na regularização de L1 / L2.

SQLServerSteve

8

Para um problema de regressão com variáveis (sem interceptação), você faz OLS como $k$

min_{β} (y - X β)^{'} (y - X β)

$\min_{\beta} (y - X \beta)' (y - X \beta)$

Na regressão regularizada com pena de você faz $L^p$

min_{β} (y - X β)^{'} (y - X β) + λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\min_{\beta} (y - X \beta)' (y - X \beta) + \lambda \sum_{i=1}^k |\beta_i|^p$

Podemos fazer o mesmo (observe que o sinal muda)

max_{β} - (y - X β)^{'} (y - X β) - λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\max_{\beta} -(y - X \beta)' (y - X \beta) - \lambda \sum_{i=1}^k |\beta_i|^p$

Isto está diretamente relacionado ao princípio bayesiano de

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

$posterior \propto likelihood \times prior$

ou equivalente (sob condições de regularidade)

l o g (p o s t e r i o r) \sim l o g (l i k e l i h o o d) + l o g (p e n a l t y)

$log(posterior) \sim log(likelihood) + log(penalty)$

Agora não é difícil ver qual distribuição familiar exponencial corresponde a qual tipo de penalidade.

Georg M. Goerg
fonte

3

Para colocar a equivalência com mais precisão:

Otimizar pesos do modelo para minimizar uma função quadrática de perda de erro com regularização L2 é equivalente a encontrar os pesos que são mais prováveis em uma distribuição posterior avaliada usando a regra de Bayes, com pesos Gaussianos independentes de média zero antes

Prova:

A função de perda como descrita acima seria dada por

L = \underset{O r i g i n a l l o s s f u n c t i o n}{\underset{⏟}{[\sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2}]}} + \underset{L_{2} l o s s}{\underset{⏟}{λ \sum_{i = 1}^{K} w_{i}^{2}}}

$L = \underbrace{\Big[ \sum_{n=1}^{N} (y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)}))^{2} \Big] }_{Original \; loss \; function} + \underbrace{\lambda \sum_{i=1}^{K} w_{i}^{2}}_{L_{2} \; loss}$

Observe que a distribuição para um gaussiano multivariado é

N (x; μ, Σ) = \frac{1}{(2 π)^{D / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))

$\mathcal{N}(\mathbf{x}; \mathbf{\mu}, \Sigma) = \frac{1}{(2 \pi)^{D/2}|\Sigma|^{1/2}} \exp\Big(-\frac{1}{2} (\mathbf{x} -\mathbf{\mu})^{\top} \Sigma^{-1} (\mathbf{x} -\mathbf{\mu})\Big)$

Usando a regra de Bayes, temos que

\begin{aligned} p (w | D) & = \frac{p (D | w) p (w)}{p (D)} \\ \propto p (D | w) p (w) \\ \propto [\prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] N (w; 0, σ_{w}^{2} I) \\ \propto \prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2}) \prod_{i = 1}^{K} N (w_{i}; 0, σ_{w}^{2}) \end{aligned}

$\begin{split} p(\mathbf{w}|\mathcal{D}) &= \frac{p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})}{p(\mathcal{D})}\newline &\propto p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})\newline &\propto \Big[ \prod_{n}^{N} \mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2})\Big] \; \mathcal{N}(\mathbf{w}; \mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbb{I})\newline &\propto \prod_{n}^{N} \mathcal{N}(y^{(n)};f_{\mathbf{w}}(\mathbf{x}^{(n)}) , \sigma_{y}^{2}) \prod_{i=1}^{K} \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \newline \end{split}$

Onde somos capazes de dividir o Guassian multidimensional em um produto, porque a covariância é um múltiplo da matriz de identidade.

Obtenha probabilidade de log negativo

\begin{aligned} - \log [p (w | D)] & = - \sum_{n = 1}^{N} \log [N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] - \sum_{i = 1}^{K} \log [N (w_{i}; 0, σ_{w}^{2})] + c o n s t . \\ = \frac{1}{2 σ_{y}^{2}} \sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2} + \frac{1}{2 σ_{w}^{2}} \sum_{i = 1}^{K} w_{i}^{2} + c o n s t . \end{aligned}

$\begin{split} -\log \big[p(\mathbf{w}|\mathcal{D}) \big] &= -\sum_{n=1}^{N} \log \big[\mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2}) \big] - \sum_{i=1}^{K} \log \big[ \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \big] + const. \newline &= \frac{1}{2\sigma_{y}^{2}} \sum_{n=1}^{N} \big(y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)})\big)^{2} + \frac{1}{2\sigma_{\mathbf{w}}^{2}} \sum_{i=1}^{K} w_{i}^{2} + const. \newline \end{split}$

É claro que podemos eliminar a constante e multiplicar por qualquer valor sem afetar fundamentalmente a função de perda. (a constante não faz nada, a multiplicação efetivamente escala a taxa de aprendizado. Não afetará a localização dos mínimos). Portanto, podemos ver que a probabilidade logarítmica negativa da distribuição posterior é uma função de perda equivalente à função de perda de erro quadrada regularizada de L2.

Essa equivalência é geral e vale para qualquer função parametrizada dos pesos - não apenas para a regressão linear, como parece estar implícito acima.

nickelnine37
fonte

1

Há duas características da modelagem bayesiana que precisam ser enfatizadas ao discutir a equivalência de certas estimativas de verossimilhança máxima penalizada e procedimentos bayesianos.

Na estrutura bayesiana, o prior é selecionado com base nas especificidades do problema e não é motivado pela conveniência computacional. Portanto, os bayesianos usam uma variedade de priores, incluindo o agora popular ferradura anterior, para problemas preditores esparsos, e não precisam confiar tanto em priores que são equivalentes às penalidades de L1 ou L2.
Com uma abordagem bayesiana completa, você tem acesso a todos os procedimentos inferenciais quando terminar. Por exemplo, você pode quantificar evidências de grandes coeficientes de regressão e obter intervalos confiáveis nos coeficientes de regressão e nos valores gerais previstos. Na estrutura freqüentista, quando você escolhe a penalização, perde toda a máquina inferencial.

Frank Harrell
fonte

A regularização de L2 é equivalente a Gaussian Prior

Respostas: