Vamos imaginar que você deseja inferir algum parâmetro de alguns pares de entrada-saída observados . Vamos supor que as saídas estejam relacionadas linearmente às entradas via e que os dados estejam corrompidos por algum ruído :β(x1,y1)…,(xN,yN)βϵ
yn=βxn+ϵ,
onde é ruído gaussiano com média e variância . Isso gera uma probabilidade gaussiana:ϵ0σ2
∏n=1NN(yn|βxn,σ2).
Vamos regularizar o parâmetro , impondo o onde é um escalar estritamente positivo. Portanto, combinando a probabilidade e o prior, simplesmente temos:βN(β|0,λ−1),λ
∏n=1NN(yn|βxn,σ2)N(β|0,λ−1).
Vamos pegar o logaritmo da expressão acima. Soltando algumas constantes, obtemos:
∑n=1N−1σ2(yn−βxn)2−λβ2+const.
Se maximizarmos a expressão acima em relação a , obteremos a chamada estimativa máxima a posteriori para , ou estimativa MAP para abreviar. Nesta expressão, torna-se evidente por que o prior gaussiano pode ser interpretado como um termo de regularização de L2.βββ
Da mesma forma, a relação entre a norma L1 e a Laplace anterior pode ser entendida da mesma maneira. Tome em vez de um prior gaussiano, um prior de Laplace combine-o com a sua probabilidade e faça o logaritmo.
Uma boa referência (talvez um pouco avançada) detalhando os dois problemas é o artigo "Escassez adaptativa para aprendizado supervisionado", que atualmente não parece fácil de encontrar on-line. Como alternativa, veja "Sparseness adaptável usando Jeffreys Prior" . Outra boa referência é "Sobre a classificação bayesiana com os anteriores de Laplace" .
D dimension
caso de regressão linear, podebeta
esigma
tem soluções explícitas? Estou lendo PRML e encontre a equação (1,67) na página 30 e não tenho idéia de como resolvê-lo. Na probabilidade máxima, resolvemosbeta
e, em seguida , definimossigma
o gradiente como zero. No quadrado mínimo regularizado, como os parâmetros de reqularizaçãolambda
são conhecidos, resolvemosbeta
diretamente. Mas se resolver diretamente o MAP, o que é o fim de resolverbeta
,sigma
? Eles podem ter uma solução explícita ou devemos usar um processo iterativo?Para um modelo linear com probabilidade normal multivariada anterior e normal multivariada, você acaba com uma distribuição posterior normal multivariada na qual a média do modelo posterior (e máximo a posteriori) é exatamente o que você obteria usando Tikhonov regularizado ( regularizado) mínimos quadrados com um parâmetro de regularização apropriado.L2
Observe que há uma diferença mais fundamental em que o posterior bayesiano é uma distribuição de probabilidade, enquanto a solução de mínimos quadrados regularizada de Tikhonov é uma estimativa pontual específica.
Isso é discutido em muitos livros sobre métodos bayesianos para problemas inversos. Veja, por exemplo:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
Da mesma forma, se você tem uma probabilidade anterior de Laplaciana e uma probabilidade normal multivariada, o máximo da distribuição posterior ocorre em um ponto que você pode obter resolvendo um problema de mínimos quadrados regularizados com .L1
fonte
Primeiro aviso que a mediana minimiza a norma L1 (veja aqui ou aqui para saber mais sobre L1 e L2)
enquanto a média minimiza L2
Agora, lembre-se de que o parâmetro das distribuições normais pode ser estimado usando a média da amostra , enquanto o estimador MLE para o parâmetro distribuição Laplace é mediano. Portanto, usar a distribuição Normal é equivalente à otimização da norma L2 e usar a distribuição Laplace, ao usar a otimização L1. Na prática, você pode pensar que a mediana é menos sensível a valores discrepantes do que a média, e o mesmo, usar a distribuição Laplace de cauda mais gorda como anterior torna seu modelo menos propenso a discrepâncias do que usar a distribuição Normal.μμ μ
Hurley, WJ (2009) Uma abordagem indutiva para calcular o MLE para a distribuição exponencial dupla . Revista de Métodos Estatísticos Aplicados Modernos: 8 (2), Artigo 25.
fonte
Para um problema de regressão com variáveis (sem interceptação), você faz OLS comok
Na regressão regularizada com pena de você fazLp
Podemos fazer o mesmo (observe que o sinal muda)
Isto está diretamente relacionado ao princípio bayesiano de
ou equivalente (sob condições de regularidade)
Agora não é difícil ver qual distribuição familiar exponencial corresponde a qual tipo de penalidade.
fonte
Para colocar a equivalência com mais precisão:
Otimizar pesos do modelo para minimizar uma função quadrática de perda de erro com regularização L2 é equivalente a encontrar os pesos que são mais prováveis em uma distribuição posterior avaliada usando a regra de Bayes, com pesos Gaussianos independentes de média zero antes
Prova:
A função de perda como descrita acima seria dada por
Observe que a distribuição para um gaussiano multivariado éN(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Usando a regra de Bayes, temos que
Onde somos capazes de dividir o Guassian multidimensional em um produto, porque a covariância é um múltiplo da matriz de identidade.
Obtenha probabilidade de log negativo−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
É claro que podemos eliminar a constante e multiplicar por qualquer valor sem afetar fundamentalmente a função de perda. (a constante não faz nada, a multiplicação efetivamente escala a taxa de aprendizado. Não afetará a localização dos mínimos). Portanto, podemos ver que a probabilidade logarítmica negativa da distribuição posterior é uma função de perda equivalente à função de perda de erro quadrada regularizada de L2.
Essa equivalência é geral e vale para qualquer função parametrizada dos pesos - não apenas para a regressão linear, como parece estar implícito acima.
fonte
Há duas características da modelagem bayesiana que precisam ser enfatizadas ao discutir a equivalência de certas estimativas de verossimilhança máxima penalizada e procedimentos bayesianos.
fonte