Eu estava examinando a literatura sobre regularização e frequentemente vejo parágrafos que vinculam a regulatização de L2 ao prior gaussiano e L1 com Laplace centrado em zero.
Sei como esses anteriores são, mas não entendo como isso se traduz, por exemplo, em pesos no modelo linear. Em L1, se eu entendi direito, esperamos soluções esparsas, ou seja, alguns pesos serão empurrados para exatamente zero. E em L2 obtemos pesos pequenos, mas não zero.
Mas por que isso acontece?
Por favor, comente se eu precisar fornecer mais informações ou esclarecer meu caminho de pensamento.
regression
bayesian
prior
regularization
laplace-distribution
Dmitry Smirnov
fonte
fonte
Respostas:
A relação da distribuição de Laplace anterior com a mediana (ou norma L1) foi encontrada pelo próprio Laplace, que descobriu que, usando essa priorização, você estima a mediana em vez da média como na distribuição normal (ver Stingler, 1986 ou Wikipedia ). Isso significa que a regressão com distribuição de erros de Laplace estima a mediana (como, por exemplo, regressão quantílica), enquanto os erros normais se referem à estimativa de OLS.
Os antecedentes robustos sobre os quais você perguntou foram descritos também por Tibshirani (1996), que notou que a regressão robusta de Lasso na configuração bayesiana é equivalente a usar Laplace anterior. Esse prior para coeficientes é centrado em torno de zero (com variáveis centralizadas) e possui caudas amplas - portanto, a maioria dos coeficientes de regressão estimados usando-o acaba sendo exatamente zero. Isso fica claro se você observar atentamente a figura abaixo: a distribuição de Laplace tem um pico em torno de zero (há uma maior massa de distribuição), enquanto a distribuição Normal é mais difusa em torno de zero, portanto, valores diferentes de zero têm maior massa de probabilidade. Outras possibilidades de prévios robustos são as distribuições Cauchy ou .t
Usando esses priores, você é mais propenso a acabar com muitos coeficientes de valor zero, alguns de tamanho moderado e outros de tamanho grande (cauda longa), enquanto que com o Normal anterior, você obtém coeficientes de tamanho moderado que não são exatamente zero, mas também não tão longe de zero.
(fonte da imagem Tibshirani, 1996)
Stigler, SM (1986). A história da estatística: a medida da incerteza antes de 1900. Cambridge, MA: Belknap Press, da Harvard University Press.
Tibshirani, R. (1996). Retração e seleção de regressão através do laço. Jornal da Sociedade Estatística Real. Série B (Metodológica), 267-288.
Gelman, A., Jakulin, A., Pittau, GM e Su, Y.-S. (2008). Uma distribuição prévia padrão pouco informativa para modelos de regressão logística e outros. The Annals of Applied Statistics, 2 (4), 1360-1383.
Norton, RM (1984). A Distribuição Exponencial Dupla: Usando Cálculo para Encontrar um Estimador de Máxima Verossimilhança. The American Statistician, 38 (2): 135-136.
fonte
Visão freqüentista 👀
Em certo sentido, podemos pensar em ambas as regularizações como "encolhendo os pesos" ; L2 minimiza a norma euclidiana dos pesos, enquanto L1 minimiza a norma de Manhattan. Seguindo essa linha de raciocínio, podemos argumentar que os equipotenciais de L1 e L2 são esféricos e em forma de diamante, respectivamente, portanto é mais provável que L1 leve a soluções esparsas, como ilustrado em Reconhecimento de padrões e aprendizado de máquina de Bishop :
Visão bayesiana 👀
No entanto, para entender como os anteriores se relacionam com o modelo linear , precisamos entender a interpretação bayesiana da regressão linear comum . O post do blog de Katherine Bailey é uma excelente leitura para isso. Em poucas palavras, assumimos erros de IDI distribuídos normalmente em nosso modelo linear
Como se vê ... O estimador de probabilidade máxima é idêntico a minimizar o erro ao quadrado entre os valores de saída previstos e reais sob a suposição de normalidade para o erro.
Regularização como colocação de pesos anteriores
Se colocarmos um valor não uniforme antes nos pesos da regressão linear, a estimativa da probabilidade máxima a posteriori (PAM) seria:
Agora , temos outra visão de por que colocar um Laplace antes nos pesos tem maior probabilidade de causar escassez: como a distribuição de Laplace está mais concentrada em torno de zero , é mais provável que nossos pesos sejam zero.
fonte