Entendo que podemos empregar regularização em um problema de regressão de mínimos quadrados como
e que esse problema tem uma solução de formulário fechado como:
Vemos que na 2ª equação, a regularização está simplesmente adicionando à diagonal de , o que é feito para melhorar a estabilidade numérica da inversão da matriz.
Meu atual entendimento "bruto" da estabilidade numérica é que, se uma função se tornar mais "numericamente estável", sua saída será menos significativamente afetada pelo ruído em suas entradas. Estou tendo dificuldades em relacionar esse conceito de estabilidade numérica aprimorada com o quadro geral de como ele evita / reduz o problema de sobreajuste.
Tentei procurar na Wikipedia e em alguns outros sites de universidades, mas eles não se aprofundam em explicar por que isso acontece.
fonte
Respostas:
No modelo linear , assumindo erros não correlacionados com zero médio e tendo classificação de coluna completa, o estimador de mínimos quadrados é um estimador imparcial para o parâmetro . No entanto, esse estimador pode ter alta variação. Por exemplo, quando duas das colunas de estão altamente correlacionadas.X ( X T X ) - 1 X T Y β XY=Xβ+ϵ X (XTX)−1XTY β X
O parâmetro de penalidade faz um estimador enviesado de , mas diminui sua variação. Além disso, é a expectativa posterior de em uma regressão bayesiana com um anterior em . Nesse sentido, incluímos algumas informações na análise que afirmam que os componentes de não devem estar muito longe de zero. Novamente, isso nos leva a uma estimativa de ponto enviesado de mas reduz a variação da estimativa.w β w β N ( 0 , 1λ w^ β W^ β βββN( 0 , 1λEu) β β β
Em uma configuração em que alta dimensão, digamos , o menor ajuste de quadrados corresponderá quase perfeitamente aos dados. Embora não seja imparcial, essa estimativa será altamente sensível às flutuações nos dados, pois em dimensões tão altas, haverá muitos pontos com alta alavancagem. Em tais situações, o sinal de alguns componentes de pode ser determinado por uma única observação. O termo de penalidade tem o efeito de reduzir essas estimativas para zero, o que pode reduzir o EME do estimador, reduzindo a variação.N ≈ p βX N≈p β^
Edit: Na minha resposta inicial eu forneci um link para um artigo relevante e na minha pressa eu removi. Aqui está: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf
fonte
A estabilidade numérica e a super adaptação são, de certo modo, questões relacionadas, mas diferentes.
O problema clássico do OLS:
Considere o problema clássico dos mínimos quadrados:
A solução é o clássico . Uma idéia é que, pela lei dos grandes números:b^=(X′X)−1(X′y)
Portanto, a estimativa OLS também converge para . (Em termos de álgebra linear, essa é a projeção linear da variável aleatória no intervalo linear das variáveis aleatórias .) E[xx']-1E[xy]yx1,x2,...,xkb^ E[xx′]−1E[xy] y x1,x2,…,xk
Problemas?
Mecanicamente, o que pode dar errado? Quais são os possíveis problemas?
O problema (1) pode levar ao ajuste excessivo à medida que a estimativa começa a refletir padrões na amostra que não existem na população subjacente. A estimativa pode refletir padrões em e que realmente não existem em e 1b^ 11nX′X E[xx′]E[xy]1nX′y E[xx′] E[xy]
O problema (2) significa que uma solução não é única. Imagine que estamos tentando estimar o preço de sapatos individuais, mas pares de sapatos sempre são vendidos juntos. Este é um problema incorreto, mas digamos que estamos fazendo isso de qualquer maneira. Podemos acreditar que o preço do sapato esquerdo mais o preço do sapato certo é igual a US $ 50, mas como podemos chegar a preços individuais? A definição dos preços do sapato esquerdo e o preço do sapato direito ok? Como podemos escolher entre todas as possibilidades?p r = 5pl=45 pr=5
Introduzindo a penalidade :L2
Agora considere:
Isso pode nos ajudar com os dois tipos de problemas. A penalidade empurra nossa estimativa de para zero. Isso funciona efetivamente como bayesiano antes que a distribuição sobre os valores do coeficiente seja centrada em torno de . Isso ajuda com o ajuste excessivo. Nossa estimativa refletirá os dados e nossas crenças iniciais de que está próximo de zero.b 0 bL2 b 0 b
$ 50 L 2 p l = p r = 25L2 regularização também sempre nos permite encontrar uma solução única para problemas . Se sabemos que o preço dos sapatos esquerdo e direito total é de , a solução que também minimiza a norma é escolher .$50 L2 pl=pr=25
Isso é mágico? Não. Regularização não é o mesmo que adicionar dados que realmente nos permitam responder à pergunta. regularização em certo sentido, adota a visão de que, se você não tiver dados, escolha estimativas mais próximas de . 0L2 0
fonte