Estou procurando literatura sobre regressão negativa da crista .
Em suma, isto é uma generalização de regressão linear utilizando cume negativo na fórmula
O caso positivo tem uma teoria legal: como uma função de perda, como uma restrição, como um Bayes anterior ... mas me sinto perdido com a versão negativa apenas com a fórmula acima. Por acaso, é útil para o que estou fazendo, mas não consigo interpretá-lo claramente.
Você conhece algum texto introdutório sério sobre crista negativa? Como pode ser interpretado?
regression
regularization
ridge-regression
Benoit Sanchez
fonte
fonte
Respostas:
Aqui está uma ilustração geométrica do que está acontecendo com crista negativa.
Considerarei estimadores do formato resultante da função de perdaAqui está uma ilustração bastante padrão do que acontece em um caso bidimensional com . Zero lambda corresponde à solução OLS, infinito lambda reduz o beta estimado para zero:
Agora, considere o que acontece quando , onde é o maior valor singular de . Para lambdas negativas muito grandes, é obviamente próximo de zero. Quando lambda se aproxima de , o termo obtém um valor singular que se aproxima de zero, o que significa que o inverso tem um valor singular que vai para o infinito negativo. Esse valor singular corresponde ao primeiro componente principal de , portanto, no limite, obtém-se apontando na direção do PC1, mas com o valor absoluto crescendo até o infinito.λ∈(−∞,−s2max) smax X β^λ −s2max (X⊤X+λI) X β^λ
O que é realmente legal é que se pode desenhar da mesma maneira da mesma maneira: os betas são dados por pontos em que os círculos tocam as elipses por dentro :
Quando , uma lógica semelhante se aplica, permitindo continuar o caminho da crista no outro lado do estimador OLS. Agora os círculos tocam as elipses do lado de fora. No limite, os betas se aproximam da direção do PC2 (mas acontece muito além deste esboço):λ∈(−s2min,0]
O intervalo é uma lacuna de energia : os estimadores de lá não vivem na mesma curva.(−s2max,−s2min)
ATUALIZAÇÃO: Nos comentários, @MartinL explica que, para a perda não tem um mínimo, mas tem um máximo. E esse máximo é dado por . É por isso que a mesma construção geométrica com o toque de círculo / elipse continua funcionando: ainda estamos procurando pontos com gradiente zero. Quando , a perda tem um mínimo e é fornecida por , exatamente como no normal caso.λ<−s2max Lλ β^λ −s2min<λ≤0 Lλ β^λ λ>0
Mas quando , a perda não possui máximo ou mínimo; corresponderia a um ponto de sela. Isso explica a "diferença de energia".−s2max<λ<−s2min Lλ β^λ
O surge naturalmente de uma regressão de crista restrita específica, consulte O limite do estimador de regressão de crista de "variação de unidade" quando . Isso está relacionado ao que é conhecido na literatura quimiométrica como "regressão contínua", veja minha resposta no tópico vinculado.λ∈(−∞,−s2max) λ→∞
O pode ser tratado exatamente da mesma maneira que : a função de perda permanece a mesma e o estimador de crista fornece seu mínimo.λ∈(−s2min,0] λ>0
fonte