Uma interpretação geométrica
O estimador descrito na pergunta é o multiplicador de Lagrange equivalente ao seguinte problema de otimização:
minimizar f( β) sujeito a g( β) ≤ t e h ( β) = 1
f( β)g( β)h ( β)= ∥ y- Xβ∥2= ∥ β∥2= ∥ Xβ∥2
que pode ser visto, geometricamente, como encontrar o menor elipsóide que toca a interseção da esfera elipsóidef( β) = RSS g( β) = th ( β) = 1
Comparação com a visualização de regressão de crista padrão
Em termos de uma vista geométrica, isso altera a vista antiga (para regressão padrão da crista) do ponto em que um esferóide (erros) e uma esfera ( ) se tocam∥ β∥2= t . Em uma nova visão, procuramos o ponto em que o esferóide (erros) toca uma curva (norma beta restrita por ) . A única esfera (azul na imagem esquerda) muda para uma figura de dimensão inferior devido à interseção com a restrição .‖ X β ‖ 2 = 1 ‖ X β ‖ = 1∥ Xβ∥2= 1∥ Xβ∥ = 1
No caso bidimensional, isso é simples de visualizar.
Quando sintonizar o parâmetro , então, mudar o comprimento relativo das esferas azuis / vermelho ou os tamanhos relativos dos e (Na teoria de multiplicadores de Lagrange provavelmente há uma maneira elegante de formal e descreva exatamente que isso significa que para cada como função de , ou invertida, é uma função monótona.Mas imagino que você possa ver intuitivamente que a soma dos resíduos quadráticos só aumenta quando diminuímos .)tf( β)g( β) t λ | | beta | |tλ| | β| |
A solução para é como você argumentou em uma linha entre 0 eβλλ = 0βLS
A solução para está (de fato, como você comentou) nos carregamentos do primeiro componente principal. Este é o ponto em que é o menor para . É o ponto em que o círculo toca na elipse em um único ponto.βλλ→∞∥β∥2∥βX∥2=1∥β∥2=t|Xβ|=1
Nesta vista 2-d, as arestas da interseção da esfera esferóide são pontos. Em múltiplas dimensões, estas serão curvas∥β∥2=t∥βX∥2=1
(I imaginado que estas curvas seria elipses mas eles são mais complicados. Você poderia imaginar o elipsóide sendo cortada pela bola como alguns tipo de frustum elipsóide, mas com bordas que não são simples elipses)∥Xβ∥2= 1∥ β∥2≤ t
Em relação ao limiteλ→∞
No início (edições anteriores), escrevi que haverá alguns limitadores acima dos quais todas as soluções são iguais (e residem no ponto ). Mas esse não é o casoλlimβ∗∞
Considere a otimização como um algoritmo LARS ou descida de gradiente. Se, em qualquer ponto houver uma direção na qual possamos alterar o , de forma que o termo de penalidade aumente menos que o termo SSR diminua, você não estará no mínimo .ββ|β|2|y−Xβ|2
- Na regressão normal da crista, você tem uma inclinação zero (em todas as direções) para no ponto . Portanto, para todos os finitos, a solução não pode ser (já que uma etapa infinitesimal pode ser feita para reduzir a soma dos resíduos quadrados sem aumentar a penalidade).|β|2β=0λβ=0
- Para o LASSO, isso não é o mesmo, pois: a penalidade é (portanto, não é quadrática com inclinação zero). Por isso, o LASSO terá algum valor limitador acima do qual todas as soluções são zero, porque o termo da penalidade (multiplicado por ) aumentará mais do que a soma residual dos quadrados diminui.|β|1λlimλ
- Para a crista restringida, você obtém o mesmo que a regressão regular da crista. Se você alterar o partir de , essa alteração será perpendicular a (o será perpendicular à superfície da elipse ) e pode ser alterado em uma etapa infinitesimal sem alterar o termo da penalidade, mas diminuindo a soma dos resíduos ao quadrado. Assim, para qualquer finito, o ponto não pode ser a solução.ββ∗∞ β β ∗ ∞ | X beta | = 1 β λ β ∗ ∞ββ∗∞|Xβ|=1βλβ∗∞
Notas adicionais sobre o limiteλ→∞
O limite de regressão de crista usual para até o infinito corresponde a um ponto diferente na regressão de crista restrita. Esse limite "antigo" corresponde ao ponto em que é igual a -1. Em seguida, a derivada da função Lagrange no problema normalizadoλμ
2(1+μ)XTXβ+2XTy+2λβ
corresponde a uma solução para a derivada da função Lagrange no problema padrão
2XTXβ′+2XTy+2λ(1+μ)β′with β′=(1+μ)β
Escrito por StackExchangeStrike
Esta é uma contrapartida algébrica da bela resposta geométrica de @ Martijn.
Primeiro de tudo, o limite de quando for muito simples de obter: no limite, o primeiro termo na função de perda se torna insignificante e, portanto, pode ser desconsiderado. O problema de otimização se torna que é o primeiro componente principal deλ → ∞ lim λ → ∞ β * λ = β * ∞ = um r g
Agora vamos considerar a solução para qualquer valor de que me referi no ponto 2 da minha pergunta. Adicionando à função de perda o multiplicador Lagrange e diferenciando, obtemosμ ( ″ X β ″ 2 - 1 )λ μ(∥Xβ∥2−1)
Como essa solução se comporta quando cresce de zero ao infinito?λ
Quando , obtemos uma versão em escala da solução OLS:β * 0 ~ β 0 .λ=0
Para valores positivos mas pequenos de , a solução é uma versão em escala de algum estimador de crista:p * λ ~ p λ * .λ
Quando, o valor de necessário para satisfazer a restrição é . Isso significa que a solução é uma versão em escala do primeiro componente PLS (o que significa que do estimador de crista correspondente é ):( 1 + μ ) 0 λ * ∞ p * ‖ X X ⊤ y ‖ ~ X ⊤ y .λ=∥XX⊤y∥ (1+μ) 0 λ∗ ∞
Quando se torna maior que isso, o termo necessário se torna negativo. A partir de agora, a solução é uma versão em escala de um estimador de pseudo-crista com parâmetro de regularização negativo ( crista negativa ). Em termos de direções, agora estamos passando pela regressão de crista com infinita lambda.λ (1+μ)
Quando , o termo chegará a zero (ou divergirá para infinito), a menos que que seja o maior valor singular de . Isso tornará finito e proporcional ao primeiro eixo principal . Precisamos definir para satisfazer a restrição. Assim, obtemos esseλ→∞ ((1+μ)X⊤X+λI)−1 μ=−λ/s2max+α smax X=USV⊤ β^∗λ V1 μ=−λ/s2max+U⊤1y−1
No geral, vemos que esse problema de minimização restrita abrange versões de variação de unidade do OLS, RR, PLS e PCA no seguinte espectro:
Isso parece ser equivalente a uma estrutura de quimiometria obscura (?) Chamada "regressão contínua" (consulte https://scholar.google.de/scholar?q="continuum+regression " , em particular Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999, etc.), que permite a mesma unificação, maximizando um critério ad hocObviamente, isso gera OLS dimensionado quando , PLS quando , PCA quando e pode ser mostrado para gerar RR dimensionado para
Apesar de ter um pouco de experiência com RR / PLS / PCA / etc, devo admitir que nunca ouvi falar em "regressão contínua" antes. Também devo dizer que não gosto deste termo.
Um esquema que fiz com base no do @ Martijn:
Atualização: Figura atualizada com o caminho do cume negativo, muito obrigado a @Martijn por sugerir a aparência. Veja minha resposta em Noções básicas sobre regressão de crista negativa para obter mais detalhes.
fonte