Seja um projetor ortogonal no espaço da coluna de . Temos que
em que
H2X2
==minβ1,β2{∥y−X1β1−X2β2∥22+λ∥β1∥1}minβ1,β2{∥H2(y−X1β1)−X2β2∥22+∥(I−H2)(y−X1β1)∥22+λ∥β1∥1}minβ1|β2minβ2{∥H2(y−X1β1)−X2β2∥22+∥(I−H2)(y−X1β1)∥22+λ∥β1∥1},
β^2=argminβ2{∥H2(y−X1β1)−X2β2∥22+∥(I−H2)(y−X1β1)∥22+λ∥β1∥1}=argminβ2{∥H2(y−X1β1)−X2β2∥22}
satisfaz para todos desde para todos . Considerando nesta sentença o caso em que é a classificação completa, temos ainda que pois neste caso.
X2β^2=H2(y−X1β1)β1H2(y−X1β1)∈col(X2)β1X2β^2=(XT2X2)−1XT2(y−X1β1),
H2=X2(XT2X2)−1X2
Conectando isso ao primeiro problema de otimização, vemos que
que pode ser avaliado através das ferramentas computacionais usuais do laço. Como whuber sugere em seu comentário, esse resultado é intuitivo, pois os coeficientes irrestritos podem abranger o espaço de , de modo que apenas a parte do espaço ortogonal ao espaço de é motivo de preocupação ao avaliar .
β^1=argminβ1{0+∥(I−H2)(y−X1β1)∥22+λ∥β1∥1}=argminβ1{∥(I−H2)y−(I−H2)X1β1∥22+λ∥β1∥1},(*)
β2X2X2β^1
Apesar da notação ser um pouco mais geral, quase qualquer um que já tenha usado o laço está familiarizado com esse resultado. Para ver isso, suponha que seja o (comprimento ) vetores de um, representando a interceptação. Então, a matriz de projeção e, para qualquer vetor , a projeção ortogonal apenas diminui a vetor. Considerando a equação , é exatamente isso que as pessoas fazem quando calculam os coeficientes do laço! Eles degradam os dados para que a interceptação não precise ser considerada.X2=1nH2=1(1T1)−11T=1n11Tv(I−H2)v=v−v¯1(∗)