O limite do estimador de regressão da crista de “variância unitária” quando

21

Considere a regressão de crista com uma restrição adicional exigindo que tenha soma unitária dos quadrados (equivalentemente, variação unitária); se necessário, pode-se supor que possui soma unitária dos quadrados:y^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

Qual é o limite de β^λ quando λ ?


Aqui estão algumas afirmações que acredito serem verdadeiras:

  1. Quando λ=0 , existe uma solução explícita pura: use o estimador OLS β^0=(XX)1Xy e normalizá-lo para satisfazer a restrição (pode-se ver isso adicionando um multiplicador de Lagrange e diferenciar):

    β^0=β^0/Xβ^0.
  2. Em geral, a solução é

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    Não vejo uma solução de formulário fechado quando λ>0 . Parece que a solução é equivalente ao estimador RR usual com alguns λ normalizados para satisfazer a restrição, mas não vejo uma fórmula fechada para λ .
  3. Quando λ , o estimador RR usual

    β^λ=(XX+λI)1Xy
    obviamente converge para zero, mas sua direção β^λ/β^λconverge para a direção de Xy , também conhecido como o primeiro componente de mínimos quadrados parciais (PLS).

As declarações (2) e (3) juntas me fazem pensar que talvez β^λ também converja para o \ mathbf X ^ \ top \ mathbf y normalizado adequadamente Xy, mas não tenho certeza se isso está correto e não consegui me convencer de nenhuma maneira.

ameba diz Restabelecer Monica
fonte

Respostas:

17

Uma interpretação geométrica

O estimador descrito na pergunta é o multiplicador de Lagrange equivalente ao seguinte problema de otimização:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

que pode ser visto, geometricamente, como encontrar o menor elipsóide que toca a interseção da esfera elipsóidef(β)=RSS g(β)=th(β)=1


Comparação com a visualização de regressão de crista padrão

Em termos de uma vista geométrica, isso altera a vista antiga (para regressão padrão da crista) do ponto em que um esferóide (erros) e uma esfera ( ) se tocamβ2=t . Em uma nova visão, procuramos o ponto em que o esferóide (erros) toca uma curva (norma beta restrita por ) . A única esfera (azul na imagem esquerda) muda para uma figura de dimensão inferior devido à interseção com a restrição .X β 2 = 1X β = 1Xβ2=1Xβ=1

No caso bidimensional, isso é simples de visualizar.

vista geométrica

Quando sintonizar o parâmetro , então, mudar o comprimento relativo das esferas azuis / vermelho ou os tamanhos relativos dos e (Na teoria de multiplicadores de Lagrange provavelmente há uma maneira elegante de formal e descreva exatamente que isso significa que para cada como função de , ou invertida, é uma função monótona.Mas imagino que você possa ver intuitivamente que a soma dos resíduos quadráticos só aumenta quando diminuímos .)tf(β)g(β) t λ | | beta | |tλ||β||

A solução para é como você argumentou em uma linha entre 0 eβλλ=0βLS

A solução para está (de fato, como você comentou) nos carregamentos do primeiro componente principal. Este é o ponto em que é o menor para . É o ponto em que o círculo toca na elipse em um único ponto.βλλβ2βX2=1β2=t|Xβ|=1

Nesta vista 2-d, as arestas da interseção da esfera esferóide são pontos. Em múltiplas dimensões, estas serão curvasβ2=tβX2=1

(I imaginado que estas curvas seria elipses mas eles são mais complicados. Você poderia imaginar o elipsóide sendo cortada pela bola como alguns tipo de frustum elipsóide, mas com bordas que não são simples elipses)Xβ2=1β2t


Em relação ao limiteλ

No início (edições anteriores), escrevi que haverá alguns limitadores acima dos quais todas as soluções são iguais (e residem no ponto ). Mas esse não é o casoλlimβ

Considere a otimização como um algoritmo LARS ou descida de gradiente. Se, em qualquer ponto houver uma direção na qual possamos alterar o , de forma que o termo de penalidade aumente menos que o termo SSR diminua, você não estará no mínimo .ββ|β|2|yXβ|2

  • Na regressão normal da crista, você tem uma inclinação zero (em todas as direções) para no ponto . Portanto, para todos os finitos, a solução não pode ser (já que uma etapa infinitesimal pode ser feita para reduzir a soma dos resíduos quadrados sem aumentar a penalidade).|β|2β=0λβ=0
  • Para o LASSO, isso não é o mesmo, pois: a penalidade é (portanto, não é quadrática com inclinação zero). Por isso, o LASSO terá algum valor limitador acima do qual todas as soluções são zero, porque o termo da penalidade (multiplicado por ) aumentará mais do que a soma residual dos quadrados diminui.|β|1λlimλ
  • Para a crista restringida, você obtém o mesmo que a regressão regular da crista. Se você alterar o partir de , essa alteração será perpendicular a (o será perpendicular à superfície da elipse ) e pode ser alterado em uma etapa infinitesimal sem alterar o termo da penalidade, mas diminuindo a soma dos resíduos ao quadrado. Assim, para qualquer finito, o ponto não pode ser a solução.ββ β β | X beta | = 1 β λ β ββ|Xβ|=1βλβ

Notas adicionais sobre o limiteλ

O limite de regressão de crista usual para até o infinito corresponde a um ponto diferente na regressão de crista restrita. Esse limite "antigo" corresponde ao ponto em que é igual a -1. Em seguida, a derivada da função Lagrange no problema normalizadoλμ

2(1+μ)XTXβ+2XTy+2λβ
corresponde a uma solução para a derivada da função Lagrange no problema padrão

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


Escrito por StackExchangeStrike

Sextus Empiricus
fonte
+1. Muito obrigado, isso é super útil! Vou precisar de algum tempo para pensar.
Ameba diz Reinstate Monica
Vale ressaltar que os elipsóides vermelho e preto têm a mesma forma: é por isso que o ponto em que tocam está na linha que liga seus centros. Prova gráfica agradável do ponto 1 da minha pergunta.
Ameba diz Reinstate Monica
Estou tentando entender onde no seu desenho está o beta que corresponde ao estimador de crista com infinito lambda, normalizado para ficar na elipse negra. Eu acho que está em algum lugar entre e (usando minha notação) - dois pontos marcados com círculos abertos pretos no seu desenho. Portanto, se fizermos regressão em cadeia e normalizarmos a solução e aumentarmos o lambda de 0 ao infinito, provavelmente nos levará pelo mesmo arco, mas não por todo o caminho até PC1. Em vez disso, inserir explicitamente a restrição faz com que as soluções continuem até o PC1. β * X β = 1β0βXβ=1
Ameba diz Reinstate Monica
+5 (iniciei uma recompensa que felizmente atribuirei à sua resposta). Também publiquei minha própria resposta porque fiz algumas derivações algébricas e isso foi demais para acrescentar à pergunta. Não estou convencido pela sua conclusão de que haverá algum finito após o qual a solução não será mais alterada e será fornecida pelo PC1. Não o vejo algebricamente, e não entendo bem o seu argumento de por que ele deveria existir. Vamos tentar descobrir. λlim
Ameba diz Reinstate Monica
@amoeba, você estava certo sobre o finito não existente. Argumentei muito intuitivamente e pulei rapidamente de uma condição específica para a regressão regular da cordilheira para a regressão restrita da cordilheira. RR regular tem uma inclinação zero (em todas as direções) para no ponto . Eu pensei que (desde ) você não consegue isso com a regressão restrita. No entanto, porque está restrito ao elipsóide você não pode 'mover' em todas as direções. | beta | 2 β = 0 β * 0 β | X beta | = 1 βλlim|β|2β=0β0β|Xβ|=1β
Sextus Empiricus
10

Esta é uma contrapartida algébrica da bela resposta geométrica de @ Martijn.

Primeiro de tudo, o limite de quando for muito simples de obter: no limite, o primeiro termo na função de perda se torna insignificante e, portanto, pode ser desconsiderado. O problema de otimização se torna que é o primeiro componente principal deλ lim λ β * λ = β * = um r g

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λX
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(dimensionado adequadamente). Isso responde à pergunta.

Agora vamos considerar a solução para qualquer valor de que me referi no ponto 2 da minha pergunta. Adicionando à função de perda o multiplicador Lagrange e diferenciando, obtemosμ ( X β 2 - 1 )λμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

Como essa solução se comporta quando cresce de zero ao infinito?λ

  • Quando , obtemos uma versão em escala da solução OLS:β * 0 ~ β 0 .λ=0

    β^0β^0.
  • Para valores positivos mas pequenos de , a solução é uma versão em escala de algum estimador de crista:p * λ ~ p λ * .λ

    β^λβ^λ.
  • Quando, o valor de necessário para satisfazer a restrição é . Isso significa que a solução é uma versão em escala do primeiro componente PLS (o que significa que do estimador de crista correspondente é ):( 1 + μ ) 0 λ *p * X Xy ~ Xy .λ=XXy(1+μ)0λ

    β^XXyXy.
  • Quando se torna maior que isso, o termo necessário se torna negativo. A partir de agora, a solução é uma versão em escala de um estimador de pseudo-crista com parâmetro de regularização negativo ( crista negativa ). Em termos de direções, agora estamos passando pela regressão de crista com infinita lambda.λ(1+μ)

  • Quando , o termo chegará a zero (ou divergirá para infinito), a menos que que seja o maior valor singular de . Isso tornará finito e proporcional ao primeiro eixo principal . Precisamos definir para satisfazer a restrição. Assim, obtemos esseλ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

No geral, vemos que esse problema de minimização restrita abrange versões de variação de unidade do OLS, RR, PLS e PCA no seguinte espectro:

OLSRRPLSnegative RRPCA

Isso parece ser equivalente a uma estrutura de quimiometria obscura (?) Chamada "regressão contínua" (consulte https://scholar.google.de/scholar?q="continuum+regression " , em particular Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999, etc.), que permite a mesma unificação, maximizando um critério ad hocObviamente, isso gera OLS dimensionado quando , PLS quando , PCA quando e pode ser mostrado para gerar RR dimensionado para

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , ver Sundberg 1993.

Apesar de ter um pouco de experiência com RR / PLS / PCA / etc, devo admitir que nunca ouvi falar em "regressão contínua" antes. Também devo dizer que não gosto deste termo.


Um esquema que fiz com base no do @ Martijn:

Regressão de crista de variação de unidade

Atualização: Figura atualizada com o caminho do cume negativo, muito obrigado a @Martijn por sugerir a aparência. Veja minha resposta em Noções básicas sobre regressão de crista negativa para obter mais detalhes.

ameba diz Restabelecer Monica
fonte
A "regressão contínua" parece fazer parte de uma categoria surpreendentemente ampla de técnicas destinadas a unificar PLS e PCA dentro de uma estrutura comum. Eu nunca tinha ouvido falar sobre isso, aliás, até pesquisar cume negativo (eu forneço um link para o artigo de Bjorkstron & Sundberg, 1999, no primeiro comentário da pergunta do cume negativo ao qual você vincula), embora pareça ser amplamente discutido em a literatura quimiométrica. Deve haver alguma razão histórica pela qual ela se desenvolveu aparentemente isolada de outros campos da estatística. (1/3)
Ryan Simmons
Um artigo que você pode querer ler é de Jong et al. (2001) . Sua formulação de "PLS canônico" parece, em um rápido relance, ser equivalente à sua, embora eu admita que ainda não comparei rigorosamente a matemática (eles também fornecem uma revisão de várias outras generalizações de PLS-PCA na mesma linha). Mas pode ser interessante ver como eles explicaram o problema. (2/3)
Ryan Simmons
Caso esse link morra, a citação completa é: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. "Mínimos quadrados parciais canônicos e regressão de potência contínua". Journal of Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Ryan Simmons
1
ah, ok, então e vão para infinito, mas a proporção permanece . De qualquer forma, o caminho de regressão da crista negativa deve estar no setor (negativo) entre os vetores PLS e PCA, de modo que sua projeção na elipseestá entre os pontos PLS e PCA. (a norma vai ao infinito faz sentido como os vai para o infinito, bem, então o caminho continua até o canto inferior direito, inicialmente tangente, negativo, PLS e, eventualmente, a PCA) 1 + μ * ± s 2 m um x | X β = 1 | μλ1+μ±smax2|Xβ=1|μ
Sexto Empírico
1
Isso adicionaria à visualização. Eu imagino os três pontos atuais do caminho RR (onde o círculo e o elipsóide se tocam) continuando para baixo à direita e, eventualmente, no infinito, o círculo e o elipsóide deve 'tocar' na direção do local onde o círculo toca o elipsóide | X ( β - β ) | 2 = R S S | beta | 2 = t p c a | X beta | 2 = 1|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Sextus Empiricus