Sob exatamente quais condições a regressão de crista é capaz de fornecer uma melhoria em relação à regressão de mínimos quadrados ordinários?

16

A regressão de Ridge estima parâmetros β em um modelo linear y=Xβ por

β^λ=(XX+λI)1Xy,
que λ é um parâmetro de regularização. É sabido que frequentemente apresenta um desempenho melhor que a regressão OLS (com λ=0 ) quando há muitos preditores correlacionados.

Um teorema da existência para regressão de cume diz que sempre existe um parâmetro λ>0 tal que o erro quadrático médio de β^λ é estritamente menor que o erro quadrático médio do OLS estimativa β^OLS=β^0 . Em outras palavras, um valor ideal de λ é sempre diferente de zero. Aparentemente, isso foi comprovado pela primeira vez em Hoerl e Kennard, 1970, e é repetido em muitas anotações de aulas que eu encontro on-line (por exemplo, aqui e aqui ). Minha pergunta é sobre as suposições deste teorema:

  1. Existem suposições sobre a matriz de covariância XX ?

  2. Existem suposições sobre a dimensionalidade do X ?

Em particular, o teorema ainda é verdadeiro se os preditores são ortogonais (por exemplo, XX é diagonal) ou mesmo se XX=I ? E ainda é verdade se houver apenas um ou dois preditores (digamos, um preditor e um intercepto)?

Se o teorema não faz tais suposições e permanece verdadeiro mesmo nesses casos, por que a regressão de crista geralmente é recomendada apenas no caso de preditores correlacionados e nunca (?) É recomendada para regressão simples (isto é, não múltipla)?


Isso está relacionado à minha pergunta sobre a visão unificada sobre o encolhimento: qual é a relação (se houver) entre o paradoxo de Stein, a regressão de crista e os efeitos aleatórios em modelos mistos? , mas nenhuma resposta esclarece esse ponto até agora.

ameba diz Restabelecer Monica
fonte
1
Parece que todas, exceto a última pergunta, são abordadas diretamente no artigo de Hoerl & Kennard, especialmente na primeira frase da Introdução e na primeira frase das Conclusões. A última pergunta pode ser respondida, observando que a covariância entre um vetor constante e qualquer preditor único é sempre zero, o que permite a um (de maneira padrão) reduzir para uma matriz . 1×1XX1×1
whuber
1
Obrigado, @whuber. Acredito que o artigo da Hoerl & Kennard responda minhas perguntas (pelo menos as técnicas) - deve-se poder seguir a prova e verificar as suposições (ainda não o fiz). Mas não estou totalmente convencido pelas frases a que você está se referindo. Como a primeira frase da Introdução está relacionada à minha pergunta? A primeira frase das Conclusões sugere que se possui espectro uniforme (por exemplo, é igual a ), o teorema não se aplica. Mas não tenho 100% de certeza, pois não vejo essa suposição explicitamente declarada antes da prova. IXXI
Ameba diz Reinstate Monica
Olhe que tipos de perguntas podem ser feitas por usuários de alto representante (que normalmente só responder a eles) (e também para a sua outra pergunta relacionada que me enviou aqui stats.stackexchange.com/questions/122062/... !
javadba

Respostas:

11

A resposta para 1 e 2 é não, mas é necessário cuidado na interpretação do teorema da existência.

Variação do Estimador de Ridge

Seja a estimativa da crista sob a penalidade e seja o parâmetro verdadeiro para o modelo . Seja os valores próprios de . Das equações de Hoerl & Kennard 4.2-4.5, o risco (em termos da norma esperada para o erro) é kβY=Xβ+£λ1,...,λpXTXG2β^kβY=Xβ+ϵλ1,,λpXTX
L2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
onde, tanto quanto eu sei, Eles observam que tem a interpretação da variação do produto interno de , enquanto é o produto interno do viés.γ1 ^ β -βγ2(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

Supondo que , então Seja seja a derivada do risco w / r / t . Como , concluímos que há alguns tais que . R ( k ) = p σ 2 + k 2 β T βXTX=IpR(k)=2k(1+k)βTβ-(pσ2+k2βTβ)

R(k)=pσ2+k2βTβ(1+k)2.
klimk0+R(k)=-2pσ2<0k>0R(k)<R(0)
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

Os autores observam que a ortogonalidade é a melhor que você pode esperar em termos de risco em e que, à medida que o número de condições de aumenta, abordagens .X T X lim k 0 + R ( k ) - k=0XTXlimk0+R(k)

Comente

Parece haver um paradoxo aqui: se e são constantes, estamos apenas estimando a média de uma sequência de variáveis Normal e conhecemos a estimativa imparcial da baunilha é admissível neste caso. Isso é resolvido observando que o raciocínio acima apenas fornece que existe um valor minimizador de para fixo . Mas para qualquer , podemos fazer com que o risco exploda aumentando , de modo que esse argumento por si só não mostra admissibilidade para a estimativa da crista.p=1X(β,σ2)kβTβkβTβ

Por que a regressão de crista geralmente é recomendada apenas no caso de preditores correlacionados?

A derivação de risco da H&K mostra que, se considerarmos que é pequeno e se o design for quase singular, podemos obter grandes reduções no risco da estimativa. Acho que a regressão de cume não é usada onipresentemente porque a estimativa de OLS é um padrão seguro e que as propriedades de invariância e imparcialidade são atraentes. Quando falha, falha honestamente - sua matriz de covariância explode. Também existe talvez um ponto filosófico / inferencial, de que se o seu design é quase singular e você tem dados observacionais, então a interpretação de como dando alterações no para mudanças de unidade no é suspeita - a grande matriz de covariância é uma sintoma disso. βTβXTXβEYX

Mas se seu objetivo é apenas previsão, as preocupações inferenciais não se mantêm, e você tem um forte argumento para usar algum tipo de estimador de encolhimento.

Andrew M
fonte
2
Uau, obrigada! Deixe-me verificar minha compreensão da seção "Comentário": para qualquer , um ideal é diferente de zero, mas seu valor é diferente para betas diferentes e nenhum fixo pode bater para todos os betas, o que é o que é necessário para a admissibilidade. Corrigir? Além disso, você poderia comentar sobre minha pergunta geral: [se o teorema não faz tais suposições,] por que a regressão de crista geralmente é recomendada apenas para preditores correlacionados e nunca para regressão simples (não múltipla)? É porque o efeito positivo é empiricamente conhecido por ser pequeno demais para incomodar? βkkk=0
Ameba diz Reinstate Monica
2
A H&K assume consistentemente que é de classificação completa. Ao afirmar que a resposta ao número 1 é "não", você está afirmando que os resultados deles continuam sendo verdadeiros quando não é? XX
whuber
3
@whuber: O ponto central de sua derivação do risco é que a estimativa da crista , onde é a estimativa da OLS e . Isso claramente não pode ser mantido como tal quando é deficiente na classificação. Mas a estimativa da OLS não existe - portanto, talvez qualquer estimativa com risco finito (seja grande o suficiente e você terá , com risco ) seja melhor do que um estimador que não existe? Tanto quanto a derivação de risco ainda é válida: não tenho certeza. Uma prova diferente seria necessária. β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
Andrew M
3
@amoeba: sim, sua correção parece correta. Para dominar o estimador OLS, precisamos de algum tipo de procedimento adaptativo , no qual é uma função dos dados. Em seu outro segmento, Xi'an fez um comentário sobre estimativas de cordilheiras adaptáveis, para que esse possa ser um lugar para procurar. RE: estimativas de crista para desenhos ortogonais - eu adicionei outro comentário quanto à orientação que eu levaria da prova deles. λ
Andrew M