A regressão de Ridge estima parâmetros em um modelo linear por
Um teorema da existência para regressão de cume diz que sempre existe um parâmetro tal que o erro quadrático médio de é estritamente menor que o erro quadrático médio do OLS estimativa . Em outras palavras, um valor ideal de é sempre diferente de zero. Aparentemente, isso foi comprovado pela primeira vez em Hoerl e Kennard, 1970, e é repetido em muitas anotações de aulas que eu encontro on-line (por exemplo, aqui e aqui ). Minha pergunta é sobre as suposições deste teorema:
Existem suposições sobre a matriz de covariância ?
Existem suposições sobre a dimensionalidade do ?
Em particular, o teorema ainda é verdadeiro se os preditores são ortogonais (por exemplo, é diagonal) ou mesmo se ? E ainda é verdade se houver apenas um ou dois preditores (digamos, um preditor e um intercepto)?
Se o teorema não faz tais suposições e permanece verdadeiro mesmo nesses casos, por que a regressão de crista geralmente é recomendada apenas no caso de preditores correlacionados e nunca (?) É recomendada para regressão simples (isto é, não múltipla)?
Isso está relacionado à minha pergunta sobre a visão unificada sobre o encolhimento: qual é a relação (se houver) entre o paradoxo de Stein, a regressão de crista e os efeitos aleatórios em modelos mistos? , mas nenhuma resposta esclarece esse ponto até agora.
fonte
Respostas:
A resposta para 1 e 2 é não, mas é necessário cuidado na interpretação do teorema da existência.
Variação do Estimador de Ridge
Seja a estimativa da crista sob a penalidade e seja o parâmetro verdadeiro para o modelo . Seja os valores próprios de . Das equações de Hoerl & Kennard 4.2-4.5, o risco (em termos da norma esperada para o erro) é kβY=Xβ+£λ1,...,λpXTXG2β∗^ k β Y=Xβ+ϵ λ1,…,λp XTX
L2
Supondo que , então Seja seja a derivada do risco w / r / t . Como , concluímos que há alguns tais que . R ( k ) = p σ 2 + k 2 β T βXTX=Ip R′(k)=2k(1+k)βTβ-(pσ2+k2βTβ)
Os autores observam que a ortogonalidade é a melhor que você pode esperar em termos de risco em e que, à medida que o número de condições de aumenta, abordagens .X T X lim k → 0 + R ′ ( k ) - ∞k=0 XTX limk→0+R′(k) −∞
Comente
Parece haver um paradoxo aqui: se e são constantes, estamos apenas estimando a média de uma sequência de variáveis Normal e conhecemos a estimativa imparcial da baunilha é admissível neste caso. Isso é resolvido observando que o raciocínio acima apenas fornece que existe um valor minimizador de para fixo . Mas para qualquer , podemos fazer com que o risco exploda aumentando , de modo que esse argumento por si só não mostra admissibilidade para a estimativa da crista.p=1 X (β,σ2) k βTβ k βTβ
Por que a regressão de crista geralmente é recomendada apenas no caso de preditores correlacionados?
A derivação de risco da H&K mostra que, se considerarmos que é pequeno e se o design for quase singular, podemos obter grandes reduções no risco da estimativa. Acho que a regressão de cume não é usada onipresentemente porque a estimativa de OLS é um padrão seguro e que as propriedades de invariância e imparcialidade são atraentes. Quando falha, falha honestamente - sua matriz de covariância explode. Também existe talvez um ponto filosófico / inferencial, de que se o seu design é quase singular e você tem dados observacionais, então a interpretação de como dando alterações no para mudanças de unidade no é suspeita - a grande matriz de covariância é uma sintoma disso.βTβ XTX β EY X
Mas se seu objetivo é apenas previsão, as preocupações inferenciais não se mantêm, e você tem um forte argumento para usar algum tipo de estimador de encolhimento.
fonte