Sob exatamente quais condições a regressão de crista é capaz de fornecer uma melhoria em relação à regressão de mínimos quadrados ordinários?

A regressão de Ridge estima parâmetros $\boldsymbol \beta$ em um modelo linear $\mathbf y = \mathbf X \boldsymbol \beta$ por

{\hat{β}}_{λ} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y,

$\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,$ que

λ

$\lambda$ é um parâmetro de regularização. É sabido que frequentemente apresenta um desempenho melhor que a regressão OLS (com

λ = 0

$\lambda=0$ ) quando há muitos preditores correlacionados.

Um teorema da existência para regressão de cume diz que sempre existe um parâmetro $\lambda^* > 0$ tal que o erro quadrático médio de $\hat{\boldsymbol \beta}_\lambda$ é estritamente menor que o erro quadrático médio do OLS estimativa $\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0$ . Em outras palavras, um valor ideal de $\lambda$ é sempre diferente de zero. Aparentemente, isso foi comprovado pela primeira vez em Hoerl e Kennard, 1970, e é repetido em muitas anotações de aulas que eu encontro on-line (por exemplo, aqui e aqui ). Minha pergunta é sobre as suposições deste teorema:

Existem suposições sobre a matriz de covariância $\mathbf X^\top \mathbf X$ ?
Existem suposições sobre a dimensionalidade do $\mathbf X$ ?

Em particular, o teorema ainda é verdadeiro se os preditores são ortogonais (por exemplo, $\mathbf X^\top \mathbf X$ é diagonal) ou mesmo se $\mathbf X^\top \mathbf X=\mathbf I$ ? E ainda é verdade se houver apenas um ou dois preditores (digamos, um preditor e um intercepto)?

Se o teorema não faz tais suposições e permanece verdadeiro mesmo nesses casos, por que a regressão de crista geralmente é recomendada apenas no caso de preditores correlacionados e nunca (?) É recomendada para regressão simples (isto é, não múltipla)?

Isso está relacionado à minha pergunta sobre a visão unificada sobre o encolhimento: qual é a relação (se houver) entre o paradoxo de Stein, a regressão de crista e os efeitos aleatórios em modelos mistos? , mas nenhuma resposta esclarece esse ponto até agora.

regression ridge-regression shrinkage ameba diz Restabelecer Monica
fonte

Parece que todas, exceto a última pergunta, são abordadas diretamente no artigo de Hoerl & Kennard, especialmente na primeira frase da Introdução e na primeira frase das Conclusões. A última pergunta pode ser respondida, observando que a covariância entre um vetor constante e qualquer preditor único é sempre zero, o que permite a um (de maneira padrão) reduzir para uma matriz .

X^{'} X

$\mathbf{X^\prime X}$

1 \times 1

$1\times 1$

whuber

Obrigado, @whuber. Acredito que o artigo da Hoerl & Kennard responda minhas perguntas (pelo menos as técnicas) - deve-se poder seguir a prova e verificar as suposições (ainda não o fiz). Mas não estou totalmente convencido pelas frases a que você está se referindo. Como a primeira frase da Introdução está relacionada à minha pergunta? A primeira frase das Conclusões sugere que se possui espectro uniforme (por exemplo, é igual a ), o teorema não se aplica. Mas não tenho 100% de certeza, pois não vejo essa suposição explicitamente declarada antes da prova.

X^{⊤} X

$\mathbf X^\top \mathbf X$

I

$\mathbf I$

Ameba diz Reinstate Monica

Olhe que tipos de perguntas podem ser feitas por usuários de alto representante (que normalmente só responder a eles) (e também para a sua outra pergunta relacionada que me enviou aqui stats.stackexchange.com/questions/122062/... !

javadba

A resposta para 1 e 2 é não, mas é necessário cuidado na interpretação do teorema da existência.

Variação do Estimador de Ridge

Seja a estimativa da crista sob a penalidade e seja o parâmetro verdadeiro para o modelo . Seja os valores próprios de . Das equações de Hoerl & Kennard 4.2-4.5, o risco (em termos da norma esperada para o erro) é $\hat{\beta^*}$ $k$ $\beta$ $Y = X \beta + \epsilon$ $\lambda_1, \dotsc, \lambda_p$ $X^T X$
$L^2$

\begin{aligned} E ({[\hat{β^{*}} - β]}^{T} [\hat{β^{*}} - β]) & = σ^{2} \sum_{j = 1}^{p} λ_{j} / {(λ_{j} + k)}^{2} + k^{2} β^{T} {(X^{T} X + k I_{p})}^{- 2} β \\ = γ_{1} (k) + γ_{2} (k) \\ = R (k) \end{aligned}

$\begin{align*} E \left( \left[ \hat{\beta^*} - \beta \right]^T \left[ \hat{\beta^*} - \beta \right] \right)& = \sigma^2 \sum_{j=1}^p \lambda_j/ \left( \lambda_j +k \right)^2 + k^2 \beta^T \left( X^T X + k \mathbf{I}_p \right)^{-2} \beta \\ & = \gamma_1 (k) + \gamma_2(k) \\ & = R(k) \end{align*}$ onde, tanto quanto eu sei, Eles observam que tem a interpretação da variação do produto interno de , enquanto é o produto interno do viés.

{(X^{T} X + k I_{p})}^{- 2} = {(X^{T} X + k I_{p})}^{- 1} {(X^{T} X + k I_{p})}^{- 1} .

$\left( X^T X + k \mathbf{I}_p \right)^{-2} = \left( X^T X + k \mathbf{I}_p \right)^{-1} \left( X^T X + k \mathbf{I}_p \right)^{-1}.$

γ_{1}

$\gamma_1$

\hat{β^{*}} - β

$\hat{\beta^*} - \beta$

γ_{2}

$\gamma_2$

Supondo que , então Seja seja a derivada do risco w / r / t . Como , concluímos que há alguns tais que . $X^T X = \mathbf{I}_p$

R (k) = \frac{p σ^{2} + k^{2} β^{T} β}{(1 + k)^{2}} .

$R(k) = \frac{p \sigma^2 + k^2 \beta^T \beta}{(1+k)^2}.$

R^{'} (k) = 2 \frac{k (1 + k) β^{T} β - (p σ^{2} + k^{2} β^{T} β)}{(1 + k)^{3}}

$R^\prime (k) = 2\frac{k(1+k)\beta^T \beta - (p\sigma^2 + k^2 \beta^T \beta)}{(1+k)^3}$

k

$k$

lim_{k \to 0^{+}} R^{'} (k) = - 2 p σ^{2} < 0

$\lim_{k \rightarrow 0^+} R^\prime (k) = -2p \sigma^2 < 0$

k^{*} > 0

$k^*>0$

R (k^{*}) < R (0)

$R(k^*)<R(0)$

Os autores observam que a ortogonalidade é a melhor que você pode esperar em termos de risco em e que, à medida que o número de condições de aumenta, abordagens . $k=0$ $X^T X$ $\lim_{k \rightarrow 0^+} R^\prime (k)$ $- \infty$

Comente

Parece haver um paradoxo aqui: se e são constantes, estamos apenas estimando a média de uma sequência de variáveis Normal e conhecemos a estimativa imparcial da baunilha é admissível neste caso. Isso é resolvido observando que o raciocínio acima apenas fornece que existe um valor minimizador de para fixo . Mas para qualquer , podemos fazer com que o risco exploda aumentando , de modo que esse argumento por si só não mostra admissibilidade para a estimativa da crista. $p=1$ $X$ $(\beta, \sigma^2)$ $k$ $\beta^T \beta$ $k$ $\beta^T \beta$

Por que a regressão de crista geralmente é recomendada apenas no caso de preditores correlacionados?

A derivação de risco da H&K mostra que, se considerarmos que é pequeno e se o design for quase singular, podemos obter grandes reduções no risco da estimativa. Acho que a regressão de cume não é usada onipresentemente porque a estimativa de OLS é um padrão seguro e que as propriedades de invariância e imparcialidade são atraentes. Quando falha, falha honestamente - sua matriz de covariância explode. Também existe talvez um ponto filosófico / inferencial, de que se o seu design é quase singular e você tem dados observacionais, então a interpretação de como dando alterações no para mudanças de unidade no é suspeita - a grande matriz de covariância é uma sintoma disso. $\beta ^T \beta$ $X^T X$ $\beta$ $E Y$ $X$

Mas se seu objetivo é apenas previsão, as preocupações inferenciais não se mantêm, e você tem um forte argumento para usar algum tipo de estimador de encolhimento.

Andrew M
fonte

Uau, obrigada! Deixe-me verificar minha compreensão da seção "Comentário": para qualquer , um ideal é diferente de zero, mas seu valor é diferente para betas diferentes e nenhum fixo pode bater para todos os betas, o que é o que é necessário para a admissibilidade. Corrigir? Além disso, você poderia comentar sobre minha pergunta geral: [se o teorema não faz tais suposições,] por que a regressão de crista geralmente é recomendada apenas para preditores correlacionados e nunca para regressão simples (não múltipla)? É porque o efeito positivo é empiricamente conhecido por ser pequeno demais para incomodar?

β

$\beta$

k

$k$

k

$k$

k = 0

$k=0$

Ameba diz Reinstate Monica

A H&K assume consistentemente que é de classificação completa. Ao afirmar que a resposta ao número 1 é "não", você está afirmando que os resultados deles continuam sendo verdadeiros quando não é?

X^{'} X

$X^\prime X$

whuber

@whuber: O ponto central de sua derivação do risco é que a estimativa da crista , onde é a estimativa da OLS e . Isso claramente não pode ser mantido como tal quando é deficiente na classificação. Mas a estimativa da OLS não existe - portanto, talvez qualquer estimativa com risco finito (seja grande o suficiente e você terá , com risco ) seja melhor do que um estimador que não existe? Tanto quanto a derivação de risco ainda é válida: não tenho certeza. Uma prova diferente seria necessária.

\hat{β^{*}} = Z \hat{β}

$\hat{\beta^*} = Z \hat{\beta}$

\hat{β}

$\hat{\beta}$

Z = {((X^{T} X)^{- 1} + k I_{p})}^{- 1}

$Z = \left( (X^TX)^{-1} + k I_p \right)^{-1}$

X^{T} X

$X^TX$

k

$k$

\hat{β^{*}} \approx 0

$\hat{\beta^*} \approx 0$

β^{T} β

$\beta^T \beta$

Andrew M

@amoeba: sim, sua correção parece correta. Para dominar o estimador OLS, precisamos de algum tipo de procedimento adaptativo , no qual é uma função dos dados. Em seu outro segmento, Xi'an fez um comentário sobre estimativas de cordilheiras adaptáveis, para que esse possa ser um lugar para procurar. RE: estimativas de crista para desenhos ortogonais - eu adicionei outro comentário quanto à orientação que eu levaria da prova deles.

λ

$\lambda$

Andrew M

Sob exatamente quais condições a regressão de crista é capaz de fornecer uma melhoria em relação à regressão de mínimos quadrados ordinários?

Respostas:

Variação do Estimador de Ridge

Comente

Por que a regressão de crista geralmente é recomendada apenas no caso de preditores correlacionados?