Formulação de regressão de Ridge como restrita versus penalizada: Como elas são equivalentes?

Parece que estou entendendo mal uma afirmação sobre métodos de regressão linear que já vi em vários lugares. Os parâmetros do problema são:

Entrada:

$N$ amostras de dados de quantidades cada um consistindo de uma "resposta" quantidade e "predictor" quantidades $p+1$ $y_i$ $p$ $x_{ij}$

O resultado desejado é um "bom ajuste linear", que prevê a resposta com base nos preditores em que um bom ajuste tem pequenas diferenças entre a previsão e a resposta observada (entre outros critérios).

Saída: coeficientes que é um "bom ajuste" para prever a quantidade de resposta a partir das quantidades do preditor. $p+1$ $\beta_j$ $\beta_0 + \sum_{j=1}^p x_{ij} * \beta_j$

Estou confuso sobre a abordagem de "regressão de crista" para esse problema. Em "The Elements of Statistical Learning", de Hastie, Tibshirani e Friedman, página 63, a regressão do cume é formulada de duas maneiras.

Primeiro como o problema de otimização restrita :

{a r g m i n}_{β} \sum_{i = 1}^{N} (y_{i} - (β_{0} + \sum_{j = 1}^{p} (x_{i j} * β_{j})))^{2}

${argmin}_\beta \sum_{i=1}^N { ( y_i - (\beta_0 + \sum_{j=1}^p (x_{ij} * \beta_j)) )^2 }$ sujeito à restrição para algum parâmetro positivo t.

\sum_{j = 1}^{p} β_{i}^{2} \leq t

$\sum_{j=1}^p \beta_i^2 \leq t$

O segundo é o problema de otimização penalizado : para algum parâmetro positivo .

{a r g m i n}_{β} (λ \sum_{j = 1}^{p} β_{j}^{2}) + \sum_{i = 1}^{N} (y_{i} - (β_{0} + \sum_{j = 1}^{p} (x_{i j} * β_{j})))^{2}

${argmin}_\beta ( \lambda \sum_{j=1}^p { \beta_j^2 } ) + \sum_{i=1}^N { ( y_i - (\beta_0 + \sum_{j=1}^p (x_{ij} * \beta_j)) )^2 }$

λ

$\lambda$

O texto diz que estas formulações são equivalentes e que há uma "correspondência um a um entre os parâmetros e ". Eu já vi essa afirmação (e outras similares) em vários lugares além deste livro. Acho que estou perdendo alguma coisa porque não vejo como as formulações são equivalentes como eu a entendo. $\lambda$ $t$

Consideremos o caso em que e com , e , . Escolhendo o parâmetro a formulação restrita se torna: $N=2$ $p=1$ $y_1=0$ $x_{1,1}=0$ $y_2=1$ $x_{1,2}=1$ $t=2$

{a r g m i n}_{β_{0}, β_{1}} (β_{0}^{2} + (1 - (β_{0} + β_{1}))^{2})

${argmin}_{\beta_0,\beta_1} ( \beta_0^2 + (1 - (\beta_0 + \beta_1))^2 )$

expandido para

{a r g m i n}_{β_{0}, β_{1}} (2 β_{0}^{2} + 2 β_{0} β_{1} - 2 β_{0} + β_{1}^{2} - 2 β_{1} + 1)

${argmin}_{\beta_0,\beta_1} ( 2 \beta_{0}^{2} + 2 \beta_{0} \beta_{1} - 2 \beta_{0} + \beta_{1}^{2} - 2 \beta_{1} + 1 )$

Para resolver isso, encontre a solução em que as derivadas parciais em relação a e são zero: com a solução e . Observe que conforme necessário. $\beta_0$ $\beta_1$

4 β_{0} + 2 β_{1} - 2 = 0

$4 \beta_{0} + 2 \beta_{1} - 2 = 0$

2 β_{0} + 2 β_{1} - 2 = 0

$2 \beta_{0} + 2 \beta_{1} - 2 = 0$

β_{0} = 0

$\beta_0 = 0$

β_{1} = 1

$\beta_1 = 1$

β_{0}^{2} + β_{1}^{2} \leq t

$\beta_0^2 + \beta_1^2 \le t$

Como essa derivação se relaciona com a outra formulação? De acordo com a explicação, existe algum valor de correspondendo exclusivamente a onde, se otimizarmos a formulação penalizada do problema, derivaremos o mesmo e . Nesse caso, o formulário penalizado se torna expandido para Para resolver isso, encontre a solução em que as derivadas parciais com respeito a $\lambda$ $t$ $\beta_0$ $\beta_1$

{a r g m i n}_{β_{0}, β_{1}} (λ (β_{0}^{2} + β_{1}^{2}) + β_{0}^{2} + (1 - (β_{0} + β_{1}))^{2})

${argmin}_{\beta_0,\beta_1} ( \lambda (\beta_0^2 + \beta_1^2) + \beta_0^2 + (1 - (\beta_0 + \beta_1))^2 )$

{a r g m i n}_{β_{0}, β_{1}} (β_{0}^{2} λ + 2 β_{0}^{2} + 2 β_{0} β_{1} - 2 β_{0} + β_{1}^{2} λ + β_{1}^{2} - 2 β_{1} + 1)

${argmin}_{\beta_0,\beta_1} ( \beta_{0}^{2} \lambda + 2 \beta_{0}^{2} + 2 \beta_{0} \beta_{1} - 2 \beta_{0} + \beta_{1}^{2} \lambda + \beta_{1}^{2} - 2 \beta_{1} + 1 )$

β_{0}

$\beta_0$ e são zero: para essas equações, recebo a solução Se estiver correto, a única maneira de obter é definir . No entanto, isso seria o mesmo que precisaríamos para , então o que eles querem dizer com "correspondência um a um"?

β_{1}

$\beta_1$

2 β_{0} λ + 4 β_{0} + 2 β_{1} - 2 = 0

$2 \beta_{0} \lambda + 4 \beta_{0} + 2 \beta_{1} - 2 = 0$

2 β_{0} + 2 β_{1} λ + 2 β_{1} - 2 = 0

$2 \beta_{0} + 2 \beta_{1} \lambda + 2 \beta_{1} - 2 = 0$

β_{0} = λ / (λ^{2} + 3 λ + 1)

$\beta_0 = \lambda/(\lambda^2 + 3\lambda + 1)$

β_{1} = (λ + 1) / ((λ + 1) (λ + 2) - 1)

$\beta_1 = (\lambda + 1)/((\lambda + 1)(\lambda + 2) - 1)$

β_{0} = 0

$\beta_0 = 0$

λ = 0

$\lambda = 0$

λ

$\lambda$

t = 4

$t = 4$

Em resumo, estou totalmente confuso com as duas apresentações e não entendo como elas se correspondem. Não entendo como você pode otimizar um formulário e obter a mesma solução para o outro formulário ou como está relacionado a . Essa é apenas uma instância desse tipo de correspondência - existem outras para outras abordagens, como o laço - e não entendo nenhuma delas. $\lambda$ $t$

Alguém por favor me ajude.

regression ridge-regression user101311
fonte

Relacionado: stats.stackexchange.com/questions/190993 (consulte a resposta aceita).

Ameba

O link "relacionado" reafirma a correspondência discutida na pergunta sem abordar esta questão ou o exemplo de caso mostrado. Eu não acho que isso responda a essa pergunta.

Aaron Watters

Respostas:

A confusão aqui vem da tentativa de trabalhar em um intervalo de valores ou onde não há restrição na regressão. $t$ $\lambda$

No seu exemplo, no ajuste perfeito da linha de regressão, a soma dos quadrados dos coeficientes de regressão é 1. Portanto, o valor de (ou qualquer valor de que seja 1 ou maior) não impõe restrições à regressão. No espaço dos valores , toda a regressão irrestrita é representada por . Não há correspondência de um-para-um entre e na regressão irrestrita ; todos os valores de igual ou superior a 1 neste caso correspondem a . Essa foi a região que você está investigando. $t=2$ $t$ $\lambda$ $\lambda = 0$ $t$ $\lambda$ $t$ $\lambda=0$

Somente um valor de menor que 1 colocará uma restrição na regressão, correspondente aos valores positivos de . Como mostra a resposta aceita a esta página , a correspondência um-para-um entre e mantém " quando a restrição é vinculativa ", no seu exemplo para valores de menores que 1. $t$ $\lambda$ $t$ $\lambda$ $t$

EdM
fonte

Nesse caso, eles devem afirmar que a restrição deve ser vinculativa. Com isso, você quer dizer que devemos ter para que a equivalência seja válida?

\sum β_{j}^{2} = t

$\sum \beta_j^2 = t$

precisa saber é o seguinte

Para ser justo, não acho que as pessoas se preocupem muito com detalhes de otimização restrita quando a restrição não é vinculativa. Então você apenas obtém a solução ordinária de mínimos quadrados. Quando a restrição está vinculando, a otimização deve fornecer um resultado exclusivo no limite do conjunto de restrições, de modo que , fornecendo equivalência um a um de com nessa circunstância.

\sum β_{j}^{2} = t

$\sum{\beta_j^2} = t$

t

$t$

λ

$\lambda$

EdM

+1. Se a restrição não é vinculativa, em seguida, ainda há correspondência entre e , mas não é um-para-um: qualquer não vinculativo mapeia para como corretamente computado pelo @ Aaron.

t

$t$

λ

$\lambda$

t

$t$

λ = 0

$\lambda=0$

Ameba

Para sua informação, sou programador. É importante saber quando um método é apropriado quando você está escrevendo programas de computador. "A restrição deve ser vinculativa" parece ser omitida em muitas apresentações do método.

Aaron Watters

A regressão clássica de Ridge ( regularização de Tikhonov ) é dada por:

\arg min_{x} \frac{1}{2} {‖ x - y ‖}_{2}^{2} + λ {‖ x ‖}_{2}^{2}

$\arg \min_{x} \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} + \lambda {\left\| x \right\|}_{2}^{2}$

A alegação acima é que o seguinte problema é equivalente:

\begin{aligned} \arg min_{x} & \frac{1}{2} {‖ x - y ‖}_{2}^{2} \\ subject to & {‖ x ‖}_{2}^{2} \leq t \end{aligned}

$\begin{align*} \arg \min_{x} \quad & \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} \\ \text{subject to} \quad & {\left\| x \right\|}_{2}^{2} \leq t \end{align*}$

Vamos definir como a solução ideal para o primeiro problema e como a solução ótima para o segundo problema. $\hat{x}$ $\tilde{x}$

A reivindicação de equivalência significa que . Ou seja, você pode ter sempre um par de e tal a solução do problema é o mesmo. $\forall t, \: \exists \lambda \geq 0 : \hat{x} = \tilde{x}$
$t$ $\lambda \geq 0$

Como poderíamos encontrar um par?
Bem, resolvendo os problemas e observando as propriedades da solução.
Ambos os problemas são convexos e suaves, tornando as coisas mais simples.

A solução para o primeiro problema é dada no ponto em que o gradiente desaparece, o que significa:

\hat{x} - y + 2 λ \hat{x} = 0

$\hat{x} - y + 2 \lambda \hat{x} = 0$

As condições KKT do segundo problema afirmam:

\tilde{x} - y + 2 μ \tilde{x} = 0

$\tilde{x} - y + 2 \mu \tilde{x} = 0$

μ ({‖ \tilde{x} ‖}_{2}^{2} - t) = 0

$\mu \left( {\left\| \tilde{x} \right\|}_{2}^{2} - t \right) = 0$

A última equação sugere que ou . $\mu = 0$ ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

Preste atenção que as 2 equações básicas são equivalentes.
Ou seja, se e ambas as equações são válidas. $\hat{x} = \tilde{x}$ $\mu = \lambda$

Então isso significa que, no caso de deve-se definir que significa que, por suficientemente grande para que ambos sejam equivalentes, deve-se definir . ${\left\| y \right\|}_{2}^{2} \leq t$ $\mu = 0$ $t$ $\lambda = 0$

No outro caso, deve-se encontrar onde: $\mu$

y^{t} {(I + 2 μ I)}^{- 1} {(I + 2 μ I)}^{- 1} y = t

${y}^{t} \left( I + 2 \mu I \right)^{-1} \left( I + 2 \mu I \right)^{-1} y = t$

Isso é basicamente quando ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

Depois de descobrir que as soluções colidirão. $\mu$

Em relação ao caso , bem, ele funciona com a mesma idéia. A única diferença é que não fechamos a solução, portanto, derivar a conexão é mais complicado. ${L}_{1}$

Veja minha resposta em StackExchange Q291962 validado cruzado e StackExchange Signal Processing Q21730 - significância de na busca de base $\lambda$ .

Royi
fonte

De onde veio o mu?

tatami

O exemplo acima resolve 2 problemas diferentes. Como o primeiro usa , usei como multiplicador de Lagrange para as restrições de desigualdade do segundo.

λ

$\lambda$

μ

$\mu$

Royi 14/03/19