Formulação de regressão de Ridge como restrita versus penalizada: Como elas são equivalentes?

10

Parece que estou entendendo mal uma afirmação sobre métodos de regressão linear que já vi em vários lugares. Os parâmetros do problema são:

Entrada:

N amostras de dados de quantidades cada um consistindo de uma "resposta" quantidade e "predictor" quantidadesy i p x i jp+1yipxij

O resultado desejado é um "bom ajuste linear", que prevê a resposta com base nos preditores em que um bom ajuste tem pequenas diferenças entre a previsão e a resposta observada (entre outros critérios).

Saída: coeficientes que é um "bom ajuste" para prever a quantidade de resposta a partir das quantidades do preditor. β jp+1βjβ0+j=1pxijβj

Estou confuso sobre a abordagem de "regressão de crista" para esse problema. Em "The Elements of Statistical Learning", de Hastie, Tibshirani e Friedman, página 63, a regressão do cume é formulada de duas maneiras.

Primeiro como o problema de otimização restrita :

p j = 1 β 2 it

argminβi=1N(yi(β0+j=1p(xijβj)))2
sujeito à restrição para algum parâmetro positivo t.
j=1pβi2t

O segundo é o problema de otimização penalizado : para algum parâmetro positivo . λ

argminβ(λj=1pβj2)+i=1N(yi(β0+j=1p(xijβj)))2
λ

O texto diz que estas formulações são equivalentes e que há uma "correspondência um a um entre os parâmetros e ". Eu já vi essa afirmação (e outras similares) em vários lugares além deste livro. Acho que estou perdendo alguma coisa porque não vejo como as formulações são equivalentes como eu a entendo.tλt

Consideremos o caso em que e com , e , . Escolhendo o parâmetro a formulação restrita se torna:p = 1 y 1 = 0 x 1 , 1 = 0 y 2 = 1 x 1 , 2 = 1 t = 2N=2p=1y1=0x1,1=0y2=1x1,2=1t=2

argminβ0,β1(β02+(1(β0+β1))2)

expandido para

argminβ0,β1(2β02+2β0β12β0+β122β1+1)

Para resolver isso, encontre a solução em que as derivadas parciais em relação a e são zero: com a solução e . Observe que conforme necessário.β 1 4 β 0 + 2 β 1 - 2 = 0 2 β 0 + 2 β 1 - 2 = 0 β 0 = 0 β 1 = 1 β 2 0 + β 2 1tβ0β1

4β0+2β12=0
2β0+2β12=0
β0=0β1=1β02+β12t

Como essa derivação se relaciona com a outra formulação? De acordo com a explicação, existe algum valor de correspondendo exclusivamente a onde, se otimizarmos a formulação penalizada do problema, derivaremos o mesmo e . Nesse caso, o formulário penalizado se torna expandido para Para resolver isso, encontre a solução em que as derivadas parciais com respeito aλtβ0β1

argminβ0,β1(λ(β02+β12)+β02+(1(β0+β1))2)
argminβ0,β1(β02λ+2β02+2β0β12β0+β12λ+β122β1+1)
β0 e são zero: para essas equações, recebo a solução Se estiver correto, a única maneira de obter é definir . No entanto, isso seria o mesmo que precisaríamos para , então o que eles querem dizer com "correspondência um a um"?β1
2β0λ+4β0+2β12=0
2β0+2β1λ+2β12=0
β0=λ/(λ2+3λ+1)
β1=(λ+1)/((λ+1)(λ+2)1)
β0=0λ=0λt=4

Em resumo, estou totalmente confuso com as duas apresentações e não entendo como elas se correspondem. Não entendo como você pode otimizar um formulário e obter a mesma solução para o outro formulário ou como está relacionado a . Essa é apenas uma instância desse tipo de correspondência - existem outras para outras abordagens, como o laço - e não entendo nenhuma delas.λt

Alguém por favor me ajude.

user101311
fonte
1
Relacionado: stats.stackexchange.com/questions/190993 (consulte a resposta aceita).
Ameba
1
O link "relacionado" reafirma a correspondência discutida na pergunta sem abordar esta questão ou o exemplo de caso mostrado. Eu não acho que isso responda a essa pergunta.
Aaron Watters

Respostas:

6

A confusão aqui vem da tentativa de trabalhar em um intervalo de valores ou onde não há restrição na regressão.tλ

No seu exemplo, no ajuste perfeito da linha de regressão, a soma dos quadrados dos coeficientes de regressão é 1. Portanto, o valor de (ou qualquer valor de que seja 1 ou maior) não impõe restrições à regressão. No espaço dos valores , toda a regressão irrestrita é representada por . Não há correspondência de um-para-um entre e na regressão irrestrita ; todos os valores de igual ou superior a 1 neste caso correspondem a . Essa foi a região que você está investigando.t λ λ = 0 t λ t λ = 0t=2tλλ=0tλ tλ=0

Somente um valor de menor que 1 colocará uma restrição na regressão, correspondente aos valores positivos de . Como mostra a resposta aceita a esta página , a correspondência um-para-um entre e mantém " quando a restrição é vinculativa ", no seu exemplo para valores de menores que 1.λ t λ ttλtλt

EdM
fonte
Nesse caso, eles devem afirmar que a restrição deve ser vinculativa. Com isso, você quer dizer que devemos ter para que a equivalência seja válida? βj2=t
precisa saber é o seguinte
1
Para ser justo, não acho que as pessoas se preocupem muito com detalhes de otimização restrita quando a restrição não é vinculativa. Então você apenas obtém a solução ordinária de mínimos quadrados. Quando a restrição está vinculando, a otimização deve fornecer um resultado exclusivo no limite do conjunto de restrições, de modo que , fornecendo equivalência um a um de com nessa circunstância. t λβj2=ttλ
EdM
+1. Se a restrição não é vinculativa, em seguida, ainda há correspondência entre e , mas não é um-para-um: qualquer não vinculativo mapeia para como corretamente computado pelo @ Aaron. λ t λ = 0tλtλ=0
Ameba
Para sua informação, sou programador. É importante saber quando um método é apropriado quando você está escrevendo programas de computador. "A restrição deve ser vinculativa" parece ser omitida em muitas apresentações do método.
Aaron Watters
4

A regressão clássica de Ridge ( regularização de Tikhonov ) é dada por:

argminx12xy22+λx22

A alegação acima é que o seguinte problema é equivalente:

argminx12xy22subject tox22t

Vamos definir como a solução ideal para o primeiro problema e como a solução ótima para o segundo problema.x^x~

A reivindicação de equivalência significa que . Ou seja, você pode ter sempre um par de e tal a solução do problema é o mesmo.t,λ0:x^=x~
tλ0

Como poderíamos encontrar um par?
Bem, resolvendo os problemas e observando as propriedades da solução.
Ambos os problemas são convexos e suaves, tornando as coisas mais simples.

A solução para o primeiro problema é dada no ponto em que o gradiente desaparece, o que significa:

x^y+2λx^=0

As condições KKT do segundo problema afirmam:

x~y+2μx~=0

e

μ(x~22t)=0

A última equação sugere que ou .μ=0x~22=t

Preste atenção que as 2 equações básicas são equivalentes.
Ou seja, se e ambas as equações são válidas. x^=x~μ=λ

Então isso significa que, no caso de deve-se definir que significa que, por suficientemente grande para que ambos sejam equivalentes, deve-se definir .y22tμ=0tλ=0

No outro caso, deve-se encontrar onde:μ

yt(I+2μI)1(I+2μI)1y=t

Isso é basicamente quandox~22=t

Depois de descobrir que as soluções colidirão.μ

Em relação ao caso , bem, ele funciona com a mesma idéia. A única diferença é que não fechamos a solução, portanto, derivar a conexão é mais complicado.L1

Veja minha resposta em StackExchange Q291962 validado cruzado e StackExchange Signal Processing Q21730 - significância de na busca de baseλ .

Royi
fonte
De onde veio o mu?
tatami
O exemplo acima resolve 2 problemas diferentes. Como o primeiro usa , usei como multiplicador de Lagrange para as restrições de desigualdade do segundo. λμ
Royi 14/03/19