Para o problema do laço tal que . Muitas vezes, vejo o resultado do limiar suave
para o caso X ortonormal . Alega-se que a solução pode ser "facilmente mostrada", mas nunca vi uma solução funcionada. Alguém viu um ou talvez tenha feito a derivação?
Respostas:
Isso pode ser atacado de várias maneiras, incluindo abordagens bastante econômicas através das condições de Karush – Kuhn – Tucker .
Abaixo está um argumento alternativo bastante elementar.
A solução de mínimos quadrados para um desenho ortogonal
Suponha que seja composto de colunas ortogonais. Então, a solução dos mínimos quadrados éX
Alguns problemas equivalentes
Através da forma lagrangiana, é fácil ver que um problema equivalente ao considerado na questão é
Expandindo o primeiro termo, obtemos e, como não contém nenhum das variáveis de interesse, podemos descartá-lo e considerar outro problema equivalente,12yTy−yTXβ+12βTβ yTy
Observando que , o problema anterior pode ser reescrito comoβ^LS=XTy
Nossa função objetivo é agora uma soma de objetivos, cada um correspondente a uma variável separada , para que cada um possa ser resolvido individualmente.βi
O todo é igual à soma de suas partes
Corrija um certo . Então, queremos minimizari
Se , então devemos ter pois caso contrário poderíamos inverter o sinal e obter um valor mais baixo para a função objetivo. Da mesma forma, se , devemos escolher .β^LSi>0 βi≥0 β^LSi<0 βi≤0
Caso 1 : . Desde , diferenciando-o em relação a e definindo igual a zero , obtemos e isso só é possível se o lado direito não for negativo, portanto, nesse caso, a solução real éβ^LSi>0 βi≥0
Caso 2 : . Isso implica que devemos ter e, portanto, Diferenciando em relação a e definindo igual a zero, obtemos . Mas, novamente, para garantir que isso seja possível, precisamos de , o que é obtido usandoβ^LSi≤0 βi≤0
Nos dois casos, obtemos a forma desejada e, assim, terminamos.
Considerações finais
Observe que, à medida que aumenta, cada um dosnecessariamente diminui e, portanto, . Quando , recuperamos as soluções OLS e, para, obtemos para todos os .γ |β^lassoi| ∥β^lasso∥1 γ=0 γ>maxi|β^LSi| β^lassoi=0 i
fonte
Assume-se que a co-variáveis , as colunas de , são também uniformizadas, de modo que . Isso é apenas para conveniência mais tarde: sem ela, a notação fica mais pesada, pois é apenas diagonal. Além disso, assuma que . Essa é uma suposição necessária para que o resultado seja mantido. Defina o estimador de mínimos quadrados . Então, o (forma Lagrangiana do) estimador de laçoxj X∈Rn×p XTX=I XTX n≥p β^OLS=argminβ∥y−Xβ∥22
Essa é uma derivação que ignora a derivação detalhada do operador proximal que o Cardinal realiza, mas, espero, esclarece os principais passos que tornam possível um formulário fechado.
fonte