Eu acho que você deve usar um intervalo de a0
λ′max=11−αλmax
Meu raciocínio vem da extensão do caso do laço, e uma derivação completa está abaixo. O qualificador é que ele não captura a restrição contribuída pela regularização . Se eu descobrir como consertar isso (e decidir se ele realmente precisa de conserto), voltarei a editá-lo.ℓ 2dofℓ2
Definir o objetivo
f(b)=12∥y−Xb∥2+12γ∥b∥2+δ∥b∥1
Este é o objetivo que você descreveu, mas com alguns parâmetros substituídos para melhorar a clareza.
Convencionalmente, pode ser apenas uma solução para o problema de otimização se o gradiente em for zero. O termo não é bom, portanto, a condição é que esteja no subgradiente em .min f ( b ) b = 0 " b " 1 0 b = 0b=0minf(b)b=0∥b∥10b=0
O subgradiente de éf
∂f=−XT(y−Xb)+γb+δ∂∥b∥1
onde indica o subgradiente em relação a . Em , isso se tornab b = 0∂bb=0
∂f|b=0=−XTy+δ[−1,1]d
onde é a dimensão de , e a é um cubo dimensional. Portanto, para o problema de otimização ter uma solução de , deve ser queb [ - 1 , 1 ] d d b = 0db[−1,1]ddb=0
(XTy)i∈δ[−1,1]
para cada componente . Isso é equivalente ai
δ>maxi∣∣∣∣∑jyjXij∣∣∣∣
que é a definição que você deu para . Se agora for trocado, a fórmula da parte superior da postagem cairá. δ = ( 1 - α ) λλmaxδ=(1−α)λ