Sim, você deve levar em conta a escala da saída e deve também ter em conta a escala das co-variáveis em .yX
Seja a matriz de design, cujas linhas são vetores, com cada entrada sendo uma covariável que, juntas, procuram explicar a resposta . Cada entrada da resposta (para ) é composta de maneira aditiva por um sinal que depende das covariáveis e por um ruído médio zero do iid. Escolhendo para modelar o sinal como sendo leva aproximadamente lineares nos à estimativa LASSO sabemos, por condições de primeira ordem, queX∈Rn×py∈Rnyi=f(eTiX)+ϵii=1,…,nf
β^λ=argminβ12n∥y−Xβ∥22+λ∥β∥1,
−1nXT(y−Xβ^λ)=λz^λ, em que é a variável dupla que satisfaz se e se .
z^λz^λ,j=sgn(β^λ,j)β^λ,j≠0z^λ,j∈[−1,1]β^λ,j=0
Conectando nessa equação, vemos que , criandoβ^λ=0−1nXTy=λz^λ
1n∥XTy∥∞=λ∥z^λ∥∞.
Se , então poderá diminuir (com aumentado para manter a igualdade) e o LASSO a estimativa ainda seria . Portanto, em , o menor valor de que produz , obtemos esse∥z^λ∥∞≠1λ∥z^λ∥∞β^λ=0λmaxλβ^λ=0
1n∥XTy∥∞=λmax⋅1.
Isso nos diz que não há necessidade de considerar ao ajustar o LASSO. Agora, na prática, a maioria dos solucionadores padroniza as colunas do para que não precisem ser levadas diretamente em consideração. (Observe que é razoável padronizar as covariáveis, pois as unidades de medida não devem afetar o coeficiente estimado.)λ>λmaxX
O caso da crista é bem discutido aqui: Penalidade máxima pela regressão da crista