Escopo do parâmetro de ajuste Lasso e Ridge

7

Na regressão linear do cume e do laço, um passo importante é escolher o parâmetro de ajuste lambda, geralmente eu uso a pesquisa de grade na escala de log de -6-> 4, funciona bem no cume, mas no laço, devo levar em conta a ordem da magnitude da saída y? por exemplo, se a saída y estiver na escala nano (-9), meu escopo de pesquisa para o log lambda pode ser -15 -> -5.

todos os parâmetros de entrada são normalizados, eles estão dentro de -3,3

user3450805
fonte

Respostas:

4

Sim, você deve levar em conta a escala da saída e deve também ter em conta a escala das co-variáveis em .yX

Seja a matriz de design, cujas linhas são vetores, com cada entrada sendo uma covariável que, juntas, procuram explicar a resposta . Cada entrada da resposta (para ) é composta de maneira aditiva por um sinal que depende das covariáveis ​​e por um ruído médio zero do iid. Escolhendo para modelar o sinal como sendo leva aproximadamente lineares nos à estimativa LASSO sabemos, por condições de primeira ordem, queXRn×pyRnyi=f(eiTX)+ϵii=1,,nf

β^λ=argminβ12nyXβ22+λβ1,
1nXT(yXβ^λ)=λz^λ, em que é a variável dupla que satisfaz se e se .z^λz^λ,j=sgn(β^λ,j)β^λ,j0z^λ,j[1,1]β^λ,j=0

Conectando nessa equação, vemos que , criandoβ^λ=01nXTy=λz^λ

1nXTy=λz^λ.

Se , então poderá diminuir (com aumentado para manter a igualdade) e o LASSO a estimativa ainda seria . Portanto, em , o menor valor de que produz , obtemos essez^λ1λz^λβ^λ=0λmaxλβ^λ=0

1nXTy=λmax1.

Isso nos diz que não há necessidade de considerar ao ajustar o LASSO. Agora, na prática, a maioria dos solucionadores padroniza as colunas do para que não precisem ser levadas diretamente em consideração. (Observe que é razoável padronizar as covariáveis, pois as unidades de medida não devem afetar o coeficiente estimado.)λ>λmaxX

O caso da crista é bem discutido aqui: Penalidade máxima pela regressão da crista

user795305
fonte
3

No pacote R glmnet, a função cv.glmnetajusta um modelo em todo o conjunto de dados para selecionar o caminho de regularização adequado e, em seguida, faz a validação cruzada usando esse caminho. Isso parece funcionar bem na prática.

Sycorax diz restabelecer Monica
fonte