Escolhendo a faixa e a densidade da grade para o parâmetro de regularização no LASSO

Enquanto isso, estou estudando o LASSO ( operador menos absoluto de encolhimento e seleção). Vejo que o valor ideal para o parâmetro de regularização pode ser escolhido por validação cruzada. Vejo também na regressão de cume e em muitos métodos que aplicam a regularização, podemos usar o CV para encontrar o parâmetro ideal de regularização (dizendo penalidade). Agora, minha pergunta é sobre valores iniciais do limite superior e inferior do parâmetro e como determinar o comprimento da sequência.

Para ser específico, suponha que tenhamos um problema do e queremos encontrar o valor ideal para a penalidade, . Então, como podemos escolher um limite inferior e superior para ? e quantas divisões entre esses dois valores ?

L o g L i k e l i h o o d = (y - x β)^{'} (y - x β) + λ \sum | β |_{1}

$LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1$

λ

$\lambda$

λ \in [a = ?, b = ?]

$\lambda \in [a=?,b=?]$

\frac{(b - a)}{k = ?}

$\frac{(b-a)}{k=?}$

lasso regularization shrinkage TPArrow
fonte

Pergunta relacionada aqui .

Richard Hardy

Duplicado possível de Grade finura e overfitting usando regularização (LASSO, cume, rede elástica)

Sycorax diz Reintegrar Monica

Essa metodologia é descrita no documento glmnet Paths de regularização para modelos lineares generalizados via descida de coordenadas . Embora a metodologia aqui seja para o caso geral de regularização e , ela deve se aplicar ao LASSO (apenas ) também. $L^1$ $L^2$ $L^1$

A solução para o máximo é dada na seção 2.5. $\lambda$

Quando , vemos em (5) que permanecerá zero se . Portanto, $\tilde\beta = 0$ $\tilde\beta_j$ $\frac{1}{N} | \langle x_j , y \rangle | < \lambda \alpha$ $N \alpha \lambda_{max} = \max_l | \langle x_l , y \rangle |$

Ou seja, observamos que a regra de atualização para beta força todas as estimativas de parâmetro a zero para conforme determinado acima. $\lambda > \lambda_{max}$

A determinação de e o número de pontos da grade parecem menos baseados em princípios. No glmnet, eles definem e, em seguida, escolhem uma grade de pontos igualmente espaçados na escala logarítmica. $\lambda_{min}$ $\lambda_{min} = 0.001 * \lambda_{max}$ $100$

Isso funciona bem na prática, no meu uso extensivo do glmnet, nunca achei essa grade muito grossa.

No LASSO ( ), apenas o caso funciona melhor, pois o método LARS fornece um cálculo preciso para quando os vários preditores entram no modelo. Um LARS verdadeiro não faz uma pesquisa na grade sobre , produzindo uma expressão exata para os caminhos da solução para os coeficientes. Aqui está uma visão detalhada do cálculo exato dos caminhos do coeficiente nos dois casos preditores. $L^1$ $\lambda$

O caso dos modelos não lineares (isto é, logístico, poisson) é mais difícil. Em um nível alto, primeiro é obtida uma aproximação quadrática da função de perda nos parâmetros iniciais e, em seguida, o cálculo acima é usado para determinar . Um cálculo preciso dos caminhos dos parâmetros não é possível nesses casos, mesmo quando apenas a regularização é fornecida, portanto, uma pesquisa na grade é a única opção. $\beta = 0$ $\lambda_{max}$ $L^1$

Os pesos das amostras também complicam a situação; os produtos internos devem ser substituídos em locais apropriados por produtos internos ponderados.

Matthew Drury
fonte

Escolhendo a faixa e a densidade da grade para o parâmetro de regularização no LASSO

Respostas: