Enquanto isso, estou estudando o LASSO ( operador menos absoluto de encolhimento e seleção). Vejo que o valor ideal para o parâmetro de regularização pode ser escolhido por validação cruzada. Vejo também na regressão de cume e em muitos métodos que aplicam a regularização, podemos usar o CV para encontrar o parâmetro ideal de regularização (dizendo penalidade). Agora, minha pergunta é sobre valores iniciais do limite superior e inferior do parâmetro e como determinar o comprimento da sequência.
Para ser específico, suponha que tenhamos um problema do e queremos encontrar o valor ideal para a penalidade, \ lambda . Então, como podemos escolher um limite inferior e superior para \ lambda \ em [a = ?, b =?] ? e quantas divisões entre esses dois valores \ frac {(ba)} {k =?} ? λ λ ∈ [ a = ? , b = ? ] ( b - a )
fonte
Respostas:
Essa metodologia é descrita no documento glmnet Paths de regularização para modelos lineares generalizados via descida de coordenadas . Embora a metodologia aqui seja para o caso geral de regularização e , ela deve se aplicar ao LASSO (apenas ) também.L 2 L 1L1 L2 L1
A solução para o máximo é dada na seção 2.5.λ
Ou seja, observamos que a regra de atualização para beta força todas as estimativas de parâmetro a zero para conforme determinado acima.λ>λmax
A determinação de e o número de pontos da grade parecem menos baseados em princípios. No glmnet, eles definem e, em seguida, escolhem uma grade de pontos igualmente espaçados na escala logarítmica. λ m i n = 0,001 ∗ λ m a x 100λmin λmin=0.001∗λmax 100
Isso funciona bem na prática, no meu uso extensivo do glmnet, nunca achei essa grade muito grossa.
No LASSO ( ), apenas o caso funciona melhor, pois o método LARS fornece um cálculo preciso para quando os vários preditores entram no modelo. Um LARS verdadeiro não faz uma pesquisa na grade sobre , produzindo uma expressão exata para os caminhos da solução para os coeficientes. Aqui está uma visão detalhada do cálculo exato dos caminhos do coeficiente nos dois casos preditores.L1 λ
O caso dos modelos não lineares (isto é, logístico, poisson) é mais difícil. Em um nível alto, primeiro é obtida uma aproximação quadrática da função de perda nos parâmetros iniciais e, em seguida, o cálculo acima é usado para determinar . Um cálculo preciso dos caminhos dos parâmetros não é possível nesses casos, mesmo quando apenas a regularização é fornecida, portanto, uma pesquisa na grade é a única opção.λ m a x L 1β=0 λmax L1
Os pesos das amostras também complicam a situação; os produtos internos devem ser substituídos em locais apropriados por produtos internos ponderados.
fonte