Finura da grade e ajuste excessivo ao ajustar em LASSO, cume, rede elástica

8

Eu me pergunto sobre

  • a finura ideal da grade e
  • qual é a relação entre a finura da grade e a super adaptação

em métodos de regularização como LASSO, regressão de crista ou rede elástica.

Suponha que eu queira ajustar um modelo de regressão usando LASSO a uma amostra de 500 observações (não tenho os dados; este é apenas um exemplo). Suponha também que eu tenha
(A) uma grade com 100 valores diferentes no intervalo entre e (B) uma grade com 1000 valores diferentes no mesmo intervalo, em que é o parâmetro que controla o grau de penalização.λ m i nλλminλmax
λ
λ

Questões:

  1. Posso dizer algo sobre a propensão a superajustar em (A) versus (B) ?
  2. Posso determinar a finura ideal da grade? Quão?
Richard Hardy
fonte

Respostas:

7

Posso dizer algo sobre a propensão a superajuste em (A) versus (B)?

Desde que as duas grades abranjam um intervalo suficiente, a finura da grade não tem nada a ver com a super adaptação neste problema (embora uma grade grosseira possa se desequilibrar se passar por um intervalo lucrativo). Não é como se testar muitos valores mudasse de alguma forma a aparência fora da amostra. * No caso dessas regressões penalizadas, definitivamente queremos otimizar nossa função de probabilidade penalizada para valores , e não importa como testamos muitos valores de , porque o desempenho fora da amostra para um conjunto de dados fixo e particionamento fixo é totalmente determinístico. Mais exatamente, a métrica fora da amostra não é alterada de acordo com quantos valoresλ λλλλvocê testa. Uma grade mais grossa pode significar que você pula o mínimo absoluto em sua métrica fora da amostra, mas encontrar o mínimo absoluto provavelmente não é desejável em primeiro lugar, porque os hiperparâmetros tendem a ser mal estimados e as propriedades finitas da amostra significam que os dados As limitações serão um ruído de origem nessa estimativa que sobrecarregará pequenas alterações na distância entre pontos de grade adjacentes: o erro padrão da sua estimativa tenderá a inundar as diferenças na finura da grade.

Se você estiver realmente preocupado com o fato de que a métrica de desempenho fora da amostra possa ser excessivamente otimista, você pode adotar a regra de 1 erro padrão, que seleciona o modelo mais regularizado dentro de 1 erro padrão do mínimo. Dessa forma, você está sendo um pouco mais conservador e escolhendo um modelo menos complexo.

Posso determinar a finura ideal da grade? Quão?

O algoritmo LARS não define a priori quais valores de devem ser verificados; em vez disso, é alterado continuamente e o algoritmo verifica os valores de para os quais um coeficiente vai de 0 a um valor diferente de zero. Esses valores deλ λ λλλλλonde um novo coeficiente é diferente de zero, são mantidos, com a observação de que os caminhos dos coeficientes são lineares por partes no caso do laço, para que não haja perda de informações apenas armazenando os nós nesse caso. LARS só funciona quando caminhos de coeficiente são linearmente por partes. A penalidade na cordilheira nunca reduz um coeficiente a zero precisamente, portanto todos os seus caminhos de coeficiente são suaves e sempre diferentes de zero; da mesma forma, regressões líquidas elásticas (excluindo o caso de regressões líquidas elásticas que também são regressões de laço).

Mas a maioria das pessoas usa o GLMNET porque geralmente é mais rápido. Para determinar qual grade do pesquisar, eu recomendo a leitura do artigo GLMNET "Caminhos de regularização para modelos lineares generalizados via descida de coordenadas", de Jerome Friedman, Trevor Hastie e Rob Tibshirani. Nele, eles desenvolvem um algoritmo muito eficiente para estimar regressões de crista, laço e rede elástica. O algoritmo verifica um valor de para o qual é o vetor zero e, em seguida, identifica um valor mínimo relação aλ max β λ min λ maxλλmaxβλminλmax. Finalmente, eles geram uma sequência de valores entre os dois uniformemente na escala de log. Essa grade é suficiente para a maioria dos propósitos, embora omita a propriedade que você saberá precisamente quando um coeficiente for estimado em um valor diferente de zero. As partidas a quente são usadas para fornecer soluções muito mais rapidamente e suportam muitos GLMs comuns.


* Você pode estar pensando sobre isso da perspectiva de uma rede neural artificial, onde a parada precoce às vezes é usada para realizar a regularização, mas esse é um problema totalmente não relacionado (ou seja, que o algoritmo de otimização é impedido de atingir o ideal, portanto o modelo é forçado a ser menos complexo).

Sycorax diz restabelecer Monica
fonte
2
Eu não acho que você esteja certo na descrição de como o glmnet escolhe o lambdas user777. Confira a seção 2.5 do documento, onde eles discutem a escolha de lambda mínimo e máximo e os intermediários. Você pode estar pensando no LARS, que realmente faz o que descreve, mas não creio que tenha sido generalizado para incluir uma penalidade de cume.
Matthew Drury
@MatthewDrury Bah. Você está certo. Eu estava pensando em LARS.
Sycorax diz Reinstate Monica
Eu li algum material relacionado e talvez esse artigo também, mas o seguinte não foi completamente convincente para mim: Finalmente, eles geram uma sequência de valores entre os dois uniformemente na escala logarítmica. Existe alguma justificativa que mostre que essa é uma escolha ideal? Além disso, como eles escolhem a finura da grade? Não me lembro de ter lido uma boa explicação.
Richard Hardy
1
Em todos os meus usos do glmnet, observei que a mudança na probabilidade de log entre pontos de grade consecutivos é sempre dominada pelo erro-padrão estimado dessas estimativas. Portanto, a grade padrão é boa o suficiente para que qualquer informação obtida de uma resolução aumentada seja dominada pela incerteza na estimativa lambda.
Matthew Drury
1
λλ