Entendo qual o papel do lambda em uma regressão com rede elástica. E eu posso entender por que alguém selecionaria lambda.min, o valor de lambda que minimiza o erro validado cruzado.
Minha pergunta é: Onde na literatura estatística é recomendado usar lambda.1se, que é o valor de lambda que minimiza o erro CV mais um erro padrão ? Parece que não consigo encontrar uma citação formal, ou mesmo uma razão para isso ser um bom valor. Entendo que é uma regularização mais restritiva e reduz os parâmetros para zero, mas nem sempre tenho certeza das condições sob as quais lambda.1se é uma escolha melhor do que lambda.min. Alguém pode ajudar a explicar?
Respostas:
Friedman, Hastie e Tibshirani (2010) , citando The Elements of Statistical Learning , escrevem,
A razão para usar um erro padrão, em oposição a qualquer outra quantia, parece ser porque é, bem ... padrão. Krstajic, et al (2014) escrevem (ênfase em negrito):
A sugestão é que a escolha de um erro padrão seja totalmente heurística, com base no senso de que um erro padrão normalmente não é grande em relação ao intervalo de valores .λ
fonte
O livro de Breiman et al. (Citado na citação da outra resposta de Krstajic) é a referência mais antiga que encontrei para a regra 1SE.
Estas são as árvores de classificação e regressão de Breiman, Friedman, Stone e Olshen (1984). Eles "derivam" esta regra na seção 3.4.3.
Portanto, se você precisar de uma citação formal, essa parece ser a fonte original.
fonte