Por que lambda "dentro de um erro padrão do mínimo" é um valor recomendado para lambda em uma regressão líquida elástica?

24

Entendo qual o papel do lambda em uma regressão com rede elástica. E eu posso entender por que alguém selecionaria lambda.min, o valor de lambda que minimiza o erro validado cruzado.

Minha pergunta é: Onde na literatura estatística é recomendado usar lambda.1se, que é o valor de lambda que minimiza o erro CV mais um erro padrão ? Parece que não consigo encontrar uma citação formal, ou mesmo uma razão para isso ser um bom valor. Entendo que é uma regularização mais restritiva e reduz os parâmetros para zero, mas nem sempre tenho certeza das condições sob as quais lambda.1se é uma escolha melhor do que lambda.min. Alguém pode ajudar a explicar?

jhersh
fonte
5
Uma referência formal pode ser encontrada em Hastie et al. "Os elementos do aprendizado estatístico", página 61. No entanto, eles não dão muita justificativa para essa escolha ...
Richard Hardy
Consulte stats.stackexchange.com/questions/80268 .
ameba diz Restabelecer Monica

Respostas:

22

Friedman, Hastie e Tibshirani (2010) , citando The Elements of Statistical Learning , escrevem,

Geralmente usamos a regra "erro padrão único" ao selecionar o melhor modelo; isso reconhece o fato de que as curvas de risco são estimadas com erro; portanto, há erros no lado da parcimônia.

A razão para usar um erro padrão, em oposição a qualquer outra quantia, parece ser porque é, bem ... padrão. Krstajic, et al (2014) escrevem (ênfase em negrito):

Breiman et al. [25] descobriram, no caso de selecionar o tamanho ideal da árvore para os modelos de árvore de classificação, que o tamanho da árvore com um erro mínimo de validação cruzada gera um modelo que geralmente se adapta demais. Portanto, na Seção 3.4.3 de seu livro, Breiman et al. [25] definem a regra de erro padrão (regra 1 SE) para escolher o tamanho ideal da árvore e a implementam ao longo do livro. Para calcular o erro padrão para a validação cruzada de uma única dobra em V, a precisão precisa ser calculada para cada dobra e o erro padrão é calculado a partir das precisões em V de cada dobra. Hastie et al. [4] definem a regra 1 SE como selecionando o modelo mais parcimonioso, cujo erro não passa de um erro padrão acima do erro do melhor modelo, e eles sugerem em vários locais o uso da regra 1 SE para uso geral de validação cruzada.O ponto principal da regra do 1 SE, com o qual concordamos, é escolher o modelo mais simples, cuja precisão é comparável ao melhor modelo .

A sugestão é que a escolha de um erro padrão seja totalmente heurística, com base no senso de que um erro padrão normalmente não é grande em relação ao intervalo de valores .λ

shadowtalker
fonte
1
Obrigado! Agora, finalmente, posso citar algo apropriado quando surge a pergunta para aqueles que não estão familiarizados com a escolha "padrão" de lambda. O link para Krstajic et al também parece ótimo.
jhersh
Essa citação diz apenas "1se foi considerado ideal para classificação ". Mas a pergunta feita sobre a regressão ! Existem alternativas. Se tentarmos, por exemplo, voltar ao 2se, teremos o problema de que o lambda é muito grande e diminui demais os coeficientes. Mas poderíamos, por exemplo, reconstruir o modelo que exclui todas as variáveis ​​não selecionadas em lambda.1se no modelo original.
smci
@smci qual citação? Não está em nenhuma das citações que extraí, que sugerem que a regra 1-SE é aplicável em geral, não apenas na classificação.
Shadowtalker
6

O livro de Breiman et al. (Citado na citação da outra resposta de Krstajic) é a referência mais antiga que encontrei para a regra 1SE.

Estas são as árvores de classificação e regressão de Breiman, Friedman, Stone e Olshen (1984). Eles "derivam" esta regra na seção 3.4.3.

Portanto, se você precisar de uma citação formal, essa parece ser a fonte original.

civilstat
fonte