Uma das motivações para a rede elástica foi a seguinte limitação do LASSO:
No caso , o laço seleciona no máximo n variáveis antes de saturar, devido à natureza do problema de otimização convexa. Esse parece ser um recurso limitante para um método de seleção de variáveis. Além disso, o laço não é bem definido, a menos que o limite na norma L1 dos coeficientes seja menor que um determinado valor.
( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )
Entendo que o LASSO é um problema de programação quadrática, mas também pode ser resolvido via LARS ou descida gradiente por elementos. Mas eu não entendo onde nestes algoritmos me deparo com um problema se onde p é o número de preditores e n é o tamanho da amostra. E por que esse problema é resolvido usando uma rede elástica, onde eu aumento o problema para variáveis p + n que claramente excede p .
fonte
Respostas:
Como dito, isso não é propriedade de um algoritmo, mas do problema de otimização. As condições KKT basicamente dar que para coeficiente para ser não-zero, tem de corresponder a uma correlação fixa com o resíduo | X t j ( y - X β ) | = λ ( λ é o parâmetro de regularização).βj |Xtj(y−Xβ)|=λ λ
Depois de resolver as várias complicações com valor absoluto etc., você fica com uma equação linear para cada coeficiente diferente de zero. Como a classificação da matriz é no máximo n quando p > nX n p>n , esse é o número de equações que podem ser resolvidas e, portanto, existem no máximo n não zeros (a menos que haja redundâncias).
A propósito, isso é válido para qualquer função de perda, não apenas para o laço padrão com perda de . Portanto, é de fato uma propriedade da penalidade de laço. Existem muitos artigos que mostram essa visão da KKT e as conclusões resultantes. Posso apontar para o nosso artigo: Rosset e Zhu, Caminhos de soluções regularizadas lineares por partes, Anais de estatísticas de 2007 e refs.L2
fonte
has decreased.
fonte