Se p> n, o laço seleciona no máximo n variáveis

13

Uma das motivações para a rede elástica foi a seguinte limitação do LASSO:

No caso p>n , o laço seleciona no máximo n variáveis ​​antes de saturar, devido à natureza do problema de otimização convexa. Esse parece ser um recurso limitante para um método de seleção de variáveis. Além disso, o laço não é bem definido, a menos que o limite na norma L1 dos coeficientes seja menor que um determinado valor.

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

Entendo que o LASSO é um problema de programação quadrática, mas também pode ser resolvido via LARS ou descida gradiente por elementos. Mas eu não entendo onde nestes algoritmos me deparo com um problema se onde p é o número de preditores e n é o tamanho da amostra. E por que esse problema é resolvido usando uma rede elástica, onde eu aumento o problema para variáveis p + n que claramente excede p .p>npnp+np

user1137731
fonte
2
Se o laço restringe o uso para manter p <= n, por que isso é uma desvantagem, e não uma virtude. overfitting é um problema sério que ocorre quando p = n. O modelo com p = n é um modelo saturado e, com freqüência, se adapta a ele, porque ajustará perfeitamente os dados observados, mas não necessariamente predisporá bem os casos futuros.
Michael R. Chernick 30/09/12
3
O fato de o laço selecionar apenas até variáveis ​​pode ser visto como uma conseqüência do fato de poder ser resolvido usando (uma leve modificação) o algoritmo LARS, que admite apenas n variáveis ​​no conjunto ativo a qualquer momento. O fato de isso não se sustentar no caso da rede elástica decorre essencialmente da incorporação da penalidade de 2 e, portanto, se comporta mais como a regressão de crista, a última das quais normalmente resulta em todos os coeficientes diferentes de zero. nn2
cardeal
Obrigado pelas respostas e como eu veria a descida do gradiente que no máximo n variáveis ​​podem ser selecionadas: Apresentação em cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ …
Artigo
3
@ usuário: Eu acho que você pode estar confundindo o problema matemático com sua solução numérica. O algoritmo LARS mostra que a solução de laço selecionará no máximo variáveis. Isso é independente dos meios numéricos reais para chegar à solução, ou seja, o algoritmo LARS fornece informações sobre o problema, mas é claro que qualquer outro método que resolva o problema de forma equivalente deve ter a mesma propriedade! :-)n
cardeal
Considere um recurso duplicado vezes. Existirá um estimador de laço com exatamente p diferentes de zero (mesmo que p > n ). Portanto, sua afirmação não é verdadeira como está escrita. ppp>n
user795305

Respostas:

10

Como dito, isso não é propriedade de um algoritmo, mas do problema de otimização. As condições KKT basicamente dar que para coeficiente para ser não-zero, tem de corresponder a uma correlação fixa com o resíduo | X t j ( y - X β ) | = λ ( λ é o parâmetro de regularização).βj|Xjt(yXβ)|=λλ

Depois de resolver as várias complicações com valor absoluto etc., você fica com uma equação linear para cada coeficiente diferente de zero. Como a classificação da matriz é no máximo n quando p > nXnp>n , esse é o número de equações que podem ser resolvidas e, portanto, existem no máximo n não zeros (a menos que haja redundâncias).

A propósito, isso é válido para qualquer função de perda, não apenas para o laço padrão com perda de . Portanto, é de fato uma propriedade da penalidade de laço. Existem muitos artigos que mostram essa visão da KKT e as conclusões resultantes. Posso apontar para o nosso artigo: Rosset e Zhu, Caminhos de soluções regularizadas lineares por partes, Anais de estatísticas de 2007 e refs.L2

Saharon Rosset
fonte
KKT de quê? Além disso, é possível que você queira dizer perda de L1 ao falar sobre o laço padrão?
Miura
Olá Saharon e bem-vindo ao site. Você pode usar o LaTeX para tornar as fórmulas mais limpas (eu fiz isso na sua resposta) e não precisa assinar suas postagens, pois uma assinatura é adicionada automaticamente.
Peter Flom - Restabelece Monica
1
@miura: KKT significa Karush-Kuhn-Tucker. As condições KKT são certas equações que as soluções para problemas de otimização (suficientemente regulares) devem cumprir ( artigo da wikipedia ).
mogron 1/10/12
Eu só ver que Ryan Tibshirani tem um papel de trabalho muito relevante 'O Lasso Problema e singularidade.': Stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731
6

n<pXn, portanto, a dimensão do seu espaço nulo (direito) é pelo menos p-n. Escreva qualquer vetor neste espaço nulo comoz. Então, em qualquer ponto possívelβ, pode-se sempre mover neste p-nnulo tridimensional em direção aos eixos de coordenadas do ptridimensional do ambiente, para chegar a um β+z, onde (no máximo) n βjs são diferentes de zero e a função objetivo do LASSO

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

has decreased.

user2969758
fonte
(+1) There's a gap here: see my comment on OPs post.
user795305