Por que usar laço de grupo em vez de laço?

13

Eu li que o laço de grupo é usado para seleção de variáveis ​​e esparsidade em um grupo de variáveis. Eu quero saber a intuição por trás dessa afirmação.

  • Por que o laço de grupo é preferível ao laço?
  • Por que o caminho da solução do laço de grupo não é linear por partes?
vendeta
fonte
1
O que eu entendo do Yuan e Lin (2006) que o laço é projetado para selecionar variáveis ​​individuais, não a seleção fatorial. Portanto, o laço aborda o problema da ANOVA, onde o objetivo é selecionar importantes efeitos e interações importantes para uma previsão precisa, o que equivale à seleção de grupos de variáveis. O outro exemplo é do modelo aditivo com polinômio, em que cada componente é expresso como uma combinação linear de funções básicas das variáveis ​​medidas originais
Vendetta

Respostas:

11

Intuitivamente, o laço do grupo pode ser preferido ao laço, pois fornece um meio para incorporar (um certo tipo de) informações adicionais em nossa estimativa para o verdadeiro coeficiente . Como cenário extremo, considerando o seguinte:β

Com , coloque S = { j : β j0 } como suporte de β . Considere o "Oracle" estimador β = arg min βy - X β 2 2 + λ ( | S | 1 / 2β S yN(Xβ,σ2I)S={j:βj0}β que é o grupo lasso com dois grupos - um o verdadeiro suporte e um complemento. Deixe λ m um x ser o menor valor de λ que faz β = 0 . Devido à natureza da penalidade do laço do grupo, sabemos que em λ se move de λ m a x para λ m a x - ϵ

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λλmaxλmaxϵ(para alguns pequenos ), exactamente um grupo entrará em suporte de β , que é popularmente considerado como uma estimativa para S . Devido ao nosso agrupamento, com alta probabilidade, o grupo selecionado será S , e teremos feito um trabalho perfeito.ϵ>0β^SS

Na prática, não selecionamos os grupos tão bem. No entanto, os grupos, apesar de serem mais refinados do que o cenário extremo acima, ainda nos ajudarão: a escolha ainda seria feita entre um grupo de covariáveis ​​verdadeiras e um grupo de covariáveis ​​falsas. Ainda estamos pegando força emprestada.

Isso é formalizado aqui . Eles mostram, sob algumas condições, que o limite superior do erro de previsão do laço do grupo é menor que o limite inferior do erro de previsão do laço simples. Ou seja, eles provaram que o agrupamento melhora nossa estimativa.

L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J
user795305
fonte
2
Faz muito sentido agora. Muito obrigado pela sua resposta.
Vendetta
4

A resposta de Ben é o resultado mais geral. Mas a resposta intuitiva ao OP é motivada pelo caso de preditores categóricos, que geralmente são codificados como múltiplas variáveis ​​fictícias: uma para cada categoria. Em muitas análises, faz sentido considerar essas variáveis ​​fictícias (representando um preditor categórico) juntas, e não separadamente.

Se você tem uma variável categórica com, digamos, cinco níveis, um laço reto pode deixar dois dentro e três fora. Como você lida com isso de uma maneira baseada em princípios? Decida votar? Literalmente, use as variáveis ​​dummy em vez das categóricas mais significativas? Como sua codificação fictícia afeta suas escolhas?

Como se costuma dizer na introdução do laço do grupo para regressão logística , ele menciona:

Já para o caso especial da regressão linear, quando não apenas preditores (fatores) contínuos, mas também categóricos estão presentes, a solução do laço não é satisfatória, pois apenas seleciona variáveis ​​fictícias individuais em vez de fatores inteiros. Além disso, a solução do laço depende de como as variáveis ​​dummy são codificadas. A escolha de diferentes contrastes para um preditor categórico produzirá soluções diferentes em geral.

Como Ben ressalta, também existem vínculos mais sutis entre os preditores que podem indicar que eles devem entrar ou sair juntos. Mas as variáveis ​​categóricas são o filho do pôster do laço de grupo.

Wayne
fonte
@ Ben: Hmmm ... eu realmente não consigo entender o primeiro comentário do OP, parece que é uma resposta a um comentário excluído? A pergunta em si e seu título - que é o que a maioria dos telespectadores lerá - parece ser uma pergunta geral. Certamente vou excluir minha resposta se a pergunta e o título forem alterados para algo sobre "Quais aplicativos não óbvios existem para o laço agrupado além do caso de variáveis ​​categóricas?"
611 Wayne
OK. Eu gosto do seu ponto de vista sobre como o uso de laço simples é um fator que faz as estimativas dependerem da codificação dos fatores! Eu já só pensava do grupo lasso como nos dando uma espécie de "dispersão de medição" em vez de uma "dispersão parâmetro" (ou seja, devemos ter para medir o fator ou não -. Todos os níveis devem ser selecionados ou nenhum)
user795305