Em qual configuração você esperaria que o modelo encontrado pelo LARS diferisse mais do modelo encontrado por pesquisa exaustiva?

9

Um pouco mais de informação; Suponha que

  1. você sabe de antemão quantas variáveis ​​selecionar e que define a penalidade de complexidade no procedimento LARS para ter exatamente tantas variáveis ​​com coeficientes diferentes de 0,
  2. custos de computação não são um problema (o número total de variáveis ​​é pequeno, digamos 50),
  3. que todas as variáveis ​​(y, x) são contínuas.

Em que cenário o modelo LARS (ou seja, o ajuste OLS dessas variáveis ​​com coeficientes diferentes de zero no ajuste LARS) seria mais diferente de um modelo com o mesmo número de coeficientes, mas encontrado por meio de pesquisa exaustiva (a la regsubsets ())?

Edit: Estou usando 50 variáveis ​​e 250 observações com os coeficientes reais extraídos de um gaussiano padrão, exceto por 10 das variáveis ​​com coeficientes 'reais' de 0 (e todos os recursos sendo fortemente correlacionados). Essas configurações obviamente não são boas, pois as diferenças entre os dois conjuntos de variáveis ​​selecionadas são mínimas. Esta é realmente uma pergunta sobre que tipo de configuração de dados deve-se simular para obter o máximo de diferenças.

user603
fonte

Respostas:

1

Aqui está a descrição do algoritmo LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html Ele meio que ignora a correlação entre os regressores, por isso atrevo-me a supor que ele pode perder o ajuste em caso de multicolinearidade.

Alex
fonte
é isso que está motivando minha pergunta, na verdade. Simulei configurações com 50 variáveis ​​em que o maior valor do vif é superior a 30 e ainda vejo poucas diferenças (por exemplo, em termos de R ^ 2 dos modelos selecionados) entre as duas abordagens.
user603
11
Eu mesmo encontrei respostas diferentes com stepAIC e lars e imaginaria que meu problema deveria ser tratado com o grupo LASSO - não se refere ao VIF de toda a matriz, mas a vários grupos de variáveis ​​correlacionadas.
28411 Alex
Interessante ... como você gera esses dados? (ie com clusters de variáveis ​​correlacionadas)
user603 27/07
Empilhe vários grupos independentes com correlação dentro deles. Eu mesmo tenho várias perguntas feitas sobre várias marcas - as pessoas tendem a gostar da marca de sua escolha e a não gostar de outras.
27411 Alex
3

Quanto mais recursos você tiver, em relação ao número de amostras, mais provável de obter um ajuste excessivo com o método de pesquisa exaustiva do que com o LARS. O termo de penalidade usado no LARS impõe uma estrutura aninhada de modelos cada vez mais complexos, indexados por um único parâmetro de regularização, de modo que os "graus de liberdade" de seleção de recurso com o LARS são razoavelmente baixos. Para pesquisa exaustiva, há efetivamente um grau (binário) de liberdade por recurso, o que significa que a pesquisa exaustiva é mais capaz de explorar a variabilidade aleatória no critério de seleção de recursos devido à amostragem aleatória dos dados. Como resultado, é provável que o modelo de pesquisa exaustiva seja severamente ajustado ao critério de seleção de recursos, pois a "classe de hipótese" é maior.

Dikran Marsupial
fonte
Sua resposta parece não estar relacionada à minha pergunta. Para deixar claro: estou realmente interessado em gerar situações em que o subconjunto de variáveis ​​selecionadas como ativas pelo LARS seria mais diferente daquelas selecionadas por pesquisa exaustiva, com isso medido por, digamos, a diferença em R ^ 2 entre o modelo LARS e o modelo de pesquisa exaustivo com o mesmo número de variável ativa . Você consegue pensar em algum caso adversário em que essa diferença seja grande? Você pode reformular sua resposta nesses termos?
user603
3
Minha resposta está diretamente relacionada à sua pergunta. O grau de ajuste excessivo não é controlado apenas pelo número de recursos, mas pelos valores dos pesos. Assim, é possível ajustar demais sem usar mais recursos. O LARS aplica uma penalidade na magnitude dos pesos, portanto, não escolhe recursos que reduzam apenas a perda ao quadrado às custas de pesos de grande magnitude, e é por isso que é menos propenso a ajustes excessivos. Os métodos de pesquisa exaustivos são basicamente uma receita para o ajuste excessivo; portanto, você terá soluções muito diferentes em situações nas quais é provável que ocorra um ajuste excessivo.
Dikran Marsupial
Ok, entendi seu ponto de vista: vem de algo que encobri na minha pergunta original (e espero que fique mais claro agora). Estou realmente comparando maçã com maçã aqui (ou seja, os modelos selecionados), ou seja, o (R ^ 2 do) OLS se encaixa usando a variável selecionada por LARS e o (R ^ 2 do) OLS se encaixa usando aqueles variáveis ​​selecionadas por pesquisa exaustiva. Eu não estou usando diretamente os coeficientes do LARS ....
user603
3
Não é ortogonal, é improvável que um modelo seja melhor que outro sem ser diferente. Nas situações em que é provável que haja excesso de ajuste, é provável que um modelo exaustivo baseado em pesquisa seja instável, ou seja, se você coletar 500 amostras diferentes, é provável que obtenha um conjunto diferente de recursos. LARS, por outro lado, provavelmente será mais estável. Se é provável que 50 recursos e 500 amostras resultem em sobreajuste depende da natureza do conjunto de dados, mas é certamente possível. A pesquisa exaustiva pode escolher características que explicam a variabilidade peculiar a esta amostra; LARS menos.
Dikran Marsupial
2
Pode ajudar se você puder explicar por que deseja fazer isso. Eu suspeito que o que você precisa observar são as magnitudes dos pesos do modelo verdadeiro e também a distribuição dos dados. Os modelos de regressão penalizados (LASSO, LARS, Elaris net, regressão de cume) têm um valor anterior na distribuição esperada de pesos; portanto, se você tiver um conjunto de dados inválido, esse poderá ser um bom ponto de partida.
Dikran Marsupial