Um pouco mais de informação; Suponha que
- você sabe de antemão quantas variáveis selecionar e que define a penalidade de complexidade no procedimento LARS para ter exatamente tantas variáveis com coeficientes diferentes de 0,
- custos de computação não são um problema (o número total de variáveis é pequeno, digamos 50),
- que todas as variáveis (y, x) são contínuas.
Em que cenário o modelo LARS (ou seja, o ajuste OLS dessas variáveis com coeficientes diferentes de zero no ajuste LARS) seria mais diferente de um modelo com o mesmo número de coeficientes, mas encontrado por meio de pesquisa exaustiva (a la regsubsets ())?
Edit: Estou usando 50 variáveis e 250 observações com os coeficientes reais extraídos de um gaussiano padrão, exceto por 10 das variáveis com coeficientes 'reais' de 0 (e todos os recursos sendo fortemente correlacionados). Essas configurações obviamente não são boas, pois as diferenças entre os dois conjuntos de variáveis selecionadas são mínimas. Esta é realmente uma pergunta sobre que tipo de configuração de dados deve-se simular para obter o máximo de diferenças.
fonte
Quanto mais recursos você tiver, em relação ao número de amostras, mais provável de obter um ajuste excessivo com o método de pesquisa exaustiva do que com o LARS. O termo de penalidade usado no LARS impõe uma estrutura aninhada de modelos cada vez mais complexos, indexados por um único parâmetro de regularização, de modo que os "graus de liberdade" de seleção de recurso com o LARS são razoavelmente baixos. Para pesquisa exaustiva, há efetivamente um grau (binário) de liberdade por recurso, o que significa que a pesquisa exaustiva é mais capaz de explorar a variabilidade aleatória no critério de seleção de recursos devido à amostragem aleatória dos dados. Como resultado, é provável que o modelo de pesquisa exaustiva seja severamente ajustado ao critério de seleção de recursos, pois a "classe de hipótese" é maior.
fonte