O LASSO difere da seleção do melhor subconjunto em termos de penalização e dependência de caminho.
Na seleção do melhor subconjunto, presumivelmente o CV foi usado para identificar que dois preditores apresentaram o melhor desempenho. Durante o CV, coeficientes de regressão de magnitude total sem penalização teriam sido usados para avaliar quantas variáveis incluir. Uma vez tomada a decisão de usar 2 preditores, todas as combinações de 2 preditores serão comparadas no conjunto de dados completo, em paralelo, para encontrar os 2 para o modelo final. Esses dois preditores finais receberiam seus coeficientes de regressão de magnitude total, sem penalização, como se tivessem sido as únicas escolhas o tempo todo.
Você pode pensar no LASSO como começando com uma grande penalidade na soma das magnitudes dos coeficientes de regressão, com a penalidade gradualmente relaxada. O resultado é que as variáveis entram uma de cada vez, com uma decisão tomada em cada ponto durante o relaxamento, se é mais valioso aumentar os coeficientes das variáveis já existentes no modelo ou adicionar outra variável. Porém, quando você obtém, digamos, um modelo de 2 variáveis, os coeficientes de regressão permitidos pelo LASSO terão magnitude menor do que essas mesmas variáveis teriam nas regressões não penalizadas padrão usadas para comparar modelos de 2 variáveis e 3 variáveis em seleção de melhor subconjunto.
Isso pode ser pensado como facilitando a entrada de novas variáveis no LASSO do que na seleção do melhor subconjunto. Heuristicamente, o LASSO negocia coeficientes de regressão potencialmente inferiores ao real contra a incerteza em quantas variáveis devem ser incluídas. Isso tenderia a incluir mais variáveis em um modelo LASSO e desempenho potencialmente pior para o LASSO se você tivesse certeza de que apenas duas variáveis precisavam ser incluídas. Mas se você já soubesse quantas variáveis preditivas deveriam ser incluídas no modelo correto, provavelmente não usaria o LASSO.
Até agora, nada dependia da colinearidade, o que leva a diferentes tipos de arbitrariedade na seleção de variáveis no melhor subconjunto versus LASSO. Neste exemplo, o melhor subconjunto examinou todas as combinações possíveis de 2 preditores e escolheu o melhor dentre essas combinações. Portanto, os 2 melhores para essa amostra de dados específica vencem.
O LASSO, com sua dependência de caminho na adição de uma variável por vez, significa que a escolha precoce de uma variável pode influenciar quando outras variáveis correlacionadas a ela entram mais tarde no processo de relaxamento. Também é possível que uma variável entre cedo e depois o coeficiente do LASSO diminua à medida que outras variáveis correlatas entram.
Na prática, a escolha entre preditores correlacionados nos modelos finais com qualquer um dos métodos é altamente dependente da amostra, como pode ser verificado pela repetição desses processos de construção de modelos nas amostras de inicialização dos mesmos dados. Se não houver muitos preditores e seu principal interesse for a previsão de novos conjuntos de dados, a regressão de crista, que tende a manter todos os preditores, pode ser uma escolha melhor.