Como o LASSO seleciona entre preditores colineares?

10

Estou procurando uma resposta intuitiva por que um modelo GLM LASSO seleciona um preditor específico de um grupo de modelos altamente correlacionados e por que o faz de maneira diferente da melhor seleção de recurso de subconjunto.

A partir da geometria do LASSO mostrada na Figura 2 em Tibshirani 1996 , sou levada a acreditar que o LASSO seleciona o preditor com a maior variação.

Agora, suponha que eu use a melhor seleção de subconjunto com CV 10 vezes, para obter 2 preditores para um modelo de regressão logística e tenho um conhecimento prévio razoável de que esses dois preditores são ótimos (no sentido de perda de 0-1).

A solução LASSO favorece uma solução menos parcimoniosa (5 preditores) com maior erro de previsão. Intuitivamente, o que causa a diferença? É por causa da maneira como o LASSO seleciona entre preditores correlacionados?

Piotr Sokol
fonte

Respostas:

5

O LASSO difere da seleção do melhor subconjunto em termos de penalização e dependência de caminho.

Na seleção do melhor subconjunto, presumivelmente o CV foi usado para identificar que dois preditores apresentaram o melhor desempenho. Durante o CV, coeficientes de regressão de magnitude total sem penalização teriam sido usados ​​para avaliar quantas variáveis ​​incluir. Uma vez tomada a decisão de usar 2 preditores, todas as combinações de 2 preditores serão comparadas no conjunto de dados completo, em paralelo, para encontrar os 2 para o modelo final. Esses dois preditores finais receberiam seus coeficientes de regressão de magnitude total, sem penalização, como se tivessem sido as únicas escolhas o tempo todo.

Você pode pensar no LASSO como começando com uma grande penalidade na soma das magnitudes dos coeficientes de regressão, com a penalidade gradualmente relaxada. O resultado é que as variáveis ​​entram uma de cada vez, com uma decisão tomada em cada ponto durante o relaxamento, se é mais valioso aumentar os coeficientes das variáveis ​​já existentes no modelo ou adicionar outra variável. Porém, quando você obtém, digamos, um modelo de 2 variáveis, os coeficientes de regressão permitidos pelo LASSO terão magnitude menor do que essas mesmas variáveis ​​teriam nas regressões não penalizadas padrão usadas para comparar modelos de 2 variáveis ​​e 3 variáveis ​​em seleção de melhor subconjunto.

Isso pode ser pensado como facilitando a entrada de novas variáveis ​​no LASSO do que na seleção do melhor subconjunto. Heuristicamente, o LASSO negocia coeficientes de regressão potencialmente inferiores ao real contra a incerteza em quantas variáveis ​​devem ser incluídas. Isso tenderia a incluir mais variáveis ​​em um modelo LASSO e desempenho potencialmente pior para o LASSO se você tivesse certeza de que apenas duas variáveis ​​precisavam ser incluídas. Mas se você já soubesse quantas variáveis ​​preditivas deveriam ser incluídas no modelo correto, provavelmente não usaria o LASSO.

Até agora, nada dependia da colinearidade, o que leva a diferentes tipos de arbitrariedade na seleção de variáveis ​​no melhor subconjunto versus LASSO. Neste exemplo, o melhor subconjunto examinou todas as combinações possíveis de 2 preditores e escolheu o melhor dentre essas combinações. Portanto, os 2 melhores para essa amostra de dados específica vencem.

O LASSO, com sua dependência de caminho na adição de uma variável por vez, significa que a escolha precoce de uma variável pode influenciar quando outras variáveis ​​correlacionadas a ela entram mais tarde no processo de relaxamento. Também é possível que uma variável entre cedo e depois o coeficiente do LASSO diminua à medida que outras variáveis ​​correlatas entram.

Na prática, a escolha entre preditores correlacionados nos modelos finais com qualquer um dos métodos é altamente dependente da amostra, como pode ser verificado pela repetição desses processos de construção de modelos nas amostras de inicialização dos mesmos dados. Se não houver muitos preditores e seu principal interesse for a previsão de novos conjuntos de dados, a regressão de crista, que tende a manter todos os preditores, pode ser uma escolha melhor.

EdM
fonte