Escassez ao descartar o coeficiente de mínimos quadrados

14

Suponha que eu deseje regredir contra um X normalizado , mas gostaria de uma solução esparsa. Após a regressão, por que o descarte dos coeficientes com a menor magnitude não é permitido?YX

Para constar, ouvi falar e frequentemente uso os métodos LARS e LASSO. Só estou curioso para saber por que a abordagem acima não é aplicável.

Cam.Davidson.Pilon
fonte
2
+1 Essas perguntas simples podem ser difíceis - elas fazem pensar bastante sobre os conceitos básicos.
whuber

Respostas:

14

Não haveria problema se fosse ortonormal. No entanto, a possibilidade de forte correlação entre as variáveis ​​explicativas deve nos dar uma pausa.X

Quando você considera a interpretação geométrica da regressão de mínimos quadrados , é fácil encontrar contra-exemplos. Considere para ter, digamos, coeficientes quase normalmente distribuídos e X 2 para ser quase paralelo a ele. Seja X 3 ortogonal ao plano gerado por X 1 e X 2 . Podemos imaginar um Y que é principalmente no X 3 direcção, mas é deslocada uma quantidade relativamente pequena da origem no X 1 , X 2 avião. Porque X 1 eX1X2X3X1X2YX3X1,X2X1X2 são quase paralelos, seus componentes nesse plano podem ter grandes coeficientes, fazendo com que reduzamos , o que seria um grande erro.X3

A geometria pode ser recriada com uma simulação, como é realizada por estes Rcálculos:

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

Xi1X320YR20.99750.38

A matriz do gráfico de dispersão revela tudo:

Matriz de dispersão de x1, x2, x3 e y

x3yx1yx2yx3x1x2

whuber
fonte
2

Parece-me que, se um coeficiente estimado estiver próximo de 0 e os dados forem normalizados, a previsão não seria prejudicada ao descartar a variável. Certamente, se o coeficiente não fosse estatisticamente significativo, pareceria não haver problema. Mas isso deve ser feito com cuidado. Os IVs podem ser correlacionados e a remoção de um pode alterar os coeficientes de outros. Isso fica mais perigoso se você começar a remover várias variáveis ​​dessa maneira. Os procedimentos de seleção de subconjuntos são projetados para evitar esses problemas e usar critérios sensíveis para incluir e excluir variáveis. Se você perguntar a Frank Harrell, ele seria contra procedimentos graduais. Você menciona o LARS e o LASSO, que são dois métodos muito modernos. Mas existem muitos outros, incluindo critérios de informação que simplificam a introdução de muitas variáveis.

Se você tentar um procedimento de seleção de subconjunto que foi cuidadosamente estudado com muita literatura sobre o assunto, provavelmente descobrirá que ele levará a uma solução que refaz variáveis ​​com pequenos coeficientes, especialmente se eles falharem no teste por serem estatisticamente significativamente diferentes de 0.

Michael R. Chernick
fonte