Por que Lasso ou ElasticNet têm melhor desempenho que Ridge quando os recursos estão correlacionados

16

Eu tenho um conjunto de 150 recursos, e muitos deles estão altamente correlacionados entre si. Meu objetivo é prever o valor de uma variável discreta, cujo intervalo é de 1 a 8 . O tamanho da minha amostra é 550 e estou usando a validação cruzada 10 vezes .

AFAIK, entre os métodos de regularização (Lasso, ElasticNet e Ridge), Ridge é mais rigoroso quanto à correlação entre os recursos. Por isso, esperava que, com Ridge, eu obtivesse uma previsão mais precisa. No entanto, meus resultados mostram que o erro médio absoluto de Lasso ou Elastic é de cerca de 0,61, enquanto esse escore é de 0,97 para a regressão de crista. Eu me pergunto o que seria uma explicação para isso. Isso ocorre porque eu tenho muitos recursos e o Lasso tem um desempenho melhor porque faz uma espécie de seleção de recursos, eliminando os recursos redundantes?

renakre
fonte
11
por que você acha que o cume deve ter um desempenho melhor? qual é o seu tamanho da amostra?
Bdonovic
11
O que significa "mais rigoroso à regressão"?
Bdonovic

Respostas:

20

Suponha que você tenha duas variáveis ​​preditoras altamente correlacionadas suponha que ambas estejam centralizadas e dimensionadas (para significar zero, variação uma). Em seguida, a pena de cume no vetor de parâmetros é β 2 1 + β 2 2 enquanto o termo penalidade lasso é | β 1 | + | β 2 | . Agora, como o modelo é supostamente altamente colinear, de modo que x e z mais ou menos podem se substituir na previsão de Y , há muitas combinações lineares de x , z onde simplesmente substituímos em partex,zβ12+β22β1+β2xzYx,z para z , funcionará de maneira muito semelhante aos preditores, por exemplo, 0,2 x + 0,8 x , 0,3 x + 0,7 z ou 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zserá igualmente bom como preditores. Agora, observe estes três exemplos: a penalidade de laço nos três casos é igual, é 1, enquanto a penalidade de cordilheira é diferente, é respectivamente 0,68, 0,58, 0,5; portanto, a penalidade de cordilheira prefere ponderação igual de variáveis ​​colineares enquanto penalidade de laço não será capaz de escolher. Essa é uma das razões pelas quais a cordilheira (ou, geralmente, a rede elástica, que é uma combinação linear de penalidades de laço e cordilheira) funcionará melhor com preditores colineares: quando os dados apresentarem poucas razões para escolher entre diferentes combinações lineares de preditores colineares, o laço será apenas "vagueie" enquanto a crista tende a escolher o mesmo peso. Esse último pode ser um palpite melhor para uso com dados futuros! E, se é assim com os dados atuais, pode aparecer na validação cruzada como melhores resultados com o cume.

Podemos ver isso de uma maneira bayesiana: cume e laço implicam informações prévias diferentes, e as informações prévias implícitas no cume tendem a ser mais razoáveis ​​nessas situações. (Essa explicação aqui eu aprendi, mais ou menos, do livro: "Aprendizagem Estatística com Sparsity The Lasso and Generalizations", de Trevor Hastie, Robert Tibshirani e Martin Wainwright, mas neste momento não consegui encontrar uma citação direta).

kjetil b halvorsen
fonte
4
Bom argumento sobre a possibilidade de o cume funcionar melhor em dados futuros. A distinção entre erro na validação cruzada nos dados atuais e utilidade em novos dados é muitas vezes esquecida. Para alguma estimativa do último, o OP poderia repetir todo o processo de criação de modelos LASSO, rede elástica e crista em várias amostras de inicialização dos dados e, em seguida, examinar os erros quando aplicado ao conjunto de dados completo. Isso pelo menos testa o processo de construção do modelo.
EDM
Não é óbvio para mim por que seria vantajoso escolher pesos iguais para dados colineares? Alguém pode elaborar sobre esse ponto?
Ramon Martinez
3

A diferença mais importante entre o laço e a cordilheira é que o laço naturalmente faz uma seleção, especialmente onde as covariáveis ​​estão muito correlacionadas. é impossível ter certeza sem ver os coeficientes ajustados, mas é fácil pensar que entre esses recursos correlatos, muitos eram simplesmente inúteis.

carlo
fonte