Eu tenho um conjunto de 150 recursos, e muitos deles estão altamente correlacionados entre si. Meu objetivo é prever o valor de uma variável discreta, cujo intervalo é de 1 a 8 . O tamanho da minha amostra é 550 e estou usando a validação cruzada 10 vezes .
AFAIK, entre os métodos de regularização (Lasso, ElasticNet e Ridge), Ridge é mais rigoroso quanto à correlação entre os recursos. Por isso, esperava que, com Ridge, eu obtivesse uma previsão mais precisa. No entanto, meus resultados mostram que o erro médio absoluto de Lasso ou Elastic é de cerca de 0,61, enquanto esse escore é de 0,97 para a regressão de crista. Eu me pergunto o que seria uma explicação para isso. Isso ocorre porque eu tenho muitos recursos e o Lasso tem um desempenho melhor porque faz uma espécie de seleção de recursos, eliminando os recursos redundantes?
Respostas:
Suponha que você tenha duas variáveis preditoras altamente correlacionadas suponha que ambas estejam centralizadas e dimensionadas (para significar zero, variação uma). Em seguida, a pena de cume no vetor de parâmetros é β 2 1 + β 2 2 enquanto o termo penalidade lasso é | β 1 | + | β 2 | . Agora, como o modelo é supostamente altamente colinear, de modo que x e z mais ou menos podem se substituir na previsão de Y , há muitas combinações lineares de x , z onde simplesmente substituímos em partex,z β21+β22 ∣β1∣+∣β2∣ x z Y x,z para z , funcionará de maneira muito semelhante aos preditores, por exemplo, 0,2 x + 0,8 x , 0,3 x + 0,7 z ou 0,5 x + 0,5 zx z 0.2x+0.8x,0.3x+0.7z 0.5x+0.5z será igualmente bom como preditores. Agora, observe estes três exemplos: a penalidade de laço nos três casos é igual, é 1, enquanto a penalidade de cordilheira é diferente, é respectivamente 0,68, 0,58, 0,5; portanto, a penalidade de cordilheira prefere ponderação igual de variáveis colineares enquanto penalidade de laço não será capaz de escolher. Essa é uma das razões pelas quais a cordilheira (ou, geralmente, a rede elástica, que é uma combinação linear de penalidades de laço e cordilheira) funcionará melhor com preditores colineares: quando os dados apresentarem poucas razões para escolher entre diferentes combinações lineares de preditores colineares, o laço será apenas "vagueie" enquanto a crista tende a escolher o mesmo peso. Esse último pode ser um palpite melhor para uso com dados futuros! E, se é assim com os dados atuais, pode aparecer na validação cruzada como melhores resultados com o cume.
Podemos ver isso de uma maneira bayesiana: cume e laço implicam informações prévias diferentes, e as informações prévias implícitas no cume tendem a ser mais razoáveis nessas situações. (Essa explicação aqui eu aprendi, mais ou menos, do livro: "Aprendizagem Estatística com Sparsity The Lasso and Generalizations", de Trevor Hastie, Robert Tibshirani e Martin Wainwright, mas neste momento não consegui encontrar uma citação direta).
fonte
A diferença mais importante entre o laço e a cordilheira é que o laço naturalmente faz uma seleção, especialmente onde as covariáveis estão muito correlacionadas. é impossível ter certeza sem ver os coeficientes ajustados, mas é fácil pensar que entre esses recursos correlatos, muitos eram simplesmente inúteis.
fonte