Na página 223 em Introdução ao aprendizado estatístico , os autores resumem as diferenças entre regressão de cordilheira e laço. Eles fornecem um exemplo (Figura 6.9) de quando "o laço tende a superar a regressão da crista em termos de viés, variância e MSE".
Entendo por que o laço pode ser desejável: resulta em soluções esparsas, pois reduz muitos coeficientes para 0, resultando em modelos simples e interpretáveis. Mas eu não entendo como ele pode superar o cume quando apenas as previsões são de interesse (ou seja, como está obtendo um MSE substancialmente mais baixo no exemplo?).
Com o cume, se muitos preditores quase não afetam a resposta (com alguns preditores tendo um grande efeito), seus coeficientes simplesmente não serão reduzidos a um número pequeno muito próximo de zero ... resultando em algo muito semelhante ao laço ? Então, por que o modelo final teria desempenho pior que o laço?
fonte
Respostas:
Você está certo em fazer esta pergunta. Em geral, quando uma regra de pontuação de precisão adequada é usada (por exemplo, erro médio de previsão ao quadrado), a regressão da crista supera o desempenho do laço. Lasso gasta algumas informações tentando encontrar os preditores "certos" e nem sempre é bom em fazer isso em muitos casos. O desempenho relativo dos dois dependerá da distribuição dos coeficientes de regressão verdadeiros. Se você tem uma pequena fração de coeficiente diferente de zero, o laço pode ter um desempenho melhor. Pessoalmente, uso cume quase o tempo todo quando estou interessado em precisão preditiva.
fonte
Acho que a configuração específica do exemplo a que você se refere é essencial para entender por que o laço supera a crista: apenas 2 dos 45 preditores são realmente relevantes.
Isso limita-se a um caso patológico: o laço, especificamente destinado a facilitar reduções para zero, executa exatamente como pretendido, enquanto o cume precisa lidar com um grande número de termos inúteis (até mesmo seu efeito é reduzido a zero, ainda é um efeito diferente de zero).
fonte