Se apenas a previsão é interessante, por que usar o laço sobre a crista?

37

Na página 223 em Introdução ao aprendizado estatístico , os autores resumem as diferenças entre regressão de cordilheira e laço. Eles fornecem um exemplo (Figura 6.9) de quando "o laço tende a superar a regressão da crista em termos de viés, variância e MSE".

Entendo por que o laço pode ser desejável: resulta em soluções esparsas, pois reduz muitos coeficientes para 0, resultando em modelos simples e interpretáveis. Mas eu não entendo como ele pode superar o cume quando apenas as previsões são de interesse (ou seja, como está obtendo um MSE substancialmente mais baixo no exemplo?).

Com o cume, se muitos preditores quase não afetam a resposta (com alguns preditores tendo um grande efeito), seus coeficientes simplesmente não serão reduzidos a um número pequeno muito próximo de zero ... resultando em algo muito semelhante ao laço ? Então, por que o modelo final teria desempenho pior que o laço?

Oliver Angelil
fonte
2
Eu vi esse link. Não responde à pergunta.
Oliver Angelil

Respostas:

34

Você está certo em fazer esta pergunta. Em geral, quando uma regra de pontuação de precisão adequada é usada (por exemplo, erro médio de previsão ao quadrado), a regressão da crista supera o desempenho do laço. Lasso gasta algumas informações tentando encontrar os preditores "certos" e nem sempre é bom em fazer isso em muitos casos. O desempenho relativo dos dois dependerá da distribuição dos coeficientes de regressão verdadeiros. Se você tem uma pequena fração de coeficiente diferente de zero, o laço pode ter um desempenho melhor. Pessoalmente, uso cume quase o tempo todo quando estou interessado em precisão preditiva.

Frank Harrell
fonte
11
existem casos em que você não está interessado em precisão preditiva?
Morsa, o gato
11
@WalrustheCat Algumas pessoas, tipicamente vindas de Stanford, defendem o uso do Lasso na seleção de variáveis ​​de alta dimensão. Presumivelmente, Frank quis dizer "... principalmente interessado em precisão preditiva" em vez de simplesmente "... interessado em precisão preditiva", embora, na minha opinião, a diferença entre esses dois seja dois pedantes para ser útil.
John Madden
Eu nunca entendi a abordagem "regularização como redução de dimensionalidade". Você pode executar a redução da dimensionalidade, seja através da regularização do laço ou não, e depois usar a melhor função de regularização para o seu problema original nos recursos resultantes. Mas eu discordo.
Morsa, o gato
9
De "Em geral, [...] a regressão da cordilheira supera o do laço" e "Se você tem uma fração pequena de coeficientes diferentes de zero, o laço pode ter um desempenho melhor" parece seguir-se que, na maioria dos problemas de previsão, a verdade básica não é esparsa. É isso que você está dizendo?
Ameba diz Reinstate Monica
5
Sim principalmente. Se você conhece a verdade básica "na distribuição", criaria uma distribuição anterior bayesiana para os coeficientes de regressão desconhecidos que obteriam os melhores resultados. E mesmo quando, digamos, 3/4 dos preditores têm efeito exatamente zero, o cume é competitivo com o laço.
Frank Harrell
11

Acho que a configuração específica do exemplo a que você se refere é essencial para entender por que o laço supera a crista: apenas 2 dos 45 preditores são realmente relevantes.

Isso limita-se a um caso patológico: o laço, especificamente destinado a facilitar reduções para zero, executa exatamente como pretendido, enquanto o cume precisa lidar com um grande número de termos inúteis (até mesmo seu efeito é reduzido a zero, ainda é um efeito diferente de zero).

mbrig
fonte