Como os métodos de regularização de cume, LASSO e elasticnet se comparam? Quais são as respectivas vantagens e desvantagens? Qualquer bom artigo técnico ou anotações de aula também serão apreciados.
33
Como os métodos de regularização de cume, LASSO e elasticnet se comparam? Quais são as respectivas vantagens e desvantagens? Qualquer bom artigo técnico ou anotações de aula também serão apreciados.
No livro Elementos da Aprendizagem Estatística , Hastie et al. forneça uma comparação muito perspicaz e completa dessas técnicas de encolhimento. O livro está disponível online ( pdf ). A comparação é feita na seção 3.4.3, página 69.
A principal diferença entre Lasso e Ridge é o termo de penalidade que eles usam. Ridge usa o termo de penalidade de que limita o tamanho do vetor de coeficiente. Lasso usa a penalidade de L 1 que impõe esparsidade entre os coeficientes e, portanto, torna o modelo ajustado mais interpretável. O Elasticnet é apresentado como um compromisso entre essas duas técnicas e possui uma penalidade que é uma mistura das normas L 1 e L 2 .
Para resumir, aqui estão algumas diferenças salientes entre Lasso, Ridge e Elastic-net:
fonte
Eu recomendo que você dê uma olhada em Uma introdução ao livro de aprendizado estatístico (Tibshirani et. Al, 2013).
A razão para isto é que o livro Elementos de aprendizagem estatística é destinado a indivíduos com treinamento avançado em ciências matemáticas. No prefácio ao ISL, os autores escrevem:
fonte
As respostas acima são muito claras e informativas. Eu gostaria de acrescentar um ponto menor da perspectiva estatística. Tome a regressão do cume como exemplo. É uma extensão da regressão de mínimos quadrados ordinais para resolver os problemas de multicolinearidade quando existem muitos recursos correlatos. Se a regressão linear for
A solução da equação normal para a regressão linear múltipla
A solução da equação normal para a regressão de crista é
É um estimador tendencioso para be sempre podemos encontrar um termo de penalidade k que tornará o erro quadrado médio da regressão de Ridge menor que o da regressão OLS.
Para LASSO e Elastic-Net, não conseguimos encontrar uma solução analítica.
fonte