Cume, laço e rede elástica

33

Como os métodos de regularização de cume, LASSO e elasticnet se comparam? Quais são as respectivas vantagens e desvantagens? Qualquer bom artigo técnico ou anotações de aula também serão apreciados.

user3269
fonte

Respostas:

39

No livro Elementos da Aprendizagem Estatística , Hastie et al. forneça uma comparação muito perspicaz e completa dessas técnicas de encolhimento. O livro está disponível online ( pdf ). A comparação é feita na seção 3.4.3, página 69.

A principal diferença entre Lasso e Ridge é o termo de penalidade que eles usam. Ridge usa o termo de penalidade de que limita o tamanho do vetor de coeficiente. Lasso usa a penalidade de L 1 que impõe esparsidade entre os coeficientes e, portanto, torna o modelo ajustado mais interpretável. O Elasticnet é apresentado como um compromisso entre essas duas técnicas e possui uma penalidade que é uma mistura das normas L 1 e L 2 .L2L1L1L2

MMM
fonte
3
Esse é um livro de referência maravilhoso.
precisa saber é o seguinte
4
também porque os autores são os inventores dessas técnicas!
Bakaburg 15/02
1
Obrigado por nos dar uma referência deste belo livro
Christina
1
Também recomendo a seção 18.4, páginas 661-668. Fornece mais informações sobre laço versus rede elástica.
precisa
1
O link para o livro está morto a partir de 14 de outubro de 2016
Ashe
22

Para resumir, aqui estão algumas diferenças salientes entre Lasso, Ridge e Elastic-net:

  1. Lasso faz uma seleção esparsa , enquanto Ridge não.
  2. Quando você tem variáveis ​​altamente correlacionadas , a regressão de Ridge reduz os dois coeficientes um para o outro. Laço é um pouco indiferente e geralmente escolhe um sobre o outro. Dependendo do contexto, não se sabe qual variável é escolhida. A rede elástica é um compromisso entre os dois que tenta encolher e fazer uma seleção esparsa simultaneamente.
  3. Os estimadores de Ridge são indiferentes à escala multiplicativa dos dados. Ou seja, se as variáveis ​​X e Y forem multiplicadas por constantes, os coeficientes do ajuste não mudam, para um dado parâmetro . No entanto, para Lasso, o ajuste não é independente da escala. De fato, o parâmetro λ deve ser ampliado pelo multiplicador para obter o mesmo resultado. É mais complexo para rede elástica.λλ
  4. β
balaks
fonte
@ balaks pelo segundo ponto que você fez, o que significa 'não se sabe qual variável foi escolhida'? Você quis dizer que o LASSO é indiferente, então escolhe um aleatoriamente para não sabermos qual é o melhor?
meTchaikovsky
4

Eu recomendo que você dê uma olhada em Uma introdução ao livro de aprendizado estatístico (Tibshirani et. Al, 2013).

A razão para isto é que o livro Elementos de aprendizagem estatística é destinado a indivíduos com treinamento avançado em ciências matemáticas. No prefácio ao ISL, os autores escrevem:

Uma Introdução à Aprendizagem Estatística surgiu da necessidade percebida de um tratamento mais amplo e menos técnico desses tópicos. [...]

Uma Introdução à Aprendizagem Estatística é apropriada para estudantes avançados de graduação ou mestrado em estatística ou campos quantitativos relacionados ou para indivíduos de outras disciplinas que desejam usar ferramentas de aprendizagem estatística para analisar seus dados.

jeza
fonte
1
Você pode explicar por que você achou essa referência útil?
JM não é estatístico
1
Não há problema em citar um livro, mas marque-o como uma citação e não como seu próprio texto. Caso contrário, é plágio. Eu editei para você agora.
Ameba diz Reinstate Monica
1

As respostas acima são muito claras e informativas. Eu gostaria de acrescentar um ponto menor da perspectiva estatística. Tome a regressão do cume como exemplo. É uma extensão da regressão de mínimos quadrados ordinais para resolver os problemas de multicolinearidade quando existem muitos recursos correlatos. Se a regressão linear for

Y=Xb+e

A solução da equação normal para a regressão linear múltipla

b=inv(X.T*X)*X.T*Y

A solução da equação normal para a regressão de crista é

b=inv(X.T*X+k*I)*X.T*Y. 

É um estimador tendencioso para be sempre podemos encontrar um termo de penalidade k que tornará o erro quadrado médio da regressão de Ridge menor que o da regressão OLS.

Para LASSO e Elastic-Net, não conseguimos encontrar uma solução analítica.

Emma
fonte