Quando usar a regressão de Ridge e de Lasso. O que pode ser alcançado ao usar essas técnicas, em vez do modelo de regressão linear

8

Estou ansioso para aprender mais sobre as técnicas de regressão regularizadas, como a regressão de Ridge e Lasso. Eu gostaria de saber o que pode ser alcançado usando essas técnicas quando comparado ao modelo de regressão linear. Também em que situação devemos adotar essas técnicas. E o que torna essas duas técnicas diferentes. Estou procurando entender o conceito e a matemática por trás dessas técnicas. Eu pediria para compartilhar seu valioso conhecimento.

StatsUser
fonte
Os capítulos correspondentes deste manual (e que podem ser baixados gratuitamente) oferecem boas idéias: www-bcf.usc.edu/~gareth/ISL
Christoph Hanck

Respostas:

10

Em resumo, regressão de cume e laço são técnicas de regressão otimizadas para predição, em vez de inferência.

A regressão normal fornece coeficientes de regressão imparciais (estimativas de máxima verossimilhança "conforme observado no conjunto de dados").

A regressão de cume e laço permite regularizar ("encolher") os coeficientes. Isso significa que os coeficientes estimados são empurrados para 0, para fazê-los funcionar melhor em novos conjuntos de dados ("otimizados para previsão"). Isso permite que você use modelos complexos e evite o ajuste excessivo ao mesmo tempo.

Para o cume e o laço, é necessário definir o chamado "meta-parâmetro" que define como a regularização agressiva é executada. Meta-parâmetros são geralmente escolhidos por validação cruzada. Para a regressão de Ridge, o meta-parâmetro é freqüentemente chamado de "alfa" ou "L2"; simplesmente define a força da regularização. Para o LASSO, o meta-parâmetro é freqüentemente chamado de "lambda" ou "L1". Em contraste com Ridge, a regularização do LASSO na verdade definirá preditores menos importantes como 0 e o ajudará a escolher os preditores que podem ser deixados de fora do modelo. Os dois métodos são combinados na regularização "Elastic Net". Aqui, os dois parâmetros podem ser definidos, com "L2" definindo a força da regularização e "L1" a escassez desejada de resultados.

Aqui você encontra uma boa introdução ao tópico: http://scikit-learn.org/stable/modules/linear_model.html

mzunhammer
fonte
11
Você poderia dar mais detalhes sobre os 2 meta-parâmetros que o LASSO usa? Pesquisei ao redor e parece que o LASSO usa apenas 1
user152503
Obrigado por elevar minha consciência a este ponto. Eu já misturei "LASSO" com o "Elastic Net" mais geral. Veja a correção acima.
mzunhammer
1

Mesmo que o modelo linear possa ser ideal para os dados fornecidos para criar o modelo, não é necessariamente garantido que ele seja o melhor modelo para previsões de dados não vistos.

Se nossos dados subjacentes seguem um modelo relativamente simples, e o modelo que usamos é muito complexo para a tarefa, o que estamos fazendo basicamente é que estamos colocando muito peso em qualquer alteração ou variação possível nos dados. Nosso modelo está exagerando e compensando demais até mesmo a menor alteração em nossos dados. As pessoas no campo da estatística e do aprendizado de máquina chamam esse fenômeno de sobreajuste. Quando você tem recursos em seu conjunto de dados que são altamente linearmente correlacionados com outros recursos, os modelos lineares provavelmente sofrerão um super ajuste.

Regressão de cume, evita o excesso de ajuste adicionando uma penalidade aos modelos que têm coeficientes muito grandes.

SJTVM
fonte
Bem, sim, mas a regressão de crista é um estimador alternativo para um modelo linear
kjetil b halvorsen