Estou ansioso para aprender mais sobre as técnicas de regressão regularizadas, como a regressão de Ridge e Lasso. Eu gostaria de saber o que pode ser alcançado usando essas técnicas quando comparado ao modelo de regressão linear. Também em que situação devemos adotar essas técnicas. E o que torna essas duas técnicas diferentes. Estou procurando entender o conceito e a matemática por trás dessas técnicas. Eu pediria para compartilhar seu valioso conhecimento.
8
Respostas:
Em resumo, regressão de cume e laço são técnicas de regressão otimizadas para predição, em vez de inferência.
A regressão normal fornece coeficientes de regressão imparciais (estimativas de máxima verossimilhança "conforme observado no conjunto de dados").
A regressão de cume e laço permite regularizar ("encolher") os coeficientes. Isso significa que os coeficientes estimados são empurrados para 0, para fazê-los funcionar melhor em novos conjuntos de dados ("otimizados para previsão"). Isso permite que você use modelos complexos e evite o ajuste excessivo ao mesmo tempo.
Para o cume e o laço, é necessário definir o chamado "meta-parâmetro" que define como a regularização agressiva é executada. Meta-parâmetros são geralmente escolhidos por validação cruzada. Para a regressão de Ridge, o meta-parâmetro é freqüentemente chamado de "alfa" ou "L2"; simplesmente define a força da regularização. Para o LASSO, o meta-parâmetro é freqüentemente chamado de "lambda" ou "L1". Em contraste com Ridge, a regularização do LASSO na verdade definirá preditores menos importantes como 0 e o ajudará a escolher os preditores que podem ser deixados de fora do modelo. Os dois métodos são combinados na regularização "Elastic Net". Aqui, os dois parâmetros podem ser definidos, com "L2" definindo a força da regularização e "L1" a escassez desejada de resultados.
Aqui você encontra uma boa introdução ao tópico: http://scikit-learn.org/stable/modules/linear_model.html
fonte
Mesmo que o modelo linear possa ser ideal para os dados fornecidos para criar o modelo, não é necessariamente garantido que ele seja o melhor modelo para previsões de dados não vistos.
Se nossos dados subjacentes seguem um modelo relativamente simples, e o modelo que usamos é muito complexo para a tarefa, o que estamos fazendo basicamente é que estamos colocando muito peso em qualquer alteração ou variação possível nos dados. Nosso modelo está exagerando e compensando demais até mesmo a menor alteração em nossos dados. As pessoas no campo da estatística e do aprendizado de máquina chamam esse fenômeno de sobreajuste. Quando você tem recursos em seu conjunto de dados que são altamente linearmente correlacionados com outros recursos, os modelos lineares provavelmente sofrerão um super ajuste.
Regressão de cume, evita o excesso de ajuste adicionando uma penalidade aos modelos que têm coeficientes muito grandes.
fonte