Eu já tenho uma idéia sobre prós e contras da regressão de cume e do LASSO.
Para o LASSO, o termo de penalidade de L1 produzirá um vetor de coeficiente esparso, que pode ser visto como um método de seleção de recurso. No entanto, existem algumas limitações para o LASSO. Se os recursos tiverem alta correlação, o LASSO selecionará apenas um deles. Além disso, para problemas em que > , o LASSO selecionará no máximo parâmetros ( e são o número de observações e parâmetros, respectivamente). Isso torna o LASSO empiricamente um método subótimo em termos de previsibilidade em comparação com a regressão de crista.
Para regressão de crista, oferece melhor previsibilidade em geral. No entanto, sua interpretabilidade não é tão boa quanto o LASSO.
A explicação acima pode ser encontrada em livros didáticos em aprendizado de máquina / mineração de dados. No entanto, ainda estou confuso sobre duas coisas:
Se normalizarmos o intervalo de recursos (digamos entre 0 e 1, ou com média zero e variação de unidade) e executarmos a regressão de crista, ainda podemos ter uma idéia da importância do recurso classificando os valores absolutos dos coeficientes (o recurso mais importante tem o valor absoluto mais alto dos coeficientes). Embora não estejamos selecionando recursos explicitamente, a interpretabilidade não se perde com a regressão de crista. Ao mesmo tempo, ainda podemos alcançar alto poder de previsão. Então, por que precisamos do LASSO? Estou faltando alguma coisa aqui?
O LASSO é preferido devido à sua natureza de seleção de recursos? No meu entender, as razões pelas quais precisamos da seleção de recursos são a capacidade de generalizar e facilitar o cálculo.
Para facilitar a computação, não queremos alimentar todos os 1 milhão de recursos em nosso modelo se estiver executando algumas tarefas de PNL, portanto, descartamos alguns recursos obviamente inúteis primeiro para reduzir o custo computacional. No entanto, para o LASSO, só podemos saber o resultado da seleção de recursos (o vetor esparso) depois de inserir todos os dados em nosso modelo, para que não nos beneficiemos do LASSO em termos de redução de custos computacionais. Só podemos tornar a previsão um pouco mais rápida, pois agora alimentamos apenas o subconjunto de recursos (digamos, 500 em 1 milhão) em nosso modelo para gerar resultados previstos.
Se o LASSO é preferido por sua capacidade de generalização, também podemos alcançar o mesmo objetivo usando a regressão de crista (ou qualquer outro tipo de regularização). Por que precisamos do LASSO (ou redes elásticas) novamente? Por que não podemos nos ater à regressão de crista?
Alguém poderia esclarecer isso? Obrigado!
Respostas:
Se você solicitar um milhão de recursos reduzidos, mas não nulos, precisará tomar algum tipo de decisão: analisará os n melhores preditores, mas o que é n ? O LASSO resolve esse problema de maneira objetiva e baseada em princípios, porque a cada passo no caminho (e muitas vezes você se instala em um ponto por exemplo, por validação cruzada), existem apenas m coeficientes que são diferentes de zero.
Muitas vezes, você treina modelos em alguns dados e depois os aplica a alguns dados ainda não coletados. Por exemplo, você pode ajustar seu modelo em 50.000.000 e-mails e usá-lo em todos os novos e-mails. É verdade que você o ajustará no conjunto completo de recursos para os primeiros 50.000.000 e-mails, mas para cada e-mail a seguir, você lidará com um modelo muito mais escasso e mais rápido e com muito mais eficiência de memória. Você também não precisará coletar informações para os recursos descartados, o que pode ser extremamente útil se os recursos forem caros para extrair, por exemplo, por genotipagem.
Outra perspectiva sobre o problema L1 / L2 exposto, por exemplo, Andrew Gelman, é que muitas vezes você tem alguma intuição sobre como pode ser o seu problema. Em algumas circunstâncias, é possível que a realidade seja realmente escassa. Talvez você tenha medido milhões de genes, mas é plausível que apenas 30.000 deles realmente determinem o metabolismo da dopamina. Em tal situação, L1 sem dúvida se encaixa melhor no problema.
Em outros casos, a realidade pode ser densa. Por exemplo, na psicologia, "tudo se correlaciona (até certo ponto) com tudo" (Paul Meehl). As preferências por maçãs versus laranjas provavelmente se correlacionam de alguma forma com as tendências políticas - e mesmo com o QI. A regularização ainda pode fazer sentido aqui, mas os efeitos zero verdadeiros devem ser raros, portanto L2 pode ser mais apropriado.
fonte
A interpretabilidade diminui se o destino depender de muitos recursos. Aumenta se podemos reduzir o número de recursos e também manter a precisão. A regularização de cume não tem a capacidade de reduzir o número de recursos. Mas Lasso tem a capacidade. Como isso acontece é explicado visualmente no seguinte link:
Clique em Artigo em direção à ciência de dados
fonte