Quando usar métodos de regularização para regressão?

83

Em que circunstâncias se deve considerar o uso de métodos de regularização (regressão de crista, laço ou ângulo mínimo) em vez de OLS?

Caso isso ajude a direcionar a discussão, meu principal interesse é melhorar a precisão preditiva.

NPE
fonte

Respostas:

75

Resposta curta: sempre que você estiver enfrentando uma dessas situações:

  • grande número de variáveis ​​ou baixa proporção de não. observações para não. variáveis ​​(incluindo o caso ),np
  • alta colinearidade,
  • buscando uma solução esparsa (por exemplo, incorporar seleção de recurso ao estimar parâmetros do modelo) ou
  • contabilizando o agrupamento de variáveis ​​no conjunto de dados de alta dimensão.

A regressão de Ridge geralmente produz melhores previsões do que a solução OLS, através de um melhor compromisso entre viés e variância. Sua principal desvantagem é que todos os preditores são mantidos no modelo, portanto, não é muito interessante se você buscar um modelo parcimonioso ou desejar aplicar algum tipo de seleção de recurso.

Para alcançar a escarsidade, o laço é mais apropriado, mas não necessariamente produzirá bons resultados na presença de alta colinearidade (foi observado que, se os preditores estiverem altamente correlacionados, o desempenho da previsão do laço será dominado pela regressão da crista). O segundo problema com a penalidade de L1 é que a solução do laço não é determinada exclusivamente quando o número de variáveis ​​é maior que o número de sujeitos (esse não é o caso da regressão de crista). A última desvantagem do laço é que ele tende a selecionar apenas uma variável entre um grupo de preditores com altas correlações por pares. Nesse caso, existem soluções alternativas como o grupo (ou seja, obter encolhimento no bloco de covariáveis, ou seja, alguns blocos de coeficientes de regressão são exatamente zero) ou fundidoslaço. O Graphical Lasso também oferece recursos promissores para GGMs (consulte o pacote R glasso ).

Mas, definitivamente, os critérios da elasticasticnet , que são uma combinação das penalidades L1 e L2, alcançam a seleção de variáveis ​​de encolhimento e automática e permitem manter variáveis ​​no caso em que . Seguindo Zou e Hastie (2005), é definido como o argumento que minimiza (acima de )m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

onde e.β2=j=1pβj2β1=j=1p|βj|

O laço pode ser calculado com um algoritmo baseado na descida de coordenadas, conforme descrito no artigo recente de Friedman e col., Caminhos de regularização para modelos lineares generalizados via descida de coordenadas (JSS, 2010) ou o algoritmo LARS. Em R, os pacotes penalizados , lars ou biglars e glmnet são pacotes úteis; no Python, há o kit de ferramentas scikit.learn , com extensa documentação sobre os algoritmos usados ​​para aplicar todos os três tipos de esquemas de regularização.

Quanto às referências gerais, a página Lasso contém a maior parte do necessário para iniciar a regressão do laço e detalhes técnicos sobre a penalidade de L1, e essa pergunta relacionada apresenta referências essenciais: Quando devo usar lasso x cume?

chl
fonte
11
E se eu tiver muitas observações com relativamente poucas variáveis, mas uma relação sinal / ruído muito baixa? Tão baixo, de fato, que a adaptação excessiva é um problema muito real. A regularização seria algo sensato para tentar melhorar a precisão preditiva?
NPE
11
@aix Depende do que você realmente chama de poucas variáveis ​​e de que tipo de variáveis ​​você está lidando. Mas acho que uma abordagem de cordilheira é a preferida no seu caso. Você também pode ver a Regressão de Boosting Ridge (Tutz & Binder, 2005). A estimativa de ML penalizada também foi proposta como um método embutido para impedir o ajuste excessivo; veja, por exemplo, Estimativa de Máxima Verossimilhança Penalizada para prever resultados binários: Luas KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol. 2004, 57 (12): 1262–70.
chl
20

Uma justificativa teórica para o uso da regressão de crista é que sua solução é a média posterior, dada uma normalidade prévia dos coeficientes. Ou seja, se você se importa com o erro ao quadrado e acredita em um anterior normal, as estimativas da crista são ótimas.

Da mesma forma, a estimativa do laço é o modo posterior sob uma dupla exponencial anterior aos seus coeficientes. Isso é ideal sob uma função de perda zero-um.

Na prática, essas técnicas geralmente melhoram a precisão preditiva em situações nas quais você tem muitas variáveis ​​correlacionadas e não muitos dados. Embora o estimador OLS seja melhor imparcialmente linear, ele apresenta alta variação nessas situações. Se você observar o trade-desvio de desvio, a precisão da previsão melhora porque o pequeno aumento no desvio é mais do que compensado pela grande redução na variação.

ncray
fonte