Por que a glmnet usa uma rede elástica “ingênua” do papel original da Zou & Hastie?

27

eu=1 1n__y-Xβ__2+λ1 1__β__1 1+λ2__β__22,
β^=(1 1+λ2)β^.

Entretanto, o glmnetartigo subsequente Friedman, Hastie e Tibshirani (2010) Os caminhos de regularização para modelos lineares generalizados via descida de coordenadas não usaram esse redimensionamento e apenas tiveram uma breve nota de rodapé dizendo

Zou e Hastie (2005) chamaram essa penalidade de rede elástica ingênua e preferiram uma versão redimensionada que eles chamaram de rede elástica. Abandonamos essa distinção aqui.

Nenhuma explicação adicional é dada lá (ou em qualquer livro didático de Hastie et al.). Acho isso um pouco intrigante. Os autores deixaram o reescalonamento por considerá-lo ad hoc demais ? porque teve um desempenho pior em alguns outros experimentos? porque não ficou claro como generalizá-lo para o caso GLM? Eu não faço ideia. Mas, de qualquer forma, o glmnetpacote se tornou muito popular desde então e, portanto, minha impressão é que hoje em dia ninguém está usando o reescalonamento da Zou & Hastie, e a maioria das pessoas provavelmente nem está ciente dessa possibilidade.

Pergunta: afinal, isso foi reescalonar uma boa ou má idéia?

Com a glmnetparametrização, o redimensionamento de Zou & Hastie deve ser

β^=(1 1+λ(1 1-α))β^.
ameba diz Restabelecer Monica
fonte
11
Como no artigo de revisão, o objetivo é ajustar todo o caminho da regularização, possivelmente a idéia é que o redimensionamento seria apenas uma transformação monotônica do caminho?
Matthew Drury
11
@MatthewDrury Isso é verdade, mas ainda assim se Friedman et al. Acreditava que o reescalonamento é uma boa idéia, eles não o deixariam de fora do papel e, em particular, fora do glmnetcódigo. Ele não está disponível lá, mesmo como um recurso opcional (o código anterior que acompanha o artigo de 2005 obviamente suporta o redimensionamento).
Ameba diz Reinstate Monica
4
Infelizmente, o código glmnet público é completamente ilegível ...
Matthew Drury

Respostas:

25

Enviei esta pergunta por e-mail para Zou e Hastie e recebi a seguinte resposta de Hastie (espero que ele não se importe em citá-la aqui):

Acho que em Zou et al estávamos preocupados com o viés adicional, mas é claro que o redimensionamento aumenta a variação. Portanto, apenas muda um ao longo da curva de troca de viés e variância. Em breve, incluiremos uma versão do laço relaxado, que é uma forma melhor de redimensionar.

Interpreto essas palavras como um endosso de alguma forma de "redimensionamento" da solução de rede elástica de baunilha, mas Hastie não parece mais sustentar a abordagem específica apresentada em Zou & Hastie 2005.


A seguir, revisarei e compararei brevemente várias opções de redimensionamento.

Vou usar glmnetparametrização da perda

eu=1 12n__y-β0 0-Xβ__2+λ(α__β__1 1+(1 1-α)__β__22/2),
β^
  1. β^redimensionado=(1 1+λ(1 1-α))β^.
    α=0 0α=1 1
  2. β^OLS elástico-híbrido=OLS(XEuβ^Eu0 0)
    nn
  3. O laço relaxado mencionado no email de Hastie citado acima é uma sugestão para executar outro laço no subconjunto de preditores selecionados pelo primeiro laço. A idéia é usar duas penalidades diferentes e selecionar ambas por meio de validação cruzada. Pode-se aplicar a mesma idéia à rede elástica, mas isso parece exigir quatro parâmetros de regularização diferentes e ajustá-los é um pesadelo.

    β^α=0 0λ

    β^relax-elastic-net=Cume(XEuβ^Eu0 0).

npn=44p=3000yX

Rteste2=1 1-__yteste-β^0 0-Xtesteβ^__2__yteste-β^0 0__2.
β^

insira a descrição da imagem aqui

Portanto, pelo menos nesses dados, todas as três abordagens superam o estimador de rede elástica de baunilha e a "rede elástica relaxada" apresenta o melhor desempenho.

ameba diz Restabelecer Monica
fonte