Alguma desvantagem da rede elástica sobre o laço?

8

Quais são as desvantagens do uso de rede elástica em comparação com o laço. Eu sei que a rede elástica é capaz de selecionar grupos de variáveis ​​quando elas são altamente correlacionadas.

  1. Não tem o problema de selecionar mais de n preditores quando pn. Considerando que o laço satura quandopn.

  2. Quando existem preditores altamente correlacionados, o laço tende a escolher apenas um preditor do grupo.

  3. Quando np e os preditores são correlacionados, o desempenho de previsão do laço é menor que o do cume.

Todas essas desvantagens do laço são superadas pela rede elástica.

O que não entendo é quando o laço deve ser usado? Existe alguma razão para usá-lo quando a rede elástica tiver um desempenho melhor que o laço? Quais são as desvantagens do uso de rede elástica em alguns casos? Em quais casos o laço seria uma escolha melhor?

Ville
fonte

Respostas:

8

Uma desvantagem é o custo computacional. Você precisa validar cruzadamente o peso relativo da penalidade L1 vs. L2,α, e isso aumenta o custo computacional pelo número de valores no α rede.

Outra desvantagem (mas ao mesmo tempo uma vantagem) é a flexibilidade do estimador. Com maior flexibilidade, aumenta a probabilidade de sobreajuste. Pode ser que o melhorα para a população e para o tamanho da amostra 0, transformando a rede elástica em laço, mas você escolhe um valor diferente devido ao acaso (porque esse valor oferece um melhor desempenho ao validar cruzadamente na amostra específica).

Richard Hardy
fonte
1
Comentário menor com relação ao seu segundo ponto: laço e rede elástica são estimadores para o mesmo modelo . Como tal, não há diferença na flexibilidade do modelo.
9118 hejseb
2
@hejseb: Com o LASSO, existe um único parâmetro que é otimizado durante a validação cruzada: λ. Na rede elástica, você pode otimizar os doisα e λ, significando mais oportunidades de sobreajuste durante o processo de seleção de validação cruzada. Por outro lado, apenas usando os valores padrão deα tendem a ter um desempenho muito bom, muitas vezes apenas λé otimizado. Então, eu discordo de sua afirmação, porque consideroα e λuma parte do modelo (embora eu entenda a ambiguidade).
Cliff AB
3
@hejseb, excelente ponto! Agora corrigido. Cliff AB, acho que a definição do modelo não precisa incluir os parâmetros de ajuste do estimador (laço, rede elástica, ...) - queα e λsão - então para mim o comentário de hejseb faz muito sentido. Penso na definição de um modelo para a população (um modelo linear neste caso) e na estimativa de seus parâmetros (que incluemβs mas não α ou λ) por algum estimador.
Richard Hardy