Quais são as desvantagens de usar o laço para seleção de variáveis ​​para regressão?

60

Pelo que sei, o uso do laço para seleção de variáveis ​​lida com o problema de entradas correlacionadas. Além disso, como é equivalente à regressão de menor ângulo, não é lento computacionalmente. No entanto, muitas pessoas (por exemplo, pessoas que conheço fazendo bioestatística) ainda parecem favorecer a seleção de variáveis ​​por etapas ou por etapas. Existem desvantagens práticas de usar o laço que o tornam desfavorável?

xuexue
fonte
9
Não sei onde você ouviu que Lasso lida com o problema da colinearidade, isso absolutamente não é verdade.
Macro
3
O Horseshoe anterior é melhor que o LASSO para a seleção de modelos - pelo menos no caso de modelo esparso (onde a seleção de modelos é a mais útil). Você pode encontrar uma discussão desses pontos neste link . Dois dos autores deste artigo também publicaram um artigo semelhante nas reuniões de Valência, Estatísticas Bayesianas 9 "Encolher globalmente aja localmente: escassa regularização e previsão bayesiana". O artigo de Valência entra em muito mais detalhes sobre uma estrutura de penalidades.
probabilityislogic
9
Se você estiver interessado apenas em previsões, a seleção de modelos não ajuda e geralmente prejudica (ao contrário de uma penalidade quadrática = norma L2 = regressão de crista sem seleção de variável). O LASSO paga um preço em discriminação preditiva por tentar fazer a seleção de variáveis.
precisa
3
Jogar uma moeda para tomar uma decisão arbitrária geralmente revela que você realmente se importa com o resultado. Qualquer método que se ofereça para tomar decisões sobre a seleção de preditores geralmente deixa claro que você tem idéias sobre quais preditores pertencem mais naturalmente ao modelo, idéias que você não deseja que sejam ignoradas. O LASSO pode funcionar assim.
Nick Cox
5
Segundo @Nick: "nenhuma teoria disponível para orientar a seleção de modelos" quase nunca é realista. O senso comum é teoria.
Scortchi - Restabelece Monica

Respostas:

29

Não há motivo para fazer a seleção gradual. Está errado.

LASSO / LAR são os melhores métodos automáticos. Mas eles são métodos automáticos. Eles deixaram o analista não pensar.

Em muitas análises, algumas variáveis ​​devem estar no modelo, independentemente de qualquer medida de significância. Às vezes, são variáveis ​​de controle necessárias. Outras vezes, encontrar um pequeno efeito pode ser substancialmente importante.

Peter Flom - Restabelece Monica
fonte
43
"Não há motivo para fazer a seleção gradual. É apenas errado." - Quase nunca são declarações incrivelmente abrangentes como essa, desprovidas de contexto, boas práticas estatísticas. Se alguma coisa aqui está "simplesmente errada", é a declaração em negrito acima. Se sua análise não estiver enfatizando valores- ou estimativas de parâmetros (por exemplo, modelos preditivos), a seleção de variáveis ​​passo a passo pode ser uma coisa sensata a ser feita e pode :: gasp :: superar o LASSO em alguns casos. (Peter, eu sei que já tivemos essa convenção antes - esse comentário é mais direcionado a um futuro leitor que só pode se deparar com este post e não o outro). p
Macro
4
-1 devido à crítica geral do stepwise. Não é "apenas errado", mas tem um lugar como uma pesquisa de modelo determinístico. Você realmente tem uma abelha em seu chapéu sobre métodos automáticos.
probabilityislogic
8
@Elvis, não sou especialista no assunto ou sou defensor do stepwise; Estou apenas discordando da natureza incondicional da declaração. Mas, por curiosidade, fiz algumas simulações simples e descobri que, quando você tem um grande número de preditores colineares, todos com efeitos aproximadamente iguais, a seleção para trás se sai melhor que o LASSO, em termos de previsão fora da amostra. Eu usei com . Os preditores são normais normais com para cada par . ε ~ N ( 0 , 1 ) c o r ( X i j , X i k ) = 1 / 2 ( j , k )
Yi=j=1100Xij+εi
εN(0,1)cor(Xij,Xik)=1/2(j,k)
Macro
10
Você certamente deve investigar a colinearidade antes de iniciar qualquer regressão. Eu diria que se você tem um grande número de variáveis ​​colineares, não deve usar LASSO ou Stepwise; você deve resolver o problema da colinearidade (excluir variáveis, obter mais dados etc.) ou usar um método projetado para esses problemas (por exemplo, regressão de crista)
Peter Flom - Reinstate Monica
5
OK, você está certo, mas não acho que seja realmente relevante. Nem o laço NOR para trás (nem qualquer método de seleção de variáveis) resolve todos os problemas. Há coisas que você deve fazer antes de começar a modelar - e uma delas é verificar a colinearidade. Também não me importaria com qual método de seleção de variáveis ​​funcionasse para outros conjuntos de dados que violassem as regras da regressão às quais os dois métodos se destinam a se aplicar.
Peter Flom - Restabelece Monica
22

Se você se preocupa apenas com erro de previsão e não se importa com interpretabilidade, inferência casual, simplicidade de modelo, testes de coeficientes, etc., por que você ainda deseja usar o modelo de regressão linear?

Você pode usar algo como aumentar as árvores de decisão ou dar suporte à regressão de vetores, obter melhor qualidade de previsão e ainda evitar o excesso de ajustes nos dois casos mencionados. Ou seja, Lasso pode não ser a melhor opção para obter a melhor qualidade de previsão.

Se meu entendimento estiver correto, Lasso é destinado a situações em que você ainda está interessado no modelo em si, não apenas em previsões. Ou seja - veja as variáveis ​​selecionadas e seus coeficientes, interprete de alguma forma etc. E para isso - Lasso pode não ser a melhor escolha em determinadas situações, conforme discutido em outras perguntas aqui.

Kochede
fonte
20

O LASSO incentiva o encolhimento dos coeficientes para 0, ou seja, diminuindo essas variáveis ​​do seu modelo. Por outro lado, outras técnicas de regularização, como uma crista, tendem a manter todas as variáveis.

Portanto, recomendo pensar se essa queda faz sentido para seus dados. Por exemplo, considere a criação de um teste de diagnóstico clínico em dados de microarranjos genéticos ou em dados espectroscópicos vibracionais.

  • Você esperaria que alguns genes carregassem informações relevantes, mas muitos outros genes são apenas ruídos. sua aplicação. Largar essas variáveis ​​é uma ideia perfeitamente sensata.

  • Por outro lado, os conjuntos de dados espectroscópicos vibracionais (embora geralmente possuam dimensões semelhantes em comparação aos dados de microarranjos) tendem a ter as informações relevantes "manchadas" em grandes partes do espectro (correlação). Nesta situação, pedir à regularização para eliminar variáveis ​​não é uma abordagem particularmente sensata. Além disso, como outras técnicas de regularização, como o PLS, são mais adaptadas a esse tipo de dados.

Os elementos de aprendizagem estatística fornecem uma boa discussão sobre o LASSO e o contrastam com outras técnicas de regularização.

cbeleites suporta Monica
fonte
14

Se dois preditores são altamente correlacionados, o LASSO pode acabar descartando um arbitrariamente. Isso não é muito bom quando você deseja fazer previsões para uma população em que esses dois preditores não são altamente correlacionados e talvez um motivo para preferir a regressão de cordilheira nessas circunstâncias.

Você também pode pensar que a padronização de preditores (para dizer quando os coeficientes são "grandes" ou "pequenos") é arbitrária e fica intrigada (como eu) sobre maneiras sensatas de padronizar preditores categóricos.

Scortchi - Restabelecer Monica
fonte
11
Obrigado por esta resposta. Você conhece algum artigo que discuta os problemas com preditores correlacionados / preditores categóricos?
Berk U.
2
Vale acrescentar que existem outros métodos de regressão penalizados que tentam aliviar esses problemas (como a rede elástica).
bdeonovic 13/07/2016
Para fazer a seleção de variáveis ​​com variáveis ​​altamente colineares, a crista adaptativa iterativa (que aproxima a regressão penalizada por L0 es implementada no pacote l0ara) tende a ter o melhor desempenho, ou as penalidades por L0L2, conforme implementadas no pacote L0Learn, também apresentam bom desempenho ...
Tom Wenseleers
9

O laço é útil apenas se você estiver se restringindo a considerar modelos lineares nos parâmetros a serem estimados. Dito de outra forma, o laço não avalia se você escolheu a forma correta do relacionamento entre as variáveis ​​independentes e dependentes.

É muito plausível que possa haver efeitos não-lineares, interativos ou polinomiais em um conjunto de dados arbitrário. No entanto, essas especificações alternativas de modelo serão avaliadas apenas se o usuário realizar essa análise; o laço não é um substituto para fazê-lo.

Para um exemplo simples de como isso pode dar errado, considere um conjunto de dados no qual intervalos disjuntos da variável independente irão prever valores altos e baixos alternados da variável dependente. Isso será um desafio para resolver usando modelos lineares convencionais, uma vez que não há um efeito linear nas variáveis manifestas presentes para análise (mas alguma transformação das variáveis ​​manifestas pode ser útil). Deixado em sua forma manifesta, o laço concluirá incorretamente que esse recurso é estranho e zera seu coeficiente porque não há relação linear . Por outro lado, como existem divisões alinhadas aos eixos nos dados, um modelo baseado em árvore como uma floresta aleatória provavelmente se sairá bem.

insira a descrição da imagem aqui

Restabelecer Monica
fonte
5

Uma desvantagem prática do laço e de outras técnicas de regularização é encontrar o coeficiente ideal de regularização, lambda. Usar a validação cruzada para encontrar esse valor pode ser tão caro quanto as técnicas de seleção passo a passo.

rm999
fonte
O que você quer dizer com "caro"?
mark999
4
Esta afirmação não é realmente verdadeira. Se você adotar a pesquisa de grade "warm start" como no método glmnet, poderá calcular toda a grade rapidamente.
probabilityislogic
11
@probabilityislogic É verdade que só li sobre partidas quentes depois de fazer o comentário acima. O que você acha deste documento, que indica que as partidas a quente são mais lentas e às vezes menos eficazes do que a simples validação cruzada? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999
5
Lasso Bayesian não requer um fixo :)λ
Stéphane Laurent
5

Não sou especialista em LASSO, mas sou especialista em séries temporais. Se você tiver dados de séries temporais ou dados espaciais, eu evitaria cuidadosamente uma solução baseada em observações independentes. Além disso, se houver efeitos determinísticos desconhecidos que causaram estragos em seus dados (mudanças de nível / tendências de tempo etc.), o LASSO seria ainda menos um bom martelo. No fechamento, quando você tem dados de séries temporais, geralmente é necessário segmentar os dados quando confrontados com parâmetros ou variação de erro que mudam ao longo do tempo.

IrishStat
fonte
11
O LASSO pode oferecer um bom desempenho de previsão quando aplicado em modelos de séries temporais com base em regressão, como regressões automáticas (AR), regressões automáticas vetoriais (VAR) e modelos de correção de erros vetoriais (VECM). Por exemplo, procure a auto-regressão do vetor de laço e você encontrará muitos exemplos na literatura acadêmica. Na minha própria experiência, usar o LASSO para modelos VAR estacionários fornece desempenho de previsão superior em comparação com toda a seleção de subconjuntos ou regularização de cume, enquanto a regularização de cume supera o LASSO para modelos VAR integrados (devido à multicolinearidade, conforme resposta de Scortchi).
Richard Hardy
Portanto, a falha do LASSO não é inerente aos dados que são séries temporais.
Richard Hardy
3

Essa já é uma pergunta bastante antiga, mas acho que, enquanto isso, a maioria das respostas aqui está desatualizada (e a que está marcada como resposta correta está claramente errada).

Primeiro, em termos de obter um bom desempenho de previsão, não é universalmente verdade que o LASSO seja sempre melhor que o passo a passo. O artigo "Comparações estendidas da melhor seleção de subconjuntos, seleção passo a passo para a frente e o laço" de Hastie et al (2017) fornece uma comparação extensiva do LASSO para a frente, e algumas variantes do LASSO, como o relaxado LASSO e o melhor subconjunto, e eles mostre que passo a passo às vezes é melhor que o LASSO. Porém, uma variante do LASSO - LASSO relaxado - foi a que produziu a maior precisão de previsão do modelo sob a mais ampla gama de circunstâncias. A conclusão sobre qual é o melhor depende muito do que você considera melhor, por exemplo, se essa seria a maior precisão de previsão ou a seleção do menor número possível de variáveis ​​positivas positivas.

Existe um zoológico inteiro de métodos de aprendizado esparsos, a maioria dos quais é melhor que o LASSO. Por exemplo, existe a regressão penalizada relaxada de LASSO , adaptável de LASSO e SCAD e MCP de Meinhausen , conforme implementada no ncvregpacote, que todos têm menos viés que o LASSO padrão e, portanto, são preferíveis. Além disso, se você tem interesse na solução mais esparsa absoluta com o melhor desempenho de previsão, a regressão penalizada por L0 (também conhecida como melhor subconjunto, ou seja, com base na penalização do n ° de coeficientes diferentes de zero, em oposição à soma do valor absoluto dos coeficientes no LASSO) é melhor que o LASSO, veja, por exemplo, o l0arapacote que aproxima GLMs penalizados por L0 usando um procedimento de cume adaptativo iterativoe que, diferentemente do LASSO, também funciona muito bem com variáveis ​​altamente colineares, e o L0Learnpacote , que pode ajustar modelos de regressão penalizados L0 usando descida de coordenadas , potencialmente em combinação com uma penalidade L2 para regularizar a colinearidade.

Então, voltando à sua pergunta original: por que não usar o LASSO para seleção de variáveis? :

(1) porque os coeficientes serão altamente tendenciosos, o que é melhorado na regressão penalizada relaxada de LASSO, MCP e SCAD e resolvido completamente na regressão penalizada de L0 (que possui uma propriedade completa do oráculo, ou seja, pode selecionar as variáveis ​​causais e executar novamente coeficientes imparciais, também para p> n casos)

(2) porque tende a produzir muito mais falsos positivos do que a regressão penalizada por L0 (nos meus testes l0araapresenta melhor desempenho, ou seja, crista adaptativa iterativa, seguida por L0Learn)

(3) porque não pode lidar bem com variáveis ​​colineares (essencialmente selecionaria aleatoriamente apenas uma das variáveis ​​colineares) - crista adaptativa iterativa / l0arae as penalidades de L0L2 L0Learnsão muito melhores para lidar com isso.

Obviamente, em geral, você ainda precisará usar a validação cruzada para ajustar seus parâmetros de regularização para obter o desempenho ideal das previsões, mas isso não é um problema. E você pode até fazer inferência dimensional alta em seus parâmetros e calcular intervalos de confiança de 95% em seus coeficientes, se desejar através de bootstrapping não paramétrico (mesmo levando em conta a incerteza na seleção da regularização ideal, se você fizer sua validação cruzada também em cada conjunto de dados de bootstrap) , embora isso se torne bastante lento).

Em termos computacionais, o LASSO não é mais lento do que as abordagens passo a passo, certamente não se alguém usar código altamente otimizado que utiliza inicialização a quente para otimizar sua regularização do LASSO (você pode comparar-se usando o fscomando para avançar passo a passo e lassopara o LASSO no bestsubsetpacote). O fato de que as abordagens passo a passo ainda são populares provavelmente tem a ver com a crença equivocada de muitos de que alguém poderia apenas manter seu modelo final e relatar seus valores de p associados - o que de fato não é uma coisa correta a ser feita, pois isso não acontece. leve em consideração a incerteza introduzida pela sua seleção de modelo, resultando em valores p muito otimistas.

Espero que isto ajude?

Tom Wenseleers
fonte
0

Um grande problema é a dificuldade de realizar testes de hipóteses. Você não pode descobrir facilmente quais variáveis ​​são estatisticamente significativas com o Lasso. Com a regressão passo a passo, você pode fazer testes de hipóteses até certo ponto, se você for cuidadoso com o tratamento de vários testes.

dsimcha
fonte
8
Eu diria que é uma vantagem, não uma desvantagem. Impede que você faça algo que provavelmente não deveria estar fazendo.
Peter Flom - Restabelece Monica
@ Peter: Por quê? Suponho que você corrija corretamente vários testes, etc., para que os valores de P obtidos sejam válidos.
precisa saber é o seguinte
10
não há realmente uma maneira de corrigir corretamente vários testes em etapas. Veja, por exemplo, estratégias de modelagem de regressão de Harrell. Não há como saber a correção correta
Peter Flom - Restabelece Monica
4
É verdade que a dificuldade de realizar testes de hipóteses é uma desvantagem potencial do LASSO. Não é verdade que isso seja uma desvantagem em relação à regressão gradual.
gung - Restabelece Monica
2
Bem, existe a estrutura de inferência seletiva (implementada no pacote selectionInference) para fazer (pós-seleção) inferência para o LASSO ... Ou para qualquer método de seleção de variável, pode-se usar bootstrapping não paramétrico para fazer inferência e obter intervalos de confiança em suas estimativas de parâmetros. ..
Tom Wenseleers