Por que usar estimativas de Lasso sobre estimativas de OLS no subconjunto de variáveis ​​identificadas por Lasso?

26

Para a regressão do laço suponha que a melhor solução (erro mínimo de teste, por exemplo) selecione k recursos, para que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {laço}, 0, ... 0 \ direita) .

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

Sabemos que (β^1lasso,β^2lasso,...,β^klasso) é um estimativa tendenciosa de (β1,β2,...,βk) , por que ainda consideramos β^lasso como a solução final, em vez da mais 'razoável' β^new=(β^1:knew,0,...,0) , em que β^1:knew é a estimativa LS do modelo parcial Lnew(β1:k)=(X1:kβy)(X1:kβy) . ( X1:k indica as colunas de X correspondentes aos k recursos selecionados).

Em resumo, por que usamos o Lasso tanto para seleção de recursos quanto para estimativa de parâmetros, em vez de apenas para seleção de variáveis ​​(e deixando a estimativa dos recursos selecionados para o OLS)?

(Além disso, o que significa que 'Lasso pode selecionar no máximo n recursos'? n é o tamanho da amostra.)

yliueagle
fonte
11
Esta é uma questão muito boa. Você já tentou algumas simulações para ver quão diferentes os resultados seriam do padrão Lasso se você tentasse do seu jeito?
Placidia 16/01
3
Você entendeu o propósito de "Shrinkage" no LASSO?
Michael M
6
A ideia é reduzir as estimativas de coeficiente precisamente porque você escolheu as maiores. As estimativas de mínimos quadrados não são mais imparciais quando você faz a seleção de recursos com antecedência.
Scortchi - Restabelece Monica
2
Consulte a seguinte pergunta para obter uma ótima resposta para "Que problema os métodos de contração resolvem?" stats.stackexchange.com/questions/20295/…
DL Dahly
2
Para ser claro: não dizer que @ Scortchi está errado, mas essa é uma área meio cinzenta ao discutir a seleção de recursos, e acho que esse é um ponto técnico importante que deve ser esclarecido.
johna

Respostas:

27

Não acredito que exista algo errado em usar o LASSO para seleção de variáveis ​​e depois usar o OLS. De " Elementos de aprendizagem estatística " (pág. 91)

... o encolhimento do laço faz com que as estimativas dos coeficientes diferentes de zero sejam enviesadas para zero e, em geral, elas não são consistentes [ Nota adicionada: isso significa que, à medida que o tamanho da amostra cresce, as estimativas de coeficientes não convergem] . Uma abordagem para reduzir esse viés é executar o laço para identificar o conjunto de coeficientes diferentes de zero e, em seguida, ajustar um modelo linear não restrito ao conjunto de recursos selecionado. Isso nem sempre é possível se o conjunto selecionado for grande. Como alternativa, pode-se usar o laço para selecionar o conjunto de preditores diferentes de zero e, em seguida, aplicar o laço novamente, mas usando apenas os preditores selecionados da primeira etapa. Isso é conhecido como laço relaxado(Meinshausen, 2007). A idéia é usar a validação cruzada para estimar o parâmetro de penalidade inicial para o laço e, em seguida, novamente para um segundo parâmetro de penalidade aplicado ao conjunto selecionado de preditores. Como as variáveis ​​na segunda etapa têm menos "competição" em relação às variáveis ​​de ruído, a validação cruzada tenderá a escolher um valor menor para [o parâmetro de penalidade] e, portanto, seus coeficientes serão encolhidos menos que os da estimativa inicial.λ

Outra abordagem razoável, semelhante em espírito ao laço relaxado, seria usá-lo uma vez (ou várias vezes em conjunto) para identificar um grupo de variáveis ​​preditoras candidatas. Em seguida, use a melhor regressão de subconjuntos para selecionar as melhores variáveis ​​preditoras a serem consideradas (consulte também "Elementos do aprendizado estatístico"). Para que isso funcione, você precisará refinar o grupo de preditores de candidatos para cerca de 35, o que nem sempre é possível. Você pode usar a validação cruzada ou o AIC como critério para evitar o ajuste excessivo.

Alex Williams
fonte
Outra parte da minha pergunta é: por que 'Lasso pode selecionar no máximo n recursos'? Se for esse o caso, acho que o OLS nos recursos selecionados será pelo menos 'bom', pois o OLS é o 'AZUL' (não é estritamente AZUL, pois é principalmente tendencioso). Apenas considere uma situação extrema em que Lasso seleciona os recursos exatamente corretos, a realização de OLS nesses recursos restaurará o modelo real, que eu acho melhor do que a estimativa de Lasso.
precisa saber é
2
O problema é que é improvável que essa "situação extrema" ocorra e não há como saber se o LASSO selecionou exatamente os recursos certos. Se o LASSO seleciona muitos recursos, acho que o modelo completo do OLS pode ter um desempenho pior do que as estimativas do LASSO. Da mesma forma, a regressão do cume pode superar o OLS se houver muitos recursos (ou seja, o OLS está super ajustado).
Alex Williams
2
Veja também web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , final da Seção 2.2: "[...] os mínimos quadrados ajustados ao subconjunto de [...] preditores tendem a expandir as estimativas do laço longe de zero. As estimativas diferentes de zero do laço tendem a ser tendenciosas em direção a zero, de modo que o debiasing no painel direito muitas vezes pode melhorar o erro de previsão do modelo.Este processo de dois estágios também é conhecido como laço relaxado (Meinshausen 2007) . "
Ameba diz Reinstate Monica
11
Analisei o artigo de Meinshausen e ele recomenda dois parâmetros de penalidade, conforme descrito em sua citação original de The Elements. +1
ameba diz Restabelecer Monica
@AlexWilliams Mas não há uma suposição de escassez no parágrafo anterior sobre a correlação entre o conjunto selecionado e o que é removido sendo pequeno?
Dimitriy V. Masterov
15

Se seu objetivo é o desempenho ideal dentro da amostra (wrt mais alto R ao quadrado), basta usar o OLS em todas as variáveis ​​disponíveis. A queda de variáveis ​​diminui o quadrado R.

Se seu objetivo é um bom desempenho fora da amostra (que geralmente é o que é muito mais importante), sua estratégia proposta sofrerá de duas fontes de sobreajuste:

  • Seleção de variáveis ​​com base em correlações com a variável de resposta
  • Estimativas OLS

O objetivo do LASSO é reduzir as estimativas de parâmetros para zero, a fim de combater acima de duas fontes de sobreajuste. As previsões dentro da amostra serão sempre piores que o OLS, mas a esperança é (dependendo da força da penalização) obter um comportamento fora da amostra mais realista.

Em relação a : Isso (provavelmente) depende da implementação do LASSO que você está usando. Uma variante, Lars (regressão de menor ângulo), funciona facilmente para .p > np>np>n

Michael M
fonte
2
O "Leekasso" (sempre escolher 10 coeficientes) é diferente do que a proposta da pergunta (OLS re-estimativa com preditores k escolhido por LASSO)
Affine
@afine você está completamente certo. Eu removi a referência.
Michael M
2
Isso parece razoável, mas os inventores do Lasso argumentam o contrário e recomendam o uso de um procedimento de dois estágios com o OLS no subconjunto identificado pelo Lasso (conforme sugerido pelo OP), consulte a resposta de Alex.
Ameba diz Reinstate Monica
Eu gosto desta resposta porque menciona o viés de seleção da própria pesquisa; parece que deve haver uma penalidade adicional. LASSO como mero mecanismo de seleção de subconjuntos - isso é tudo? Então, por que imprimir seus coeficientes?
Ben Ogorek 14/11
3

Em relação à questão dos OPs, por que Lasso pode selecionar no máximo n recursos:

Considere por que um OLS pode ser tendencioso: é quando há mais preditores ( p ) do que observações ( n ). Assim, é de tamanho [p, p] em . Não é possível tomar uma inversa dessa matriz (pode ser singular).β = ( X T X ) - 1 X T YXTXβ=(XTX)1XTY

Lasso é forçado a reduzir os coeficientes das variáveis ​​para que isso não aconteça; portanto, nunca seleciona mais de n recursos para que seja sempre invertível.XTX

jmp111
fonte
11
(-1) Eu não acho que isso seja verdade. Você pode explicar mais a conexão entre não existente e o laço? Especificamente, o que $ X ^ TX tem a ver com o laço? Existem provas da pergunta do OPS (as respostas aqui são reveladoras, por exemplo: stats.stackexchange.com/questions/38299/…), mas essa resposta não parece provar isso. (Por favor, deixe-me saber se eu estou enganado!)(XTX)1
user795305