Para a regressão do laço suponha que a melhor solução (erro mínimo de teste, por exemplo) selecione k recursos, para que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {laço}, 0, ... 0 \ direita) .
Sabemos que é um estimativa tendenciosa de , por que ainda consideramos como a solução final, em vez da mais 'razoável' , em que é a estimativa LS do modelo parcial . ( indica as colunas de correspondentes aos recursos selecionados).
Em resumo, por que usamos o Lasso tanto para seleção de recursos quanto para estimativa de parâmetros, em vez de apenas para seleção de variáveis (e deixando a estimativa dos recursos selecionados para o OLS)?
(Além disso, o que significa que 'Lasso pode selecionar no máximo recursos'? é o tamanho da amostra.)
fonte
Respostas:
Não acredito que exista algo errado em usar o LASSO para seleção de variáveis e depois usar o OLS. De " Elementos de aprendizagem estatística " (pág. 91)
Outra abordagem razoável, semelhante em espírito ao laço relaxado, seria usá-lo uma vez (ou várias vezes em conjunto) para identificar um grupo de variáveis preditoras candidatas. Em seguida, use a melhor regressão de subconjuntos para selecionar as melhores variáveis preditoras a serem consideradas (consulte também "Elementos do aprendizado estatístico"). Para que isso funcione, você precisará refinar o grupo de preditores de candidatos para cerca de 35, o que nem sempre é possível. Você pode usar a validação cruzada ou o AIC como critério para evitar o ajuste excessivo.
fonte
Se seu objetivo é o desempenho ideal dentro da amostra (wrt mais alto R ao quadrado), basta usar o OLS em todas as variáveis disponíveis. A queda de variáveis diminui o quadrado R.
Se seu objetivo é um bom desempenho fora da amostra (que geralmente é o que é muito mais importante), sua estratégia proposta sofrerá de duas fontes de sobreajuste:
O objetivo do LASSO é reduzir as estimativas de parâmetros para zero, a fim de combater acima de duas fontes de sobreajuste. As previsões dentro da amostra serão sempre piores que o OLS, mas a esperança é (dependendo da força da penalização) obter um comportamento fora da amostra mais realista.
Em relação a : Isso (provavelmente) depende da implementação do LASSO que você está usando. Uma variante, Lars (regressão de menor ângulo), funciona facilmente para .p > np > n p > n
fonte
Em relação à questão dos OPs, por que Lasso pode selecionar no máximo n recursos:
Considere por que um OLS pode ser tendencioso: é quando há mais preditores ( p ) do que observações ( n ). Assim, é de tamanho [p, p] em . Não é possível tomar uma inversa dessa matriz (pode ser singular).β = ( X T X ) - 1 X T YXTX β=(XTX)−1XTY
Lasso é forçado a reduzir os coeficientes das variáveis para que isso não aconteça; portanto, nunca seleciona mais de n recursos para que seja sempre invertível.XTX
fonte