Relação entre LASSO e

10

Meu entendimento da regressão do LASSO é que os coeficientes de regressão são selecionados para resolver o problema de minimização:

minβyXβ22 s.t.β1t

Na prática, isso é feito usando um multiplicador de Lagrange, tornando o problema para resolver

minβyXβ22+λβ1

Qual é a relação entre λ e t ? A Wikipedia simplesmente afirma que é "dependente de dados".

Por que eu me importo? Em primeiro lugar por curiosidade intelectual. Mas também estou preocupado com as conseqüências para selecionar λ por validação cruzada.

Especificamente, se estou fazendo validação cruzada n vezes, encaixo n modelos diferentes em n partições diferentes dos meus dados de treinamento. Em seguida, comparo a precisão de cada um dos modelos nos dados não utilizados para um dado λ . Mas o mesmo λ implica uma restrição diferente ( t ) para diferentes subconjuntos dos dados (ou seja, t=f(λ) é "dependente de dados").

Não é o problema de validação cruzada que realmente quero resolver para encontrar o t que oferece o melhor trade-off de precisão de viés?

Posso ter uma idéia aproximada do tamanho desse efeito na prática calculando para cada divisão de validação cruzada e e observando a distribuição resultante. Em alguns casos, a restrição implícita ( ) pode variar substancialmente entre meus subconjuntos de validação cruzada. Onde, substancialmente, quero dizer o coeficiente de variação em .β1λtt>>0

ConstantAmateur
fonte
5
Voto a favor para cancelar o voto negativo inexplicável. A questão está muito além da minha experiência, mas parece razoavelmente formulada.
mkt - Restabelece Monica

Respostas:

2

Esta é a solução padrão para regressão de crista :

β=(XX+λI)1Xy

Também sabemos que , então deve ser verdade queβ=t

(XX+λI)1Xy=t
.

o que não é fácil de resolver para .λ

Sua melhor aposta é continuar fazendo o que está fazendo: calcule na mesma subamostra dos dados em vários valores .tλ

shadowtalker
fonte