Pena de laço aplicada apenas ao subconjunto de regressores

7

Esta pergunta já foi feita antes, mas não houve respostas, então pensei em perguntar novamente.

Estou interessado em aplicar uma penalidade de laço a algum subconjunto dos regressores, ou seja, com função objetivo

E=||yX1β1X2β2||2+λ||β1||1

onde o Lasso é aplicado apenas a β1 mas β2 está envolvido na reconstrução.

Existe alguma teoria por trás disso? Em segundo lugar, existe alguma maneira de fazer isso no sklearn?

user180303
fonte

Respostas:

6

Seja um projetor ortogonal no espaço da coluna de . Temos que em que H2X2

minβ1,β2{yX1β1X2β222+λβ11}=minβ1,β2{H2(yX1β1)X2β222+(IH2)(yX1β1)22+λβ11}=minβ1|β2minβ2{H2(yX1β1)X2β222+(IH2)(yX1β1)22+λβ11},
β^2=argminβ2{H2(yX1β1)X2β222+(IH2)(yX1β1)22+λβ11}=argminβ2{H2(yX1β1)X2β222}
satisfaz para todos desde para todos . Considerando nesta sentença o caso em que é a classificação completa, temos ainda que pois neste caso.X2β^2=H2(yX1β1)β1H2(yX1β1)col(X2)β1X2
β^2=(X2TX2)1X2T(yX1β1),
H2=X2(X2TX2)1X2

Conectando isso ao primeiro problema de otimização, vemos que que pode ser avaliado através das ferramentas computacionais usuais do laço. Como whuber sugere em seu comentário, esse resultado é intuitivo, pois os coeficientes irrestritos podem abranger o espaço de , de modo que apenas a parte do espaço ortogonal ao espaço de é motivo de preocupação ao avaliar .

β^1=argminβ1{0+(IH2)(yX1β1)22+λβ11}(*)=argminβ1{(IH2)y(IH2)X1β122+λβ11},
β2X2X2β^1

Apesar da notação ser um pouco mais geral, quase qualquer um que já tenha usado o laço está familiarizado com esse resultado. Para ver isso, suponha que seja o (comprimento ) vetores de um, representando a interceptação. Então, a matriz de projeção e, para qualquer vetor , a projeção ortogonal apenas diminui a vetor. Considerando a equação , é exatamente isso que as pessoas fazem quando calculam os coeficientes do laço! Eles degradam os dados para que a interceptação não precise ser considerada.X2=1nH2=1(1T1)11T=1n11Tv(IH2)v=vv¯1()

user795305
fonte
7

Não sei que você precisa de muita "teoria" por trás dessa abordagem. As abordagens de regressão penalizada (LASSO, cume ou sua regressão líquida elástica híbrida) são ferramentas para fazer trocas de variação de viés para melhorar a generalização e o desempenho do modelo. Você certamente pode optar por manter algumas variáveis ​​não penalizadas, como propõe para , enquanto outras são penalizadas. Por exemplo, este artigo examinou a eficácia de uma vacina, mantendo o status de vacinação não penalizado e incorporando outras covariáveis ​​com uma penalidade de L2 por regressão de crista. Essa abordagem evitou o ajuste excessivo nas covariáveis, permitindo a avaliação direta do principal preditor de interesse.β2

Perguntas sobre implementações em ambientes de programação específicos não são abordadas neste site. Uma maneira geral de abordar esse problema, como no glmnetpacote em R, é incluir um fator de penalidade específico do preditor que multiplica a escolha geral de antes de avaliar a função objetivo. Os preditores têm fatores de penalidade padrão de 1, mas um preditor com um fator de penalidade especificado de 0 não seria penalizado e um com um fator de penalidade infinito sempre seria excluído. Os valores intermediários dos fatores de penalidade que diferem entre os preditores podem fornecer qualquer penalidade diferencial desejada entre os preditores. Suspeito que essa abordagem possa ser incorporada de alguma forma às ferramentas fornecidas por .λsklearn

EdM
fonte
2
+1 Como geralmente não é especificado, mas é encontrado por outros meios, parece que é possível remover o efeito de em (ao fazer regressão de contra ), ajustar com como resposta e o ajustado como os regressores e, em seguida, execute o laço nos resíduos usando apenas como regressores. O espaço das soluções para será o mesmo, mas o parâmetro pode ser multiplicado por uma constante (inconseqüente). A solução alternativa para a regressão de Ridge é ainda mais simples . λX1X2X2X1β2YX2X1β1λ
whuber