Ridge e LASSO receberam uma estrutura de covariância?

11

Depois de ler o capítulo 3 nos Elementos de aprendizagem estatística (Hastie, Tibshrani & Friedman), perguntei-me se seria possível implementar os famosos métodos de encolhimento citados no título dessa pergunta, dada uma estrutura de covariância, ou seja, minimizar a (talvez mais geral ) quantidade

(yXβ)TV1(yXβ)+λf(β),   (1)

em vez do usual Isso foi motivado principalmente pelo fato de que, em minha aplicação específica, temos diferentes variações para o (e às vezes até uma estrutura de covariância que pode ser estimada) e eu gostaria de incluir eles na regressão. Fiz isso para regressão de cumeeira: pelo menos com minha implementação em Python / C, vejo que há diferenças importantes nos caminhos que os coeficientes rastreiam, o que também é notável ao comparar as curvas de validação cruzada nos dois casos.y

(yXβ)(yXβ)+λf(β).            (2)
y

Agora eu estava me preparando para tentar implementar o LASSO via regressão de ângulo mínimo, mas para fazer isso, tenho que provar primeiro que todas as suas boas propriedades ainda são válidas ao minimizar vez de . Até agora, não vi nenhum trabalho que realmente fizesse tudo isso, mas há algum tempo também li uma citação que dizia algo como " aqueles que não sabem estatística estão fadados a redescobri-la " (talvez por Brad Efron? ), é por isso que estou perguntando aqui primeiro (considerando que sou um novato em relação à literatura estatística): isso já foi feito em algum lugar para esses modelos? É implementado no R de alguma forma? (incluindo a solução e implementação da crista, minimizando vez de( 2 ) ( 1 ) ( 2 )(1)(2)(1)(2), qual é o que é implementado no código lm.ridge em R)?

Agradecemos antecipadamente por suas respostas!

Néstor
fonte
A resposta anterior também é relatada com mais detalhes em en.wikipedia.org/wiki/Generalized_least_squares A solução pode ser implementada utilizando uma abordagem viável mínimos quadrados generalizados (FGLS)
Nicola Jean

Respostas:

13

Se conhecemos a decomposição de Cholesky , digamos, então e podemos usar algoritmos padrão (com qualquer função de penalização preferida) substituindo a resposta pelo vetor e os preditores pela matriz .( y - X β ) T V - 1 ( y - X β ) = ( L y - L X β ) T ( L y - L X β ) L y L XV1=LTL

(yXβ)TV1(yXβ)=(LyLXβ)T(LyLXβ)
LyLX
NRH
fonte