Depois de ler o capítulo 3 nos Elementos de aprendizagem estatística (Hastie, Tibshrani & Friedman), perguntei-me se seria possível implementar os famosos métodos de encolhimento citados no título dessa pergunta, dada uma estrutura de covariância, ou seja, minimizar a (talvez mais geral ) quantidade
em vez do usual Isso foi motivado principalmente pelo fato de que, em minha aplicação específica, temos diferentes variações para o (e às vezes até uma estrutura de covariância que pode ser estimada) e eu gostaria de incluir eles na regressão. Fiz isso para regressão de cumeeira: pelo menos com minha implementação em Python / C, vejo que há diferenças importantes nos caminhos que os coeficientes rastreiam, o que também é notável ao comparar as curvas de validação cruzada nos dois casos.→ y
Agora eu estava me preparando para tentar implementar o LASSO via regressão de ângulo mínimo, mas para fazer isso, tenho que provar primeiro que todas as suas boas propriedades ainda são válidas ao minimizar vez de . Até agora, não vi nenhum trabalho que realmente fizesse tudo isso, mas há algum tempo também li uma citação que dizia algo como " aqueles que não sabem estatística estão fadados a redescobri-la " (talvez por Brad Efron? ), é por isso que estou perguntando aqui primeiro (considerando que sou um novato em relação à literatura estatística): isso já foi feito em algum lugar para esses modelos? É implementado no R de alguma forma? (incluindo a solução e implementação da crista, minimizando vez de( 2 ) ( 1 ) ( 2 ), qual é o que é implementado no código lm.ridge em R)?
Agradecemos antecipadamente por suas respostas!
fonte
Respostas:
Se conhecemos a decomposição de Cholesky , digamos, então e podemos usar algoritmos padrão (com qualquer função de penalização preferida) substituindo a resposta pelo vetor e os preditores pela matriz .( y - X β ) T V - 1 ( y - X β ) = ( L y - L X β ) T ( L y - L X β ) L y L XV- 1= LTeu
fonte