Estou tentando usar um modelo LASSO para previsão e preciso estimar erros padrão. Certamente alguém já escreveu um pacote para fazer isso. Mas, até onde posso ver, nenhum dos pacotes no CRAN que fazem previsões usando um LASSO retornará erros padrão para essas previsões.
Portanto, minha pergunta é: Existe um pacote ou algum código R disponível para calcular erros padrão para previsões do LASSO?
r
standard-error
prediction
lasso
Rob Hyndman
fonte
fonte
monomvn
, veja minha resposta abaixo.Respostas:
Kyung et al. (2010), "Regressão penalizada, erros padrão e lassos bayesianos", Bayesian Analysis, 5 , 2 , sugerem que pode não haver um consenso sobre um método estatisticamente válido para calcular erros padrão para as previsões do laço. Tibshirani parece concordar (slide 43) que os erros padrão ainda são um problema não resolvido.
fonte
Em uma nota relacionada, que pode ser útil, Tibshirani e colegas propuseram um teste de significância para o laço. O artigo está disponível e intitulado "Um teste de significância para o laço". Uma versão gratuita do artigo pode ser encontrada aqui
fonte
A resposta Sandipan Karmakar diz o que você deve fazer, isso deve ajudá-lo no "como":
[...]
fonte
O LASSO bayesiano é a única alternativa ao problema de cálculo de erros padrão. Erros padrão são calculados automaticamente no LASSO Bayesiano ... Você pode implementar o LASSO Bayesiano com muita facilidade usando o esquema de amostragem Gibbs ...
O LASSO Bayesiano precisa que distribuições anteriores sejam atribuídas aos parâmetros do modelo. No modelo LASSO, temos a função objetivo with como o parâmetro de regularização. Aqui, como temos -norm for , é necessário um tipo especial de distribuição anterior para isso, a distribuição LAPLACE é uma mistura escalável de distribuição normal com distribuição exponencial como densidade de mistura. Com base nas posteriores condicionais completas de cada um dos parâmetros devem ser deduzidos.||y−Xβ||22+λ||β||1 λ ℓ1 β
Então, pode-se usar Gibbs Sampling para simular a cadeia. Ver Park & Cassella (2008), "The Bayesian Lasso", JASA , 103 , 482 .
Existem três desvantagens inerentes ao LASSO frequentista:
É preciso escolher por validação cruzada ou por outros meios.λ
Os erros padrão são difíceis de calcular, pois o LARS e outros algoritmos produzem estimativas de pontos para .β
A estrutura hierárquica do problema em questão não pode ser codificada usando o modelo frequentista, o que é bastante fácil na estrutura bayesiana.
fonte
Para adicionar as respostas acima, o problema parece ser que mesmo um bootstrap é provavelmente insuficiente, pois a estimativa do modelo penalizado é tendenciosa e o bootstrapping fala apenas da variação - ignorando o viés da estimativa. Isso está bem resumido na vinheta do pacote penalizado na página 18 .
No entanto, se estiver sendo usado para previsão, por que é necessário um erro padrão do modelo? Não é possível cruzar a validação ou a inicialização adequada e produzir um erro padrão em torno de uma métrica relacionada à previsão, como o MSE?
fonte
Existe o pacote selectionInference em R, https://cran.r-project.org/web/packages/selectiveInference/index.html , que fornece intervalos de confiança ep valores para seus coeficientes ajustados pelo LASSO, com base no artigo a seguir :
Stephen Reid, Jerome Friedman e Rob Tibshirani (2014). Um estudo de estimativa de variância de erro na regressão do laço. arXiv: 1311.5274
PS: apenas perceba que isso produz estimativas de erro para seus parâmetros, não tenho certeza sobre o erro em sua previsão final, se é isso que você procura ... Suponho que você possa usar "intervalos de previsão de população" para isso, se quiser (por parâmetros de reamostragem de acordo com o ajuste após uma distribuição normal multivariada).
fonte