Eu acho que o boostrap seria a melhor opção para obter SEs robustas. Isso foi feito em alguns trabalhos aplicados, usando métodos de encolhimento, por exemplo, análise dos dados do Consórcio de Artrite Reumatóide da América do Norte usando uma abordagem de regressão logística penalizada (BMC Proceedings 2009). Há também um bom artigo de Casella sobre computação SE com modelo penalizado, regressão penalizada, erros padrão e Lassos Bayesiano (Bayesian Analysis 2010 5 (2)). Mas eles estão mais preocupados com a penalização do laço e da malha elástica .
Sempre pensei na regressão de cordilheira como uma maneira de obter melhores previsões do que o OLS padrão, onde o modelo geralmente não é parcimonioso. Para a seleção de variáveis, os critérios laço ou rede elástica são mais apropriados, mas é difícil aplicar um procedimento de autoinicialização (uma vez que as variáveis selecionadas mudam de uma amostra para outra e mesmo no loop interno fold usado para otimizar o ℓ 1 / ℓ 2 parâmetros); esse não é o caso da regressão de crista, pois você sempre considera todas as variáveis.kℓ1ℓ2
Não tenho idéia dos pacotes R que dariam essa informação. Parece não estar disponível no pacote glmnet (consulte o artigo de Friedman no JSS, Caminhos de regularização para modelos lineares generalizados via descida de coordenadas ). No entanto, Jelle Goeman, que criou o pacote penalizado , também discute esse ponto. Não consigo encontrar o PDF original na Web, então simplesmente cito suas palavras:
É uma pergunta muito natural solicitar erros padrão dos coeficientes de regressão ou outras quantidades estimadas. Em princípio, esses erros padrão podem ser facilmente calculados, por exemplo, usando o bootstrap.
Ainda assim, este pacote deliberadamente não os fornece. A razão para isso é que os erros padrão não são muito significativos para estimativas fortemente tendenciosas, como surgem de métodos de estimativa penalizada. A estimativa penalizada é um procedimento que reduz a variação dos estimadores ao introduzir um viés substancial. O viés de cada estimador é, portanto, um componente importante de seu erro quadrado médio, enquanto sua variação pode contribuir apenas com uma pequena parte.
Infelizmente, na maioria das aplicações de regressão penalizada, é impossível obter uma estimativa suficientemente precisa do viés. Quaisquer cálculos baseados em bootstrap podem apenas dar uma avaliação da variação das estimativas. As estimativas confiáveis do viés estão disponíveis apenas se houver estimativas imparciais imparciais, o que normalmente não é o caso nas situações em que estimativas penalizadas são usadas.
Relatar um erro padrão de uma estimativa penalizada conta apenas parte da história. Pode dar uma impressão equivocada de grande precisão, ignorando completamente a imprecisão causada pelo viés. Certamente, é um erro fazer declarações de confiança baseadas apenas em uma avaliação da variação das estimativas, como fazem os intervalos de confiança baseados em autoinicialização.
Supondo que o processo de geração de dados siga as premissas padrão por trás do OLS, os erros padrão para regressão de crista são dados por:
A notação acima segue a notação wiki para regressão de crista . Especificamente,
fonte
O que geralmente é mal entendido sobre a regularização de Tikhonov é que a quantidade de suavização tem muito pouco a ver com o ajuste da curva, o fator de suavização deve ser usado para minimizar o erro dos parâmetros de interesse. Você precisaria explicar muito mais sobre o problema específico que está tentando resolver para usar a regressão de cume adequadamente em algum contexto válido de problema inverso, e muitos dos trabalhos sobre seleção de fatores de suavização e muitos dos usos publicados da regularização de Tikhonov são: um pouco heurístico.
Além disso, a regularização de Tikhonov é apenas um tratamento inverso de problemas entre muitos. Siga o link para a revista Inverse Problems .
fonte