Estimando a significância estatística ao quadrado R e do modelo de regressão penalizado

20

Estou usando o pacote R penalizado para obter estimativas reduzidas de coeficientes para um conjunto de dados em que tenho muitos preditores e pouco conhecimento de quais são importantes. Depois de escolher os parâmetros de ajuste L1 e L2 e ficar satisfeito com meus coeficientes, existe uma maneira estatisticamente sólida de resumir o ajuste do modelo com algo como R ao quadrado?

Além disso, estou interessado em testar a significância geral do modelo (ou seja, R² = 0 ou todo = 0).

Eu li as respostas sobre uma pergunta semelhante feita aqui , mas ela não respondeu muito bem à minha pergunta. Há um excelente tutorial sobre o pacote R que estou usando aqui , e a autora Jelle Goeman teve a seguinte nota no final do tutorial sobre intervalos de confiança de modelos de regressão penalizados:

É uma pergunta muito natural solicitar erros padrão dos coeficientes de regressão ou outras quantidades estimadas. Em princípio, esses erros padrão podem ser facilmente calculados, por exemplo, usando o bootstrap.

Ainda assim, este pacote deliberadamente não os fornece. A razão para isso é que os erros padrão não são muito significativos para estimativas fortemente tendenciosas, como as que surgem de métodos de estimativa penalizada. A estimativa penalizada é um procedimento que reduz a variação dos estimadores ao introduzir um viés substancial. O viés de cada estimador é, portanto, um componente importante de seu erro quadrado médio, enquanto sua variação pode contribuir apenas com uma pequena parte.

Infelizmente, na maioria das aplicações de regressão penalizada, é impossível obter uma estimativa suficientemente precisa do viés. Quaisquer cálculos baseados em bootstrap podem apenas dar uma avaliação da variação das estimativas. As estimativas confiáveis ​​do viés estão disponíveis apenas se houver estimativas imparciais imparciais, o que normalmente não é o caso nas situações em que estimativas penalizadas são usadas.

Relatar um erro padrão de uma estimativa penalizada conta apenas parte da história. Pode dar uma impressão equivocada de grande precisão, ignorando completamente a imprecisão causada pelo viés. Certamente, é um erro fazer declarações de confiança baseadas apenas em uma avaliação da variação das estimativas, como fazem os intervalos de confiança baseados em autoinicialização.

Stephen Turner
fonte
1
É claro que uma maneira de obter rapidamente uma estimativa do R-quadrado é ajustando um modelo linear prevendo os valores ajustados dos dados originais e tomando o R-quadrado disso. Mas isso parece ser uma estimativa massivamente super ajustada e tendenciosa de R ao quadrado.
Stephen Turner
Eu adiciono isso como um comentário, pois estou fazendo uma pergunta "semelhante" em um post próximo (por isso não sei se me qualifico para dar uma resposta ), mas para a sua pergunta especificamente, parece que você pode calcular o R-quadrado sem exigir nenhuma suposições distributivas (embora sejam necessárias para testes de hipóteses da maneira comum). Você não pode usar um conjunto de retenção para calcular o quadrado de r ou usar uma validação de dobra k se não tiver dados suficientes (em cada dobra, execute todo o seu processo penalizado e calcule a média dos quadrados r de cada uma das dobras não usado na montagem)?
B_Miner 15/02
1
@B_Miner, vezes de validação cruzada tende a dar estimativas bastante inclinadas de R 2 , uma vez que geralmente não é estimar a verdadeira quantidade de interesse. Muitos procedimentos (a maioria?) Semelhantes têm o mesmo problema. kR2
cardeal
1
R2 R2R2
1
R2

Respostas:

4

Minha primeira reação aos comentários de Jelle apresentados é "viés-schmias". Você precisa ter cuidado com o que quer dizer com "grande quantidade de preditores". Isso pode ser "grande" com relação a:

  1. O número de pontos de dados ("grande p pequeno n")
  2. A quantidade de tempo que você tem para investigar as variáveis
  3. O custo computacional da inversão de uma matriz gigante

Minha reação foi baseada em "grande" em relação ao ponto 1. Isso ocorre porque, nesse caso, geralmente vale a troca de viés pela redução na variação que você obtém. O viés é apenas importante "a longo prazo". Então, se você tem uma amostra pequena, quem se importa com "a longo prazo"?

R2R2

Idealmente, esse "erro de previsão" deve ser baseado no contexto da sua situação de modelagem. Você basicamente deseja responder à pergunta "Quão bem meu modelo reproduz os dados?". O contexto da sua situação deve ser capaz de dizer o que "quão bem" significa no mundo real. Você precisa traduzir isso em algum tipo de equação matemática.

PRESS=i=1N(YiY^i,i)2
Y^i,iYiYiNTMG=TMNg=N×MT
PRESS=g=1Gi=1Ng(YigY^ig,g)2
βLASSOβUNCONSTRAINED
probabilityislogic
fonte
3
kp>n>1
1

O pacote R hdm e o pacote Stata lassopack suportam um teste de significância conjunto para o laço. A teoria permite que o número de preditores seja grande em relação ao número de observações. A teoria por trás do teste e como aplicá-lo é explicada brevemente na documentação do hdm . Em resumo, é baseado em uma estrutura de penalização orientada pela teoria (desenvolvida por Belloni, Chernozhukov e Hansen, et al.). Este artigo é um bom ponto de partida se você quiser saber mais sobre a teoria subjacente. A única desvantagem é que o teste só funciona para o laço e (laço de raiz quadrada). Não para outros métodos de regressão penalizados.

Belloni, A., Chen, D., Chernozhukov, V. e Hansen, C. (2012), Sparse Models and Methods for Optimal Instruments With a Application to Eminent Domain. Econometrica, 80: 2369-2429.

aahr1
fonte
por favor, adicionar a referência completa do papel (a ligação pode morrer)
Antoine