O que é uma estimativa imparcial da população R-quadrado?

14

Estou interessado em obter uma estimativa imparcial de em uma regressão linear múltipla.R2

Refletindo, posso pensar em dois valores diferentes que uma estimativa imparcial de pode estar tentando corresponder.R2

  1. Fora da amostra :R2 o quadrado r que seria obtido se a equação de regressão obtida da amostra (ou seja, ) fosse aplicada a uma quantidade infinita de dados externos à amostra, mas a partir dos mesmos dados processo de geração.β^
  2. População :R2 O quadrado r que seria obtido se uma amostra infinita fosse obtida e o modelo ajustado para essa amostra infinita (isto é, ) ou, alternativamente, apenas o quadrado R implicado pelo processo conhecido de geração de dados.β

Entendo que ajustadoR2 é projetado para compensar o sobreajuste observado na amostra . No entanto, não está claro se ajustado R 2 é realmente uma estimativa imparcial de R 2 , e se é uma estimativa imparcial, qual dos dois acima definições de R 2 É com o objetivo de estimar.R2R2R2R2

Assim, minhas perguntas:

  • O que é uma estimativa imparcial do que eu chamo acima fora da amostra R2 ?
  • O que é uma estimativa imparcial do que eu chamo acima população R2 ?
  • Existem referências que fornecem simulação ou outra prova da imparcialidade?
Jeromy Anglim
fonte
A pergunta que fórmula para adj. R ^ 2 é menos tendencioso foi gerado, por exemplo, aqui .
ttnphns
Obrigado. Agora estou lendo a referência que você menciona: Yin, P., & Fan, X. (2001). Estimando encolhimento em regressão múltipla: A comparação de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224. R2
Jeromy Anglim

Respostas:

14

Avaliação de ajustes analíticos no quadrado R

@ttnphns me encaminhou para o artigo Yin e Fan (2001), que compara diferentes métodos analíticos de estimativa de . De acordo com a minha pergunta, eles discriminam entre dois tipos de estimadores. Eles usam a seguinte terminologia:R2

  • : Estimador do coeficiente de correlação múltipla da população ao quadradoρ2
  • : Estimador do coeficiente de validade cruzada da população ao quadradoρc2

Seus resultados estão resumidos no resumo:

R2ρ2ρ2ρc2

ρ2

R^2=1(N3)(1R2)(Np1)[1+2(1R2)Np2.3]

onde N é o tamanho da amostra ep é o número de preditores.

Estimativas empíricas de ajustes ao quadrado R

R2ρ2ρc2ρ2

Referências

  • Kromrey, JD, & Hines, CV (1995). Uso de estimativas empíricas de retração na regressão múltipla: um cuidado. Medida educacional e psicológica, 55 (6), 901-925.
  • R2
Jeromy Anglim
fonte