Estou interessado em obter uma estimativa imparcial de em uma regressão linear múltipla.
Refletindo, posso pensar em dois valores diferentes que uma estimativa imparcial de pode estar tentando corresponder.
- Fora da amostra : o quadrado r que seria obtido se a equação de regressão obtida da amostra (ou seja, ) fosse aplicada a uma quantidade infinita de dados externos à amostra, mas a partir dos mesmos dados processo de geração.
- População : O quadrado r que seria obtido se uma amostra infinita fosse obtida e o modelo ajustado para essa amostra infinita (isto é, ) ou, alternativamente, apenas o quadrado R implicado pelo processo conhecido de geração de dados.
Entendo que ajustado é projetado para compensar o sobreajuste observado na amostra . No entanto, não está claro se ajustado R 2 é realmente uma estimativa imparcial de R 2 , e se é uma estimativa imparcial, qual dos dois acima definições de R 2 É com o objetivo de estimar.
Assim, minhas perguntas:
- O que é uma estimativa imparcial do que eu chamo acima fora da amostra ?
- O que é uma estimativa imparcial do que eu chamo acima população ?
- Existem referências que fornecem simulação ou outra prova da imparcialidade?
estimation
multiple-regression
r-squared
bias
Jeromy Anglim
fonte
fonte
Respostas:
Avaliação de ajustes analíticos no quadrado R
@ttnphns me encaminhou para o artigo Yin e Fan (2001), que compara diferentes métodos analíticos de estimativa de . De acordo com a minha pergunta, eles discriminam entre dois tipos de estimadores. Eles usam a seguinte terminologia:R2
Seus resultados estão resumidos no resumo:
onde N é o tamanho da amostra ep é o número de preditores.
Estimativas empíricas de ajustes ao quadrado R
Referências
fonte