Se eu repetir todas as observações de amostra em um modelo de regressão linear e executar novamente a regressão, como o resultado seria afetado?

15

Digamos que eu tenha N observações, possivelmente vários fatores, e repito cada observação duas vezes (ou M vezes). Como uma regressão nesse novo conjunto de tamanho NM se compara a uma regressão apenas nas observações originais?

Palace Chan
fonte

Respostas:

13

Conceitualmente, você não está adicionando informações "novas", mas "conhece" essas informações com mais precisão.

Isso resultaria nos mesmos coeficientes de regressão, com erros padrão menores.

Por exemplo, no Stata, a função de expansão x duplica cada observação x vezes.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Como você pode ver, os coeficientes (comprimento) anteriormente insignificantes se tornam estatisticamente significativos no modelo expandido, representando a precisão com a qual você "sabe" o que sabe.

pmgjones
fonte
Sim, os erros padrão realmente diminuem. Alguns recomendam regressão linear ponderada para isso. Existe um método usado para corrigir isso?
BBDynSys 13/03/2015
3

W=argminW||XW-y||2
XyMM
Innuo
fonte
Concordo, mas acho que as estatísticas e os erros padrão devem mudar devido à mudança de N para NM?
Palace Chan
MN-PNPM