Adicionar um preditor de regressão linear diminui R ao quadrado

10

Meu conjunto de dados ( ) possui uma variável dependente (DV), cinco variáveis ​​independentes "de linha de base" (P1, P2, P3, P4, P5) e uma variável independente de interesse (Q).N10,000

Executei regressões lineares OLS para os dois modelos a seguir:

DV ~ 1 + P1 + P2 + P3 + P4 + P5
                                  -> R-squared = 0.125

DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q
                                  -> R-squared = 0.124

Ou seja, adicionar o preditor Q diminuiu a quantidade de variação explicada no modelo linear. Tanto quanto eu entendo, isso não deveria acontecer .

Para ficar claro, esses são valores ao quadrado R e não ajustados ao quadrado R.

Eu verifiquei os valores do quadrado R usando os modelos de estatísticas do Jasp e do Python .

Existe alguma razão para eu estar vendo esse fenômeno? Talvez algo relacionado ao método OLS?

Cai
fonte
11
questões numéricas? Os números são muito próximos uns dos outros ...
@ user2137591 É isso que estou pensando, mas não tenho idéia de como verificar isso. A diferença absoluta nos valores do quadrado R é 0,000513569, que é pequeno, mas não tão pequeno.
Cai4
11
Espero que você conheça álgebra linear: se é a matriz de design acima, você poderia calcular , em que é a matriz de transposição e é a matriz determinante? XdetXTXTdet
Clarinetist
8
Valores ausentes são descartados automaticamente?
generic_user
11
0.000513569 é um número muito pequeno: é uma variação de 0,41%. É muito possivelmente uma questão numérica. O Clarinetist está tentando dizer é que talvez a sua matriz de projeto tem um número mau estado e quando invertendo é numericamente instável ...

Respostas:

25

Será que você tem valores ausentes Qque estão sendo descartados automaticamente? Isso teria implicações na amostra, tornando as duas regressões não comparáveis.

generic_user
fonte