Quando R ao quadrado é negativo?

77

Meu entendimento é que não pode ser negativo, pois é o quadrado de R. No entanto, executei uma regressão linear simples no SPSS com uma única variável independente e uma variável dependente. Minha saída do SPSS me fornece um valor negativo para . Se eu fosse calcular isso manualmente a partir de R, então seria positivo. O que o SPSS fez para calcular isso como negativo?R2R2R2

R=-.395
R squared =-.156
B (un-standardized)=-1261.611

Código que eu usei:

DATASET ACTIVATE DataSet1. 
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA 
           /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN 
           /DEPENDENT valueP /METHOD=ENTER ageP

Eu recebo um valor negativo. Alguém pode explicar o que isso significa?

RS negativo

insira a descrição da imagem aqui

Anne
fonte
3
Isso responde sua pergunta? stats.stackexchange.com/questions/6181/… Caso contrário, forneça mais informações: esta é a "saída SPSS" de qual procedimento?
whuber
2
Seu modelo de regressão linear possui um intercepto?
NPE
2
@ Anne Mais uma vez, qual procedimento SPSS você está usando?
whuber
1
@ Anne Eu sugiro que você desconsidere a resposta da série temporal, porque seus dados não são séries temporais e você não está usando um procedimento de série temporal. Você tem certeza de que R ao quadrado é dado como um valor negativo? Sua magnitude está correta: . Examinei a ajuda do SPSS para ver se, talvez por convenção, o valor do quadrado R para R's negativos é negado, mas não vejo nenhuma evidência de que esse seja o caso. Talvez você possa postar uma captura de tela da saída em que está lendo o quadrado-R? (0.395)2=0.156
whuber
1
A variável dependente é o preço das casas, portanto, é possível que o IC95% talvez 120.000. Infelizmente, não posso postar os dados aqui, pois isso seria contrário às condições de uso de dados.
Anne

Respostas:

106

R2 compara o ajuste do modelo escolhido com o de uma linha reta horizontal (a hipótese nula). Se o modelo escolhido se encaixar pior que uma linha horizontal, então é negativo. Observe que nem sempre é o quadrado de qualquer coisa, portanto pode ter um valor negativo sem violar nenhuma regra de matemática. é negativo apenas quando o modelo escolhido não segue a tendência dos dados; portanto, se encaixa pior que uma linha horizontal.R2R2R2

Exemplo: ajuste os dados a um modelo de regressão linear restrito para que a interceptação em seja igual a .Y1500

insira a descrição da imagem aqui

O modelo não faz nenhum sentido, dados esses dados. É claramente o modelo errado, talvez escolhido por acidente.

O ajuste do modelo (uma linha reta restrita a passar pelo ponto (0,1500)) é pior que o ajuste de uma linha horizontal. Portanto, a soma dos quadrados do modelo é maior que a soma dos quadrados da linha horizontal . é calculado como . Quando é maior que , essa equação calcula um valor negativo para .(SSreg)(SStot)R21SSregSStotSSregSStotR2

Com regressão linear sem restrições, deve ser positivo (ou zero) e igual ao quadrado do coeficiente de correlação, . Um negativo só é possível com regressão linear quando a interceptação ou a inclinação são restringidas, de modo que a linha de "melhor ajuste" (dada a restrição) se encaixe pior que uma linha horizontal. Com a regressão não linear, o pode ser negativo sempre que o modelo de melhor ajuste (dada a equação escolhida e suas restrições, se houver) se ajusta aos dados pior que uma linha horizontal.R2rR2R2

Conclusão: um negativo não é uma impossibilidade matemática ou o sinal de um bug do computador. Significa simplesmente que o modelo escolhido (com suas restrições) se ajusta muito mal aos dados.R2

Harvey Motulsky
fonte
3
@JMS Esse é o oposto do que meu Google indica: "/ ORIGIN" fixa a interceptação em 0; "/ NOORIGIN" "diz ao SPSS para não suprimir a constante" ( Um Guia Introdutório ao SPSS para Windows )
whuber
10
@whuber Correto. @ harvey-motulsky Um valor R ^ 2 negativo é uma impossibilidade matemática (e sugere um bug no computador) para a regressão OLS regular (com uma interceptação). É isso que o comando 'REGRESSION' faz e o que o pôster original está perguntando. Além disso, para a regressão OLS, R ^ 2 é a correlação ao quadrado entre os valores previstos e os observados. Portanto, deve ser não negativo. Para regressão OLS simples com um preditor, isso é equivalente à correlação ao quadrado entre o preditor e a variável dependente - novamente, isso deve ser não negativo.
Wolfgang
1
@whuber De fato. Minha culpa; obviamente, eu não uso SPSS - ou ler, aparentemente :)
JMS
1
@whuber. Adicionei um parágrafo apontando que, com regressão linear, R2 pode ser negativo apenas quando a interceptação (ou talvez a inclinação) é restrita. Sem restrições, o R2 deve ser positivo e igual ao quadrado de r, o coeficiente de correlação.
Harvey Motulsky
1
@ HarveyMotulsky, neste caso, a interceptação ou a inclinação não foram restringidas. Parece que você está dizendo que o Rsquared só pode ser negativo se houver restrições. Você pode elaborar o que pode ter ocorrido nesse caso específico?
217 Anne
18

Você esqueceu de incluir um intercepto em sua regressão? Não estou familiarizado com o código SPSS, mas na página 21 da Econometria de Hayashi:

Se os regressores não incluem uma constante, mas (como alguns pacotes de software de regressão), você calcula pela fórmulaR2

R2=1i=1nei2i=1n(yiy¯)2

então o pode ser negativo. Isso ocorre porque, sem o benefício de uma interceptação, a regressão pode ser pior que a média da amostra em termos de rastreamento da variável dependente (ou seja, o numerador pode ser maior que o denominador).R2

Eu verificaria e garantiria que o SPSS esteja incluindo uma interceptação em sua regressão.

jefflovejapan
fonte
4
NOORIGIN subcomando em seu código diz que intercepção foi incluída no modelo
ttnphns
2
isso é estranho. Eu teria imaginado que NOORIGINisso significaria que a interceptação não foi incluída no modelo, apenas excluindo o nome.
Matt O'Brien
6

Isso pode acontecer se você tiver uma série temporal que é Niid e construir um modelo ARIMA inadequado da forma (0,1,0), que é um modelo de caminhada aleatória de primeira diferença sem desvio, e a variação (soma dos quadrados - SSE) dos resíduos será maior que a variação (soma dos quadrados SSO) da série original. Assim, a equação 1-SSE / SSO produzirá um número negativo à medida que o SSE executa o SSO. Vimos isso quando os usuários simplesmente ajustam um modelo assumido ou usam procedimentos inadequados para identificar / formar uma estrutura ARIMA apropriada. A mensagem maior é que um modelo pode distorcer (muito parecido com um par de óculos ruins) sua visão. Sem ter acesso aos seus dados, eu teria um problema ao explicar seus resultados defeituosos. Você trouxe isso à atenção da IBM?

A ideia de um modelo assumido como contraproducente foi ecoada por Harvey Motulsky. Ótimo post Harvey!

IrishStat
fonte
1
Estado. Obrigado. Não, eu não falei com a IBM. Os dados não são séries temporais. É a partir de dados pontuais.
1111 Anne
5
@ Anne e outros: como seus dados não são séries temporais e você não está usando um procedimento de série temporal, desconsidere minha resposta. Outros que observaram quadrados R negativos quando envolvidos com séries temporais podem achar meu post interessante e informativo tangencialmente. Outros, infelizmente, não podem.
IrishStat
@IrishStat: Você poderia adicionar um link para o post de Harvey Motulsky?
Kjetil b halvorsen
Harvey respondeu à pergunta aqui.
precisa saber é o seguinte