Pode

8

A página da Wikipedia sobre R2 diz que pode assumir um valor maior que 1. Eu não vejo como isso é possível.R2

Valores de fora do intervalo de 0 a 1 pode ocorrer, onde ele é usado para medir a concordância entre os valores observados e modeladas e em que os valores "modelados" não são obtidos por regressão linear e dependendo de qual formulação de R 2 é usada. Se a primeira fórmula acima for usada, os valores poderão ser menores que zero. Se a segunda expressão for usada, os valores poderão ser maiores que um.R2R2

Essa citação se refere à "segunda expressão", mas não vejo uma segunda expressão na página.

Existe algum cenário em que pode ser maior do que 1? Estou pensando nesta questão para regressão não linear, mas gostaria de obter uma resposta geral.R2

[Para alguém que está vendo esta página com a pergunta oposta em mente: Sim; pode ser negativo. Isso acontece quando você ajusta um modelo que ajusta os dados pior que uma linha horizontal. Isso geralmente ocorre devido a um erro na seleção de um modelo ou restrições.]R2

Harvey Motulsky
fonte
6
Esse problema já foi tratado pelo menos uma vez neste site stats.stackexchange.com/questions/251337 e imagino que haja mais perguntas relacionadas a ele ou que o expliquem completamente. S S t > S S e
SST(total)=RSS(model)+SSE(error)
SSt>SSe, Isto só é verdade em geral, se o modelo inclui uma intercepção e se a média do erro / residual é 0. Se refere-se, mais simplesmente, a correlação, e não há correcções, então ele deve, efectivamente, ser superior a 1. É que nem sempre é calculado da mesma maneira que uma correlação. R2
Sextus Empiricus
1
Então você tem as duas expressões: é possível que S S m > S S t
R2=1SSe/SSt=SSm/SSt
SSm>SSt
Sexto Empírico
Eu calculo R-quadrado como "1.0 - (absolute_error_variance / dependent_data_variance)" e desde que a variância do erro absoluto não pode ser inferior a zero, em meus cálculos o valor máximo de R-quadrado é de 1,0
James Phillips
2
É peculiaridades como estes que me seguram a pensar que é melhor tomar em geral para ser o quadrado da correlação entre observado e previsto. R2
Nick Cox
Se R ao quadrado mais de um que significa 1 + 1 é maior que 2
Ibrahim

Respostas:

8

Eu encontrei a resposta, então postarei a resposta na minha pergunta. Como Martijn apontou, com regressão linear você pode calcular por duas expressões equivalentes:R2

R2=1SSe/SSt=SSm/SSt

Com a regressão não linear, você não pode somar a soma dos quadrados dos resíduos e a soma dos quadrados da regressão para obter a soma total dos quadrados. Essa equação simplesmente não é verdadeira. Portanto, a equação acima não está correta. Estas duas experessions calcular dois valores diferentes para .R2

A única equação que faz sentido e é (eu acho) usada universalmente é:

R2=1SSe/SSt

Seu valor nunca é maior que 1,0, mas pode ser negativo quando você ajusta o modelo errado (ou restrições erradas), portanto, (soma dos quadrados dos resíduos) é maior que S S t (soma dos quadrados do diferença entre os valores Y reais e médios).SSeSSt

A outra equação não é usada com regressão não linear:

R2=SSm/SSt

R2SSmSStR2

R2R2

Harvey Motulsky
fonte
Esse último ponto está correto? Considere os dados em uma linha perfeita. Agora considere um modelo que se encaixa exatamente nessa linha. Isso tem SS_m / SS_t = 1. Agora considere o mesmo modelo, mas com um gradiente ligeiramente mais íngreme. Agora, SS_m é um pouco maior e SS_m / SS_t> 1. O modelo é um pouco pior, mas ainda ajusta bem os dados, não "muito mal".
Denziloe 12/03
@Denziloe. Seus dados são perfeitos ou quase perfeitos com uma inclinação positiva. Agora ajuste uma linha de regressão linear com a restrição de que a inclinação seja negativa com uma inclinação menor que -100. O modelo de ajuste caberá pior que uma linha horizontal, portanto, SSe é maior que SSt. Com a primeira equação, o R2 será negativo. Com a segunda equação, R2 será maior que 1. Não, isso não é uma situação realista ou comum.
Harvey Motulsky 13/03
@Denziloe. O modelo ajustará os dados muito mal (pior que a hipótese nula de uma linha horizontal), apenas se você restringir a inclinação ou interceptar um valor que não faz sentido. No seu exemplo, o modelo ajusta bem os dados, melhor do que uma linha horizontal.
Harvey Motulsky 13/03
Desculpe, eu realmente não sigo isso como resposta. No meu exemplo, SS_m / SS_t> +1 - você concorda? E o modelo é um bom ajuste - novamente você concorda? Isso parece contradizer sua afirmação: "R2 pode ser maior que 1 somente quando ... o modelo escolhido se encaixa muito mal nos dados".
Denziloe 13/03
@Denziloe Por favor, envie alguns dados e ajustes reais, para que possamos entender o que você quer dizer.
Harvey Motulsky 13/03
4

R2=1SSe/SStSSe=0R2=1

AlexR
fonte
1
Isso não é verdade em geral e só é válido quando a variação do modelo é menor que a variação do erro. Como exemplo, faça uma regressão linear sem um coeficiente de interceptação.
Alex R.
R2