Relações entre

40

Digamos que eu tenha duas matrizes unidimensionais, a1 e a2 . Cada um contém 100 pontos de dados. a1 são os dados reais, e a2 é a previsão do modelo. Nesse caso, o valor de R2 seria:

R2=1SSresSStot  (1).
Enquanto isso, isso seria igual ao valor quadrado do coeficiente de correlação,
R2=(Correlation Coefficient)2(2).
Agora, se eu trocar os dois:a2 é o dado real ea1 é a previsão do modelo. Da equação(2) , como o coeficiente de correlação não se importa com o que vem primeiro, ovalor deseria o mesmo. No entanto, a partir da equação,, ovalor irá mudar, porque ofoi alterado se mudardepara; Enquanto isso,não muda. ( 1 ) S S t S t = Σ i ( y i - ˉ y ) 2 R 2 S S t S t y a 1 um 2 S S r e s = Σ i ( f i - ˉ y ) 2R2(1)SStot=i(yiy¯)2R2SStotya1a2SSres=i(fiy¯)2

Minha pergunta é: como isso pode se contradizer?

Editar :

  1. Fiquei me perguntando isso, será que o relacionamento na Eq. (2) ainda permanece, se não for uma regressão linear simples, ou seja, a relação entre IV e DV não é linear (poderia ser exponencial / log)?

  2. Esse relacionamento ainda permanecerá, se a soma dos erros de previsão não for igual a zero?

Shawn Wang
fonte
Achei esta apresentação muito útil e não técnica: google.com/…
ihadanny 22/09/2015

Respostas:

19

Isso é verdade que vai mudar ... mas você esqueceu o fato de que a soma de regressão dos quadrados de mudará também. Então, vamos considerar o modelo de regressão simples e denotar o coeficiente de correlação como r 2 x y = S 2 x ySStot , onde utilizado o sub-índicexypara salientar o facto de quexé a variável independente eyé a variável dependente. Obviamente,r2 x y é inalterado se você trocarxcomy. Podemos facilmente mostrar queSSRxY=SYY(R2 x y ), ondeSSRxyé a soma de regressão dos quadrados e rxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxy é a soma total dos quadrados em que x é independente e y é variável dependente. Portanto: R 2 x y = S S R x ySyyxyondeSSExyé a soma residual dos quadrados correspondente em quexé independente eyé variável dependente. Observe que, neste caso, temosSSExy=b2 x y Sxxcomb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx (Veja, por exemplo, a Eq. (34) - (41)aqui.) Portanto:R2 x y =Syy- S 2 x yb=SxySxxClaramente, a equação acima é simétrica em relação axey. Por outras palavras:R2 x y =R2 Y x . Para resumir quando você alteraxcomyno modelo de regressão simples, numerador e denominador deR2 x y =SSRxy
Rxy2=Syy-Sxy2Sxx2.SxxSyy=SyySxx-Sxy2Sxx.Syy.
xy
Rxy2=Ryx2.
xy irá mudar de uma maneira queR2 x y =R2 Y x .Rxy2=SSRxySyyRxy2=Ryx2.
Stat
fonte
Muito obrigado! Percebi que isso pode estar errado: só permanece se 1) a previsão do modelo for uma linha reta e 2) a média da previsão do modelo for igual à média dos pontos da amostra. Se o relacionamento entre o DV e IV não for uma linha reta ou a soma dos erros de previsão for diferente de zero, o relacionamento não será válido. Você poderia me informar se isso está correto? R2=r2
Shawn Wang
1
Eu pensei sobre isso, porque você tem sido usando , enquanto eu estava usando a equação eu postei no OP. Essas duas equações são equivalentes apenas quando a soma dos erros de previsão é zero. Portanto, no meu OP, S S r e s = i ( f i - ˉ y ) 2 não muda enquanto S S t o t mudou e, portanto, o R 2R2=SSreg/SStotSSres=Eu(fEu-y¯)2SStotR2Mudou.
Shawn Wang
Você tem uma referência sobre como resolver isso no caso geral de gaussianos com variabilidade p?
jmb
26

Uma maneira de interpretar o coeficiente de determinação é olhar para isto como o Coeficiente de Correlação quadrado de Pearson entre os valores observados y i e os valores ajustados y i .R2yEuy^Eu

A prova completa de como derivar o coeficiente de determinação R2 do coeficiente de correlação ao quadrado de Pearson entre os valores observados yi e os valores ajustados y ^ i pode ser encontrada no seguinte link:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

Aos meus olhos, deve ser bem fácil de entender, basta seguir os passos únicos. Acho que é essencial entender como a relação entre as duas figuras-chave realmente funciona.

Andreas Dibiasi
fonte
6

Em caso de regressão linear simples com apenas um preditor . Porém, na regressão linear múltipla com mais de um preditores, o conceito de correlação entre os preditores e a resposta não se estende automaticamente. A fórmula obtém: R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

O quadrado da correlação entre a resposta e o modelo linear ajustado.

um homem
fonte
5

O @Stat forneceu uma resposta detalhada. Na minha resposta curta, mostrarei brevemente de uma maneira um pouco diferente qual é a semelhança e a diferença entre e r 2 .rr2

é o coeficiente de regressão padronizadobetade Y por X ou de X por Y e, como tal, é uma medida dotamanho do efeito(mútuo). O que é mais claramente visto quando as variáveis ​​são dicotômicas. Então r , por exemplo, .30 significa que 30% dos casos alteram seu valor para oposto em uma variável quando a outra variável altera seu valor para o oposto.rYXXYr.30

, por outro lado, é a expressão daproporção de co-variabilidadena variabilidade total: r 2 = ( c o vr2 . Observe que este é um produto de duas proporções, ou, mais precisamente, duas proporções (uma proporção pode ser> 1). Se, de maneira vaga, implicar que qualquer proporção ou razão seja quase probabilidade ou propensão, entãor2expressa "probabilidade conjunta (propensão)". Outra expressão válida para o produto conjunto de duas proporções (ou proporções) seria sua média geométrica,r2=(covσxσy)2=|cov|σx2|cov|σy2r2 , que é muitor.proppropr

(Os dois índices são multiplicativos, não aditivo, para sublinhar a ideia de que eles colaboram e não pode compensar o outro, em seu trabalho de equipe. Eles têm que ser multiplicativo porque a magnitude do depende tanto magnitudes σ 2 x e σ 2 y e, conformably, c o v tem de ser dividido duas vezes em uma vez - a fim de converter-se a uma "proporção da variância compartilhada" adequada Mas. c o v , o "cross-variância", as ações da mesma medição unidades com ambos σ 2 x e σ 2covσx2σy2covcovσx2 , as "auto-variações", enãocomσxσy, a "variação híbrida"; é por isso quer2, e nãor, é mais adequado como a "proporção da variação compartilhada".)σy2σxσyr2r

Portanto, você vê que o significado de e r 2 como uma medida da quantidade da associação é diferente (ambos os significados válidos), mas ainda assim esses coeficientes não se contradizem. E ambos são o mesmo se você prever Y ~ X ou X ~ Y .rr2Y~XX~Y

ttnphns
fonte
R2R2R2
Coeficiente de determinação ou R-quadrado é um conceito mais amplo que r ^ 2, que trata apenas de regressão linear simples. Por favor, leia wikipedia en.wikipedia.org/wiki/Coefficient_of_determination .
precisa saber é o seguinte
Obrigado novamente! Isso eu entendo. Minha pergunta é: para regressões mais complexas, ainda posso elevar o valor de r para obter o coeficiente de determinação?
Shawn Wang
1
Para uma "regressão complexa", você obtém R-quadrado, mas não obtém r.
precisa saber é o seguinte
1

R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

R2R2

R2r2R2rρ

Nick Stauner
fonte
1
R2=0.1468SSR>SSTR2R2