A equivalência da correlação amostral e estatística R para regressão linear simples

10

É frequentemente afirmado que o quadrado da correlação da amostra é equivalente ao coeficiente de determinação para regressão linear simples. Eu mesmo não consegui demonstrar isso e gostaria de ter uma prova completa desse fato.r2R2

edwardsm88
fonte
11
Se esta for uma pergunta de auto-estudo, adicione a etiqueta apropriada.
22414 Andy
Esta pergunta também pergunta por que . R2=r2
Silverfish

Respostas:

8

Parece haver alguma variação na notação: em uma regressão linear simples, eu geralmente vistos a frase "coeficiente de correlação amostra" com símbolo como uma referência para a correlação entre os valores observados e valores. Esta é a notação que adotei para esta resposta. Também vi a mesma frase e símbolo usados ​​para se referir à correlação entre observado e ajustado ; na minha resposta eu me referi a isso como o "coeficiente de correlação múltipla" e usou o símbolo . Esta resposta aborda por que o coeficiente de determinação é o quadrado de também o quadrado dex y y y R R Rrxyyy^RrR, portanto, não importa qual uso foi planejado.

O resultado segue uma linha da álgebra quando alguns fatos simples sobre correlação e o significado de são estabelecidos; portanto, você pode preferir pular para a equação em caixa. Presumo que não precisamos provar propriedades básicas de covariância e variância, em particular: Rr2R

Cov(aX+b,Y)=aCov(X,Y)
Var(aX+b)=a2Var(X)

Observe que o último pode ser derivado do primeiro, uma vez que sabemos que a covariância é simétrica e que . A partir daqui, derivamos outro fato básico, sobre correlação. Para , e desde que e tenham variações diferentes de zero,a 0 X YVar(X)=Cov(X,X)a0XY

Cor(aX+b,Y)=Cov(aX+b,Y)Var(aX+b)Var(Y)=aa2×Cov(X,Y)Var(X)Var(Y)Cor(aX+b,Y)=sgn(a)Cor(X,Y)

Aqui é a referência ou função de sinal : seu valor é se e se . Também é verdade que se , mas esse caso não nos interessa: seria uma constante, então em o denominador e não podemos calcular a correlação. Argumentos de simetria vamos generalizar esse resultado, para :sgn ( a ) = + 1 a > 0 sgn ( a ) = - 1 a < 0 sgn ( a ) = 0 a = 0 a X + b Var ( a X + b ) = 0 a ,sgn(a)sgn(a)=+1a>0sgn(a)=1a<0sgn(a)=0a=0aX+bVar(aX+b)=0a,c0

Cor(aX+b,cY+d)=sgn(a)sgn(c)Cor(X,Y)

Não precisaremos dessa fórmula mais geral para responder à pergunta atual, mas a incluo para enfatizar a geometria da situação: ela simplesmente afirma que a correlação permanece inalterada quando uma variável é dimensionada ou traduzida, mas reverte o sinal quando uma variável é refletido.

Precisamos de mais um facto: de um modelo linear incluindo um termo constante, o coeficiente de determinação é o quadrado do múltiplo coeficiente de correlação , que representa a correlação entre as respostas observadas e valores equipada do modelo . Isto aplica-se tanto para múltipla e regressões simples, mas vamos restringir nossa atenção para o simples modelo linear de . O resultado segue a observação de que é uma versão em escala, possivelmente refletida e traduzida do : R Y Y Y = β 0 + β 1 X Y XR2RYY^Y^=β^0+β^1XY^X

R=Cor(Y^,Y)=Cor(β^0+β^1X,Y)=sgn(β^1)Cor(X,Y)=sgn(β^1)r

Então onde o sinal corresponde ao sinal da inclinação estimada, o que garante que não seja negativo. Claramente .R R 2 = R 2R=±rRR2=r2

O argumento anterior foi simplificado por não ter que considerar somas de quadrados. Para conseguir isso, pulei os detalhes da relação entre , na qual normalmente pensamos em termos de soma de quadrados, e , na qual pensamos em correlações de respostas ajustadas e observadas. Os símbolos fazem a relação parecer tautológica, mas esse não é o caso, e a relação se decompõe se não houver um termo de interceptação no modelo! Vou fazer um breve esboço de um argumento geométrico sobre a relação entre e tirada de uma pergunta diferente : o diagrama é desenhado no espaço sujeito dimensional R R 2 = ( R ) 2 R R 2 n X 1 nR2RR2=(R)2RR2n, então cada eixo (não mostrado) representa uma única unidade de observação e as variáveis ​​são mostradas como vetores. As colunas da matriz de design são o vetor (para o termo constante) e o vetor de observações da variável explicativa; portanto, o espaço da coluna é um plano bidimensional.X1n

Vetores no espaço sujeito da regressão múltipla

O ajustado é a projeção ortogonal do observado no espaço da coluna de . Isso significa que o vetor de resíduos é perpendicular ao plano e, portanto, a . O produto escalar é . Como os resíduos somam zero e , então modo que as respostas ajustadas e observadas tem média . As linhas tracejadas no diagrama, e YXe=y-Y^YX 1n0=1Ne=Σ n i = 1 eiYi= ^ Y i +eiΣ n i =e=yy^1n0=1ne=i=1neiYi=Yi^+ei ˉ Y Y- ˉ Y 1N Yi=1nYi=i=1nYi^Y¯YY¯1n θ RY^Y¯1n , são, por conseguinte, as centradas vectores para as respostas observadas e embutidos, e o co-seno do ângulo entre eles é a sua correlação .θR

O triângulo que esses vetores formam com o vetor de resíduos é angular, pois fica no plano, mas é ortogonal a ele. Aplicando Pitágoras:eY^Y¯1ne

YY¯1n2=YY^2+Y^Y¯1n2

Esta é apenas a decomposição da soma dos quadrados, . A fórmula convencional para o coeficiente de determinação é que neste triângulo é modo é de facto o quadrado de . Você pode estar mais familiarizado com a fórmula , que fornece imediatamente , mas observe que é mais geral e (como acabamos de ver) reduzirá para 1 - S S residualSStotal=SSresidual+SSregression 1-sin2θ=cos2θRR2=SS regressão1SSresidualSStotal1sin2θ=cos2θR cos2θ1-SS residualR2=SSregressionSStotalcos2θ SS regressão1SSresidualSStotalSSregressionSStotal se um termo constante for incluído no modelo .

Silverfish
fonte
+1 obrigado pelos esforços de fazer gráficos e matemática agradáveis ​​!!
Haitao Du
4

O é definido como O coeficiente de correlação da amostra ao quadrado: é equivalente, pois é facilmente verificado usando: (ver Verbeek , §2.4)R 2 = V ( y i )R2 r2(yi, y i)=

R2=V^(y^i)V^(yi)=1/(N1)i=1N(y^iy¯)21/(N1)i=1N(yiy¯)2=ESSTSS
V(yi)=V( y i)+V(ei)
r2(yi,y^i)=(i=1N(yiy¯)(y^iy¯))2(i=1N(yiy¯)2)(i=1N(y^iy¯)2)
V^(yi)=V^(y^i)+V^(ei)
Sergio
fonte
Você poderia adicionar mais alguns detalhes. Estou tentando provar isso, mas sem sucesso ...
Um velho no mar.