Porque é que o produto dos coeficientes de regressão bivariada do -ON- linha e -ON- linha igual ao quadrado da correlação?

11

Há modelo de regressão, onde com e , que tem um coeficiente de correlação de .Y=uma+bXuma=1.6b=0,4r=0,60302

Se e são, em seguida, ligado em torno e a equação torna-se onde e , ele também tem uma valor de .XYX=c+dYc=0,4545d=0,9091r0,60302

Espero que alguém possa explicar por que também é .(d×b)0,50,60302

Mike
fonte

Respostas:

17

b=rSDy/SDx e , então .d=rSDx/SDyb×d=r2

Muitos livros de estatística abordariam isso; Eu gosto de Freedman et al., Statistics . Veja também aqui e este artigo da Wikipedia .

Karl
fonte
10

Veja Treze maneiras de analisar o coeficiente de correlação - e especialmente as maneiras 3, 4, 5 que mais lhe interessam.

Curioso
fonte
2
Provavelmente deveria ter sido um comentário. Observe que o link ficou inoperante. Atualizei o link e forneci uma citação completa. Você pode elaborar ou fornecer informações adicionais para que isso ainda seja valioso, mesmo que o link seja desativado novamente?
gung - Restabelece Monica
2
O artigo Rodgers & Nicewander está resumido em nosso site em stats.stackexchange.com/q/70969/22228 .
whuber
3

Lembre-se de que muitos textos introdutórios definem

Sxy=Eu=1n(xEu-x¯)(yEu-y¯)

Em seguida, definindo como x temos S x x = Σ n i = 1 ( x i - ˉ x ) 2 e, similarmente S y y = Σ n i = 1 ( y i - ˉ y ) 2 .yxSxx=Eu=1n(xEu-x¯)2Syy=Eu=1n(yEu-y¯)2

As fórmulas para o coeficiente de correlação , a inclinação da regressão y- on- x (seu b ) e a inclinação da regressão x- on- y (seu d ) são frequentemente dadas como:ryxbxyd

(1)r=SxySxxSyy2)β^y em x=SxySxx(3)β^x em y=SxySyy

Então multiplicar e ( 3 ) indica claramente o quadrado de ( 1 ) :(2)(3)(1)

β^y em xβ^x em y=Sxy2SxxSyy=r2

Alternativamente, os numeradores e denominadores das frações em , ( 2 ) e ( 3 ) são frequentemente divididos por n ou ( n - 1 ), de modo que as coisas sejam enquadradas em termos de amostra ou variações e covariâncias estimadas. Por exemplo, de ( 1 ) , o coeficiente de correlação estimado é apenas a covariância estimada, dimensionada pelos desvios padrão estimados:(1)(2)(3)n(n-1)(1)

4)r=Corr^(X,Y)=Cov^(X,Y)SD(X)^SD(Y)^(5)β^y em x=Cov^(X,Y)Var(X)^(6)β^x em y=Cov^(X,Y)Var(Y)^

Em seguida, descobrimos imediatamente da multiplicação e ( 6 ) que(5)(6)

β^y em xβ^x em y=Cov^(X,Y)2Var(X)^Var(Y)^=(Cov^(X,Y)SD(X)^SD(Y)^)2=r2

Em vez disso, poderíamos ter reorganizado para escrever a covariância como uma correlação "ampliada":(4)

(7)Cov^(X,Y)=rSD(X)^SD(Y)^

(7)(5)(6)β^y em x=rSD^(y)SD^(x)β^x em y=rSD^(x)SD^(y)r2


r=bd=β^y em xβ^x em y

yxxy

r=sgn(β^y em x)β^y em xβ^x em y

sgn+1-1

Silverfish
fonte
1
Você pode achar interessante esta resposta minha, mesmo que não explique explicitamente a pergunta feita aqui.
Dilip Sarwate