Por que

Esta pode ser uma pergunta básica, mas eu queria saber por que um $R$ valor em um modelo de regressão pode simplesmente ser elevado ao quadrado para dar uma figura da variação explicada?

Eu entendo que $R$ coeficiente pode dar a força de um relacionamento, mas não entendo como o simples quadrado desse valor fornece uma medida da variação explicada.

Alguma explicação fácil para isso?

Muito obrigado por ajudar com isso!

regression correlation r-squared David
fonte

Você está procurando algo intuitivo ou mais matemático? Você já olhou através de alguns dos outros perguntas sobre

e coeficientes de correlação neste site?

R^{2}

$R^2$

cardeal

Duas questões relacionadas estão aqui e aqui , por exemplo. Se você brincar com as equações, poderá derivar a equivalência matemática. Mas, provavelmente, nenhum dos dois será particularmente útil do ponto de vista da intuição.

cardeal

Eu vejo isso da maneira oposta. É R quadrado que é definido como 1 - variação residual / variação total e, em seguida, R é a raiz quadrada positiva disso. Acontece que, quando temos regressão linear simples, o quadrado R reduz ao quadrado do coeficiente de correlação.

Michael R. Chernick

@ Michael, você sem dúvida pretendeu dizer a raiz quadrada adequadamente assinada, e não a raiz positiva .

cardeal

@ cardinal, tenho a mesma impressão -

(ou

) refere-se ao coeficiente de correlação da amostra e ficaria surpreso ao ver uma referência amplamente usada que a usa para se referir ao valor absoluto da correlação da amostra

R

$R$

r

$r$

Macro

Respostas:

Mão-wavingly, a correlação pode ser pensado como uma medida do ângulo entre dois vectores, o vector dependente e o vector independente . Se o ângulo entre os vetores é , a correlação é . A parte de explicada por é de comprimento e é paralelo a (ou a projeção de em $R$ $Y$ $X$ $\theta$ $R$ $\cos(\theta)$ $Y$ $X$ $||Y||\cos(\theta)$ $X$ $Y$ $X$ ). A parte que não é explicada é de comprimento e é ortogonal a . Em termos de variâncias, temos onde o primeiro termo à direita é a variância explicada e o segundo a variância inexplicável. A fracção que é explicado é, portanto, , não . $||Y||\sin(\theta)$ $X$

σ_{Y}^{2} = σ_{Y}^{2} \cos^{2} (θ) + σ_{Y}^{2} \sin^{2} (θ)

$\sigma_Y^2 = \sigma_Y^2\cos^2(\theta) + \sigma_Y^2\sin^2(\theta)$

R^{2}

$R^2$

R

$R$

Dilip Sarwate
fonte

(+1) Não muita coisa acontecendo aqui realmente. O ponto de vista geométrico é o mais intuitivo, na minha opinião. É provável que exista uma figura de código aberto de alta qualidade que descreva as coisas exatamente dessa maneira.

cardeal

c o r (y, \hat{y})^{2}

${\rm cor}(y,\hat{y})^2$

R^{2}

$R^2$

Isso não responde à pergunta, mas mostra como o quadrado R é mencionado como o quadrado do coeficiente de correlação sem nenhuma referência a R. Portanto, pode ser difícil encontrar fontes que confirmem ou refutem minha afirmação. Isto é de um artigo sobre o coeficiente de determinação na Wikipedia:

Michael R. Chernick 10/12/12

Como coeficiente de correlação ao quadrado Da mesma forma, após a regressão de mínimos quadrados com um modelo constante + linear (isto é, regressão linear simples), R2 é igual ao quadrado do coeficiente de correlação entre os valores de dados observados e modelados (previstos).

Michael R. Chernick

Sob condições gerais, um valor R2 às vezes é calculado como o quadrado do coeficiente de correlação entre os valores de dados originais e modelados. Nesse caso, o valor não é diretamente uma medida de quão bons são os valores modelados, mas uma medida de quão bom um preditor pode ser construído a partir dos valores modelados (criando um preditor revisado da forma α + βƒi). Segundo Everitt (2002, p. 78), esse uso é especificamente a definição do termo "coeficiente de determinação": o quadrado da correlação entre duas variáveis (gerais).

Michael R. Chernick