Por que

12

Esta pode ser uma pergunta básica, mas eu queria saber por que um R valor em um modelo de regressão pode simplesmente ser elevado ao quadrado para dar uma figura da variação explicada?

Eu entendo que R coeficiente pode dar a força de um relacionamento, mas não entendo como o simples quadrado desse valor fornece uma medida da variação explicada.

Alguma explicação fácil para isso?

Muito obrigado por ajudar com isso!

David
fonte
Você está procurando algo intuitivo ou mais matemático? Você já olhou através de alguns dos outros perguntas sobre e coeficientes de correlação neste site? R2
cardeal
1
Duas questões relacionadas estão aqui e aqui , por exemplo. Se você brincar com as equações, poderá derivar a equivalência matemática. Mas, provavelmente, nenhum dos dois será particularmente útil do ponto de vista da intuição.
cardeal
Eu vejo isso da maneira oposta. É R quadrado que é definido como 1 - variação residual / variação total e, em seguida, R é a raiz quadrada positiva disso. Acontece que, quando temos regressão linear simples, o quadrado R reduz ao quadrado do coeficiente de correlação.
Michael R. Chernick
@ Michael, você sem dúvida pretendeu dizer a raiz quadrada adequadamente assinada, e não a raiz positiva .
cardeal
1
@ cardinal, tenho a mesma impressão - (ou r ) refere-se ao coeficiente de correlação da amostra e ficaria surpreso ao ver uma referência amplamente usada que a usa para se referir ao valor absoluto da correlação da amostraRr
Macro

Respostas:

15

Mão-wavingly, a correlação pode ser pensado como uma medida do ângulo entre dois vectores, o vector dependente Y e o vector independente X . Se o ângulo entre os vetores é θ , a correlação R é cos ( θ ) . A parte de Y explicada por X é de comprimento | | Y | | cos ( θ ) e é paralelo a X (ou a projeção de Y em X | | Y | |RYXθRcos(θ)YX||Y||cos(θ)XYX ). A parte que não é explicada é de comprimento e é ortogonal a X . Em termos de variâncias, temos σ 2 Y = σ 2 Y cos 2 ( θ ) + σ 2 Y sin 2 ( θ ) onde o primeiro termo à direita é a variância explicada e o segundo a variância inexplicável. A fracção que é explicado é, portanto, R 2 , não I .||Y||sin(θ)X

σY2=σY2cos2(θ)+σY2sin2(θ)
R2R
Dilip Sarwate
fonte
2
(+1) Não muita coisa acontecendo aqui realmente. O ponto de vista geométrico é o mais intuitivo, na minha opinião. É provável que exista uma figura de código aberto de alta qualidade que descreva as coisas exatamente dessa maneira.
cardeal
cor(y,y^)2R2
1
Isso não responde à pergunta, mas mostra como o quadrado R é mencionado como o quadrado do coeficiente de correlação sem nenhuma referência a R. Portanto, pode ser difícil encontrar fontes que confirmem ou refutem minha afirmação. Isto é de um artigo sobre o coeficiente de determinação na Wikipedia:
Michael R. Chernick 10/12/12
Como coeficiente de correlação ao quadrado Da mesma forma, após a regressão de mínimos quadrados com um modelo constante + linear (isto é, regressão linear simples), R2 é igual ao quadrado do coeficiente de correlação entre os valores de dados observados e modelados (previstos).
Michael R. Chernick
Sob condições gerais, um valor R2 às vezes é calculado como o quadrado do coeficiente de correlação entre os valores de dados originais e modelados. Nesse caso, o valor não é diretamente uma medida de quão bons são os valores modelados, mas uma medida de quão bom um preditor pode ser construído a partir dos valores modelados (criando um preditor revisado da forma α + βƒi). Segundo Everitt (2002, p. 78), esse uso é especificamente a definição do termo "coeficiente de determinação": o quadrado da correlação entre duas variáveis ​​(gerais).
Michael R. Chernick