O coeficiente de correlação geralmente é escrito com maiúsculo, mas às vezes não. Gostaria de saber se realmente existe uma diferença entre e ? pode significar algo além de um coeficiente de correlação?r 2 R 2 r
correlation
terminology
r-squared
DJack
fonte
fonte
Respostas:
A notação sobre esse assunto parece variar um pouco.
é usado no contexto de correlação múltipla e é chamado de "coeficiente de correlação múltipla". É a correlação entre as respostas observadas Y e a Y montados pelo modelo. O Y é geralmente previsto a partir de várias variáveis de previsão X i , por exemplo, Y = β 0 + β 1 X 1 + β 2 X 2 , onde os coeficientes e do declive p i foram calculados a partir dos dados. Note que 0R Y Y^ Y^ Xi Y^=β^0+β^1X1+β^2X2 β^i .0≤R≤1
O símbolo é o "coeficiente de correlação da amostra" usado no caso bivariado - ou seja, existem duas variáveis, X e Y - e geralmente significa a correlação entre X e Y na sua amostra. Você pode tratar isso como uma estimativa da correlação ρ entre as duas variáveis na população em geral. Para correlacionar duas variáveis, não é necessário identificar qual é o preditor e qual é a resposta. De fato, se você encontrasse a correlação entre Y e X , seria a mesma correlação entre X e Y , porque a correlação é simétricar X Y X Y ρ Y X X Y . Observe que quando o símbolo r é usado dessa maneira, com r < 0 (correlação negativa) se as duas variáveis tiverem uma relação linearmente decrescente (quando uma aumenta, a outra tende a diminuir).−1≤r≤1 r r<0
Onde a notação se torna inconsistente é quando existem duas variáveis, e Y , e uma regressão linear simples é realizada. Isto significa identificar uma variável, Y , como a variável de resposta, e o outro, X , como a variável de previsão, e ajustar o modelo Y = β 0 + β 1 X . Algumas pessoas também usam o símbolo r para indicar a correlação entre Y e Y , enquanto outros (para consistência com regressão múltipla) write RX Y Y X Y^=β^0+β^1X r Y Y^ R . Observe que a correlação entre as respostas observadas e as ajustadas é necessariamente maior ou igual a zero. Esta é uma razão que não fazer, como o uso do símbolo neste caso: a correlação entre X e Y pode ser negativo, enquanto que a correlação entre Y e Y é positivo (na verdade, será simplesmente o módulo do correlação entre X e Y ), mas ambos podem ser escritos com o símbolo r . Eu já vi alguns livros didáticos e artigos da Wikipedia alternando quase de forma intercambiável entre os dois significados de r e achei desnecessariamente confuso. Eu prefiro usar o símbolo Rr X Y Y Y^ X Y r r R para a correlação entre e Y em ambos regressão simples e múltipla.Y Y^
Em ambos simples e regresión múltiplo, então, desde que não é um termo intercepção montado no modelo, o entre Y e Y é simplesmente a raiz quadrada do coeficiente de determinação R 2R Y Y^ R2 (muitas vezes chamado "proporção da variância explicada" ou semelhante). No caso de regressão linear simples especificamente, em seguida, R2=r2 onde Eu estou escrevendo para a correlação entre X e Y , e R 2 pode representar quer o coeficiente de determinação da regressão ou o quadrado da correlação entrer X Y R2 e Y . Como - 1 ≤ r ≤ 1 e 0 ≤ R ≤ 1 , isso significa que R = | r | . Assim, por exemplo, se obtenha uma correlação entre X e Y de r = - 0,7 , em seguida, a correlação entre Y e o equipada Y a partir da regressão linear simples Y = β 0 + β 1 XY Y^ −1≤r≤1 0≤R≤1 R=|r| X Y r=−0.7 Y Y^ Y=β^0+β^1X seria e o coeficiente de determinação seria R 2 = 0,49, ou seja, quase metade da variação na resposta seria explicada pelo seu modelo.R=0.7 R2=0.49
Se nenhum termo intercepção foi incluída no modelo, então o símbolo é ambíguo. Ele geralmente é planejado como o coeficiente de determinação, mas isso geralmente será calculado de uma maneira diferente da usual , portanto, tenha cuidado ao ler a saída do seu software estatístico. Então não é mais o mesmo que o quadrado da correlação múltipla R , nem no caso bivariado será igual a r 2 !R2 R r2
fonte