Existe alguma diferença entre e ?

21

O coeficiente de correlação geralmente é escrito com maiúsculo, mas às vezes não. Gostaria de saber se realmente existe uma diferença entre e ? pode significar algo além de um coeficiente de correlação?r 2 R 2 rRr2R2r

DJack
fonte
7
Estou surpreso que esta pergunta tenha sido votada com baixa pontuação - é clara e bem especificada e cobre um problema em que a terminologia é usada de maneiras inconsistentes. Pior, porque diferencia maiúsculas de minúsculas, é um tópico difícil de procurar esclarecimentos! Afora o fato de que r pode ser usada para duas coisas bem diferentes, a situação torna-se ainda pior quando consideramos modelos sem termos de interceptação, quando R2 , o coeficiente de determinação, não é ainda o mesmo que o quadrado de R . Não é surpresa que as pessoas achem a notação confusa.
Silverfish

Respostas:

18

A notação sobre esse assunto parece variar um pouco.

é usado no contexto de correlação múltipla e é chamado de "coeficiente de correlação múltipla". É a correlação entre as respostas observadas Y e a Y montados pelo modelo. O Y é geralmente previsto a partir de várias variáveis de previsão X i , por exemplo, Y = β 0 + β 1 X 1 + β 2 X 2 , onde os coeficientes e do declive p i foram calculados a partir dos dados. Note que 0RYY^Y^XiY^=β^0+β^1X1+β^2X2β^i .0R1

O símbolo é o "coeficiente de correlação da amostra" usado no caso bivariado - ou seja, existem duas variáveis, X e Y - e geralmente significa a correlação entre X e Y na sua amostra. Você pode tratar isso como uma estimativa da correlação ρ entre as duas variáveis ​​na população em geral. Para correlacionar duas variáveis, não é necessário identificar qual é o preditor e qual é a resposta. De fato, se você encontrasse a correlação entre Y e X , seria a mesma correlação entre X e Y , porque a correlação é simétricarXYXYρYXXY. Observe que quando o símbolo r é usado dessa maneira, com r < 0 (correlação negativa) se as duas variáveis ​​tiverem uma relação linearmente decrescente (quando uma aumenta, a outra tende a diminuir).1r1rr<0

Onde a notação se torna inconsistente é quando existem duas variáveis, e Y , e uma regressão linear simples é realizada. Isto significa identificar uma variável, Y , como a variável de resposta, e o outro, X , como a variável de previsão, e ajustar o modelo Y = β 0 + β 1 X . Algumas pessoas também usam o símbolo r para indicar a correlação entre Y e Y , enquanto outros (para consistência com regressão múltipla) write RXYYXY^=β^0+β^1XrYY^R. Observe que a correlação entre as respostas observadas e as ajustadas é necessariamente maior ou igual a zero. Esta é uma razão que não fazer, como o uso do símbolo neste caso: a correlação entre X e Y pode ser negativo, enquanto que a correlação entre Y e Y é positivo (na verdade, será simplesmente o módulo do correlação entre X e Y ), mas ambos podem ser escritos com o símbolo r . Eu já vi alguns livros didáticos e artigos da Wikipedia alternando quase de forma intercambiável entre os dois significados de r e achei desnecessariamente confuso. Eu prefiro usar o símbolo RrXYYY^XYrrRpara a correlação entre e Y em ambos regressão simples e múltipla.YY^

Em ambos simples e regresión múltiplo, então, desde que não é um termo intercepção montado no modelo, o entre Y e Y é simplesmente a raiz quadrada do coeficiente de determinação R 2RYY^R2 (muitas vezes chamado "proporção da variância explicada" ou semelhante). No caso de regressão linear simples especificamente, em seguida, R2=r2 onde Eu estou escrevendo para a correlação entre X e Y , e R 2 pode representar quer o coeficiente de determinação da regressão ou o quadrado da correlação entrerXYR2 e Y . Como - 1 r 1 e 0 R 1 , isso significa que R = | r | . Assim, por exemplo, se obtenha uma correlação entre X e Y de r = - 0,7 , em seguida, a correlação entre Y e o equipada Y a partir da regressão linear simples Y = β 0 + β 1 XYY^1r10R1R=|r|XYr=0.7YY^Y=β^0+β^1Xseria e o coeficiente de determinação seria R 2 = 0,49, ou seja, quase metade da variação na resposta seria explicada pelo seu modelo.R=0.7R2=0.49

Se nenhum termo intercepção foi incluída no modelo, então o símbolo é ambíguo. Ele geralmente é planejado como o coeficiente de determinação, mas isso geralmente será calculado de uma maneira diferente da usual , portanto, tenha cuidado ao ler a saída do seu software estatístico. Então não é mais o mesmo que o quadrado da correlação múltipla R , nem no caso bivariado será igual a r 2 !R2Rr2

Silverfish
fonte