Coeficiente de correlação da base de Pearson

8

O coeficiente de correlação de Pearson é calculado usando a fórmula . Como essa fórmula contém as informações de que as duas variáveisXeYestão correlacionadas ou não? Ou, como obtemos essa fórmula para o coeficiente de correlação?r=cov(X,Y)var(X)var(Y)XY

pranphy
fonte

Respostas:

8

O que importa é . Denominadorcov(X,Y) é para se livrar das unidades de medida (se digamosXé medido em metros eYem kg, em seguida,cov(X,Y)é medido em quilograma-metro, que é difícil compreender) e para a normalização (cór(X,Y)var(X)var(Y)XYcov(X,Y)cor(X,Y) situa-se entre -1 e 1 o que valores variável tiver).

Agora, volte para . Isso mostra como as variáveis ​​variam juntas sobre suas médias, portanto,cov(X,Y) a covariância . Vamos dar um exemplo.insira a descrição da imagem aqui

X¯Y¯XiYi(XiX¯)(YiY¯)(XiX¯)(YiY¯)é positivo Pelo contrário, superior esquerdo e inferior direito são áreas em que este produto é negativo.

cov(X,Y)=1n1i=1n(XiX¯)(YiY¯)(XiX¯)(YiY¯)(X¯,Y¯)

Como última nota, a covariância mostra apenas a força de um relacionamento linear . Se o relacionamento não é linear, a covariância não é capaz de detectá-lo.

danas.zuokas
fonte
covariance shows only the strength of a linear relationshipIsso não é verdade. Cov é sensível tanto à força da linearidade quanto à magnitude da variação. Tome X e Y, estritamente linearmente relacionados. Em seguida, separe dois pontos extremos em X, para aumentar var (X). A nuvem bivariada não é mais linear - é apenas monotônica; ainda assim, cov (X, Y) se tornou maior! No entanto, se agora trouxermos de volta a soma var (X) + var (Y) à sua quantidade inicial, cov (X, Y) cairá abaixo e abaixo do valor inicial, refletindo o fato de que anteriormente alteramos a linearidade.
precisa
Uau, isso é interessante.
21412 Danças.zuokas
3

SCP(X,Y)SS(X)SS(Y)

Agora, cosseno é a medida da proporcionalidade ; cos (X, Y) = 1 quando e somente quando Xi = kYi , ou seja, quando todos os pontos ( i ) estão em uma linha reta proveniente da origem do sistema de coordenadas X vs Y. Se a linha não passar pela origem ou os pontos se afastarem da linha reta, cos ficará menor. Como Pearson r é o cos da nuvem que foi centralizada nos eixos X e Y, a linha inevitavelmente passa pela origem; e, portanto, apenas a saída de pontos da linha reta pode diminuir r : r é a medida delinearidade .

ttnphns
fonte
1

Se r = 1, existe correlação linear perfeita, se r = -1, existe correlação linear negativa perfeita, se r = 0, não há correlação linear. A razão pela qual dividimos pelos desvios padrão de X e Y é obter uma medida que não depende da escala.

Veja este tópico para obter respostas mais detalhadas.

Akavall
fonte