O coeficiente de correlação de Pearson é calculado usando a fórmula . Como essa fórmula contém as informações de que as duas variáveisXeYestão correlacionadas ou não? Ou, como obtemos essa fórmula para o coeficiente de correlação?
fonte
O coeficiente de correlação de Pearson é calculado usando a fórmula . Como essa fórmula contém as informações de que as duas variáveisXeYestão correlacionadas ou não? Ou, como obtemos essa fórmula para o coeficiente de correlação?
O que importa é . Denominador é para se livrar das unidades de medida (se digamosXé medido em metros eYem kg, em seguida,cov(X,Y)é medido em quilograma-metro, que é difícil compreender) e para a normalização (cór(X,Y) situa-se entre -1 e 1 o que valores variável tiver).
Agora, volte para . Isso mostra como as variáveis variam juntas sobre suas médias, portanto, a covariância . Vamos dar um exemplo.
é positivo Pelo contrário, superior esquerdo e inferior direito são áreas em que este produto é negativo.
Como última nota, a covariância mostra apenas a força de um relacionamento linear . Se o relacionamento não é linear, a covariância não é capaz de detectá-lo.
covariance shows only the strength of a linear relationship
Isso não é verdade. Cov é sensível tanto à força da linearidade quanto à magnitude da variação. Tome X e Y, estritamente linearmente relacionados. Em seguida, separe dois pontos extremos em X, para aumentar var (X). A nuvem bivariada não é mais linear - é apenas monotônica; ainda assim, cov (X, Y) se tornou maior! No entanto, se agora trouxermos de volta a soma var (X) + var (Y) à sua quantidade inicial, cov (X, Y) cairá abaixo e abaixo do valor inicial, refletindo o fato de que anteriormente alteramos a linearidade.Agora, cosseno é a medida da proporcionalidade ; cos (X, Y) = 1 quando e somente quando Xi = kYi , ou seja, quando todos os pontos ( i ) estão em uma linha reta proveniente da origem do sistema de coordenadas X vs Y. Se a linha não passar pela origem ou os pontos se afastarem da linha reta, cos ficará menor. Como Pearson r é o cos da nuvem que foi centralizada nos eixos X e Y, a linha inevitavelmente passa pela origem; e, portanto, apenas a saída de pontos da linha reta pode diminuir r : r é a medida delinearidade .
fonte
Se r = 1, existe correlação linear perfeita, se r = -1, existe correlação linear negativa perfeita, se r = 0, não há correlação linear. A razão pela qual dividimos pelos desvios padrão de X e Y é obter uma medida que não depende da escala.
Veja este tópico para obter respostas mais detalhadas.
fonte