Como o coeficiente de correlação difere da inclinação da regressão?

69

Eu esperaria que o coeficiente de correlação fosse o mesmo que uma inclinação de regressão (beta), no entanto, tendo acabado de comparar os dois, eles são diferentes. Como eles diferem - que informações diferentes eles fornecem?

luciano
fonte
3
se eles são normalizados, são os mesmos. mas pense no que acontece quando você faz a troca de unidades ...
nicolas
Acho que a pontuação mais alta responde a esse Q (e talvez até o meu A , onde mostro que o coeficiente de correlação pode ser visto como o valor absoluto da média geométrica das duas inclinações que obtemos se regredirmos y em x e x em y, respectivamente) também são relevantes aqui
statmerkur

Respostas:

82

Supondo que você esteja falando de um modelo de regressão simples estimado por mínimos quadrados, sabemos na wikipedia que Portanto, os dois só coincidem quando . Ou seja, eles só coincidem quando as duas variáveis ​​estão na mesma escala, em algum sentido. A maneira mais comum de conseguir isso é através da padronização, conforme indicado por @gung.

Yi=α+βXi+εi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

Os dois, em certo sentido, fornecem as mesmas informações - cada um deles diz a força do relacionamento linear entre e . Mas, cada um deles fornece informações distintas (exceto, é claro, quando são exatamente iguais):XiYi

  • A correlação fornece uma medida limitada que pode ser interpretada independentemente da escala das duas variáveis. Quanto mais próxima a correlação estimada for , mais próximas as duas estarão de um relacionamento linear perfeito . A inclinação da regressão, isoladamente, não informa esse pedaço de informação.±1

  • A inclinação da regressão fornece uma quantidade útil interpretada como a alteração estimada no valor esperado de para um determinado valor de . Especificamente, informa a alteração no valor esperado de correspondente a um aumento de 1 unidade em . Esta informação não pode ser deduzida apenas do coeficiente de correlação.YiXiβ^YiXi

Macro
fonte
Como corolário desta resposta, observe que regressar x contra y não é o inverso de se voltar y contra x!
precisa saber é o seguinte
23

Com regressão linear simples (ou seja, apenas 1 covariável), a inclinação é a mesma que de Pearson se ambas as variáveis ​​foram padronizadas primeiro. (Para obter mais informações, você pode achar minha resposta útil aqui .) Quando você está fazendo uma regressão múltipla, isso pode ser mais complicado devido à etc.β1r

- Reinstate Monica
fonte
14

O coeficiente de correlação mede a "tensão" da relação linear entre duas variáveis ​​e é delimitado entre -1 e 1, inclusive. Correlações próximas a zero não representam associação linear entre as variáveis, enquanto correlações próximas a -1 ou +1 indicam forte relação linear. Intuitivamente, quanto mais fácil você desenhar uma linha de melhor ajuste por meio de um gráfico de dispersão, mais correlacionadas elas são.

A inclinação da regressão mede a "inclinação" da relação linear entre duas variáveis ​​e pode levar qualquer valor de a . Inclinações próximas de zero significam que a variável resposta (Y) muda lentamente, à medida que a variável preditor (X) muda. As inclinações que estão mais longe de zero (na direção negativa ou positiva) significam que a resposta muda mais rapidamente à medida que o preditor muda. Intuitivamente, se você desenhar uma linha que melhor se encaixe em um gráfico de dispersão, quanto mais íngreme for, mais inclinada será o seu declive.+

Portanto, o coeficiente de correlação e a inclinação da regressão DEVEM ter o mesmo sinal (+ ou -), mas quase nunca terão o mesmo valor.

Para simplificar, essa resposta assume regressão linear simples.

Minador
fonte
você indica que beta pode estar em , mas não existe um caso a caso vinculado a beta implícito na razão de variação de xey? inf,inf
Matifou
1

O coeficiente de correlação de Pearson é adimensional e dimensionado entre -1 e 1, independentemente da dimensão e escala das variáveis ​​de entrada.

Se (por exemplo) você inserir uma massa em gramas ou quilogramas, isso não fará diferença no valor de , enquanto isso fará uma tremenda diferença no gradiente / declive (que tem dimensão e é dimensionado de acordo ... não faria diferença para se a balança for ajustada de alguma maneira, incluindo libras ou toneladas).rr

Uma demonstração simples (desculpas pelo uso do Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

mostra que mesmo que a inclinação tenha sido aumentada por um fator de 10.r=0.969363

Devo confessar que é um truque interessante que passa a ser escalado entre -1 e 1 (um daqueles casos em que o numerador nunca pode ter um valor absoluto maior que o denominador).r

Como o @Macro detalhou acima, a inclinação , portanto, você está certo ao intuir que o de Pearson está relacionado à inclinação, mas apenas quando ajustado de acordo com aos desvios padrão (que efetivamente restaura as dimensões e escalas!).b=r(σyσx)r

No começo, achei estranho que a fórmula parecesse sugerir uma linha pouco ajustada (baixo ) resulta em um gradiente mais baixo; plotei um exemplo e percebi que, dado um gradiente, a variação da "folga" resulta em diminuindo, mas isso é compensado por um aumento proporcional em .rrσy

No gráfico abaixo, quatro conjuntos de dados são plotados:x,y

  1. os resultados de (então gradiente , , , ) ... observe quey=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. o mesmo, mas variado por um número aleatório, com , , , a partir do qual podemos calcularr=0.2447σx=2.89σy=34.69b=2.94
  3. y=15x (modo e , , )b=15r=1σx=0.58σy=8.66
  4. o mesmo que (2), mas com intervalo reduzido portanto (e ainda , , ) xb=14.70r=0.2447σx=0.58σy=34.69correlação e gradiente

Pode-se observar que a variação afeta sem necessariamente afetar , e as unidades de medida podem afetar a escala e, portanto, sem afetarrbbr

James
fonte