Como o coeficiente de correlação difere da inclinação da regressão?

69

Eu esperaria que o coeficiente de correlação fosse o mesmo que uma inclinação de regressão (beta), no entanto, tendo acabado de comparar os dois, eles são diferentes. Como eles diferem - que informações diferentes eles fornecem?

regression correlation luciano
fonte

3

se eles são normalizados, são os mesmos. mas pense no que acontece quando você faz a troca de unidades ...

nicolas

Acho que a pontuação mais alta responde a esse Q (e talvez até o meu A , onde mostro que o coeficiente de correlação pode ser visto como o valor absoluto da média geométrica das duas inclinações que obtemos se regredirmos y em x e x em y, respectivamente) também são relevantes aqui

statmerkur

82

Supondo que você esteja falando de um modelo de regressão simples estimado por mínimos quadrados, sabemos na wikipedia que Portanto, os dois só coincidem quando . Ou seja, eles só coincidem quando as duas variáveis estão na mesma escala, em algum sentido. A maneira mais comum de conseguir isso é através da padronização, conforme indicado por @gung.

Y_{i} = α + β X_{i} + ε_{i}

$Y_i = \alpha + \beta X_i + \varepsilon_i$

\hat{β} = c o r (Y_{i}, X_{i}) \cdot \frac{S D (Y_{i})}{S D (X_{i})}

$\hat {\beta} = {\rm cor}(Y_i, X_i) \cdot \frac{ {\rm SD}(Y_i) }{ {\rm SD}(X_i) }$

S D (Y_{i}) = S D (X_{i})

${\rm SD}(Y_i) = {\rm SD}(X_i)$

Os dois, em certo sentido, fornecem as mesmas informações - cada um deles diz a força do relacionamento linear entre e . Mas, cada um deles fornece informações distintas (exceto, é claro, quando são exatamente iguais): $X_i$ $Y_i$

A correlação fornece uma medida limitada que pode ser interpretada independentemente da escala das duas variáveis. Quanto mais próxima a correlação estimada for , mais próximas as duas estarão de um relacionamento linear perfeito . A inclinação da regressão, isoladamente, não informa esse pedaço de informação. $\pm 1$
A inclinação da regressão fornece uma quantidade útil interpretada como a alteração estimada no valor esperado de para um determinado valor de . Especificamente, informa a alteração no valor esperado de correspondente a um aumento de 1 unidade em . Esta informação não pode ser deduzida apenas do coeficiente de correlação. $Y_i$ $X_i$ $\hat \beta$ $Y_i$ $X_i$

Macro
fonte

Como corolário desta resposta, observe que regressar x contra y não é o inverso de se voltar y contra x!

precisa saber é o seguinte

23

Com regressão linear simples (ou seja, apenas 1 covariável), a inclinação é a mesma que de Pearson se ambas as variáveis foram padronizadas primeiro. (Para obter mais informações, você pode achar minha resposta útil aqui .) Quando você está fazendo uma regressão múltipla, isso pode ser mais complicado devido à multicolinearidade etc. $\beta_1$ $r$

- Reinstate Monica
fonte

14

O coeficiente de correlação mede a "tensão" da relação linear entre duas variáveis e é delimitado entre -1 e 1, inclusive. Correlações próximas a zero não representam associação linear entre as variáveis, enquanto correlações próximas a -1 ou +1 indicam forte relação linear. Intuitivamente, quanto mais fácil você desenhar uma linha de melhor ajuste por meio de um gráfico de dispersão, mais correlacionadas elas são.

A inclinação da regressão mede a "inclinação" da relação linear entre duas variáveis e pode levar qualquer valor de a . Inclinações próximas de zero significam que a variável resposta (Y) muda lentamente, à medida que a variável preditor (X) muda. As inclinações que estão mais longe de zero (na direção negativa ou positiva) significam que a resposta muda mais rapidamente à medida que o preditor muda. Intuitivamente, se você desenhar uma linha que melhor se encaixe em um gráfico de dispersão, quanto mais íngreme for, mais inclinada será o seu declive. $-\infty$ $+\infty$

Portanto, o coeficiente de correlação e a inclinação da regressão DEVEM ter o mesmo sinal (+ ou -), mas quase nunca terão o mesmo valor.

Para simplificar, essa resposta assume regressão linear simples.

Minador
fonte

você indica que beta pode estar em , mas não existe um caso a caso vinculado a beta implícito na razão de variação de xey?

- inf, inf

$-\inf, \inf$

Matifou

1

O coeficiente de correlação de Pearson é adimensional e dimensionado entre -1 e 1, independentemente da dimensão e escala das variáveis de entrada.

Se (por exemplo) você inserir uma massa em gramas ou quilogramas, isso não fará diferença no valor de , enquanto isso fará uma tremenda diferença no gradiente / declive (que tem dimensão e é dimensionado de acordo ... não faria diferença para se a balança for ajustada de alguma maneira, incluindo libras ou toneladas). $r$ $r$

Uma demonstração simples (desculpas pelo uso do Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

mostra que mesmo que a inclinação tenha sido aumentada por um fator de 10. $r = 0.969363$

Devo confessar que é um truque interessante que passa a ser escalado entre -1 e 1 (um daqueles casos em que o numerador nunca pode ter um valor absoluto maior que o denominador). $r$

Como o @Macro detalhou acima, a inclinação , portanto, você está certo ao intuir que o de Pearson está relacionado à inclinação, mas apenas quando ajustado de acordo com aos desvios padrão (que efetivamente restaura as dimensões e escalas!). $b = r(\frac{\sigma_{y}}{\sigma_{x}})$ $r$

No começo, achei estranho que a fórmula parecesse sugerir uma linha pouco ajustada (baixo ) resulta em um gradiente mais baixo; plotei um exemplo e percebi que, dado um gradiente, a variação da "folga" resulta em diminuindo, mas isso é compensado por um aumento proporcional em . $r$ $r$ $\sigma_{y}$

No gráfico abaixo, quatro conjuntos de dados são plotados: $x,y$

os resultados de (então gradiente , , , ) ... observe que $y=3x$ $b=3$ $r=1$ $\sigma_{x}=2.89$ $\sigma_{y}=8.66$ $\frac{\sigma_{y}}{\sigma_{x}}=3$
o mesmo, mas variado por um número aleatório, com , , , a partir do qual podemos calcular $r = 0.2447$ $\sigma_{x}=2.89$ $\sigma_{y}=34.69$ $b= 2.94$
$y=15x$ (modo e , , ) $b=15$ $r=1$ $\sigma_{x}=0.58$ $\sigma_{y}=8.66$
o mesmo que (2), mas com intervalo reduzido portanto (e ainda , , ) $x$ $b= 14.70$ $r = 0.2447$ $\sigma_{x}=0.58$ $\sigma_{y}=34.69$

Pode-se observar que a variação afeta sem necessariamente afetar , e as unidades de medida podem afetar a escala e, portanto, sem afetar $r$ $b$ $b$ $r$

James
fonte

Como o coeficiente de correlação difere da inclinação da regressão?

Respostas: