Por que o coeficiente de correlação entre variáveis aleatórias X e XY tende a ser 0,7

49

Extraído de Estatísticas Práticas para Pesquisa Médica, onde Douglas Altman escreve na página 285:

... para quaisquer duas quantidades X e Y, X será correlacionado com XY. De fato, mesmo que X e Y sejam amostras de números aleatórios, esperaríamos que a correlação de X e XY fosse 0,7

Eu tentei isso em R e parece ser o caso:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Por que é que? Qual é a teoria por trás disso?

correlation random-variable intuition sem estoque
fonte

Para que parte você deseja uma explicação? Você deseja apenas a equação simplificada para a correlação que resulta por causa da correlação conhecida entre x e ye covariância entre x e xy? Ou você só quer saber por que há alguma covariância aqui?

John

Isso é verdade para qualquer e ? Suponha que e não estejam correlacionados e deixem . Então eu suspeito que não será correlacionado com .

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

Henry

69

Se e são variáveis aleatórias não correlacionadas com variância igual , temos que Conseqüentemente, $X$ $Y$ $\sigma^2$

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$ Então, quando você encontrar a correlação de exemplo de e para um grande conjunto de dados extraído de uma população com essas propriedades, que inclui "números aleatórios" como um caso especial, o resultado tende a se aproximar do valor de correlação populacional

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

Dilip Sarwate
fonte

Você poderia por favor explicar um pouco mais comocov(X,X)-cov(X,Y)=s^2

nostock

5

cov (X, X) é outro nome para var (X). cov (X, Y) = 0, pois X e Y são assumidos como não correlacionados (portanto, covariância = 0).

Dilip Sarwate

58

Uma explicação estatística-geométrica.

Imagine que você faça um gráfico de dispersão "de dentro para fora", onde os sujeitos são os eixos e as variáveis e são os pontos . Isso é chamado de gráfico de espaço do sujeito (em oposição ao gráfico de espaço variável usual ). Como há apenas 2 pontos a serem plotados, todas as dimensões nesse espaço, exceto apenas duas dimensões arbitrárias capazes de suportar os 2 pontos mais a origem, são redundantes e podem ser eliminadas com segurança. E assim ficamos com um avião. Desenhamos setas vetoriais da origem aos pontos: estas são nossas variáveis e como vetores no espaço sujeito dos dados. $n$ $2$ $X$ $Y$ $X$ $Y$

Agora, se as variáveis foram centralizadas , em um espaço sujeito, o cosseno do ângulo entre seus vetores é seu coeficiente de correlação . Na foto abaixo, os vetores e são ortogonais: seus . A falta de correlação foi um pré-requisito descrito por @Dilip em sua resposta. $X$ $Y$ $r=0$

Também para variáveis centralizadas, seus comprimentos de vetor em um espaço de assunto são seus desvios padrão . Na foto, e têm o mesmo comprimento, - variações iguais também foram um pré-requisito feito pelo @Dilip. $X$ $Y$

Para desenhar a variável ou a variável usamos apenas a adição ou subtração de vetores que esquecemos desde a escola (mova o vetor Y para o final do vetor X e inverta a direção no caso de subtração - isso é mostrado por setas cinza na foto, - desenhe um vetor para onde a seta cinza aponta). $X-Y$ $X+Y$

Fica muito claro que o comprimento dos vetores ou (o desvio padrão dessas variáveis) é, pelo teorema de Pitágoras, , e o ângulo entre e ou é 45 graus, qual cosseno - a correlação - é $X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

insira a descrição da imagem aqui

ttnphns
fonte

4

Um grande +1 para compartilhar essa abordagem.

whuber

(+1) Essa é uma maneira muito interessante de apresentar isso!

precisa

Ahh ... fotos! (+1) Muito bem. :-)

cardeal

11

Eu acredito que há uma intuição simples baseada em simetria aqui também. Como X e Y têm as mesmas distribuições e covariância de 0, a relação de X ± Y com X deve "explicar" metade da variação em X ± Y; a outra metade deve ser explicado por Y. Assim, R ² deve ser 1/2, o que significa que R é 1 / √2 ≈ 0,707.

denn333
fonte

Parece uma boa intuição, mas observe que, se , a maneira padrão de escrever seria , não que pode confundir algumas pessoas, mesmo que elas são algebricamente equivalentes.

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

gung - Restabelece Monica

Não, isso realmente não é mais padrão. (Se você precisa de provas, olhar para a resposta superior As 38 pessoas que já tenham votado a favor não tergiversar com a mesma notação..)

denn333

Eu sou um daqueles 38 ;-). A questão é: o que alguém cuja álgebra é bastante fraca será capaz de seguir com mais facilidade? Se , é mais fácil ver que .

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

gung - Restabelece Monica

3

Aqui está uma maneira simples de pensar por que há uma correlação aqui.

Imagine o que acontece quando você subtrai duas distribuições. Se o valor de x for baixo, em média, x - yserá um valor mais baixo do que se o valor de x for alto. À medida que x aumenta, x - yaumente, em média, e, assim, uma correlação positiva.

John
fonte

4

Não acho que sua afirmação seja sempre verdadeira "Sempre haverá uma correlação entre duas distribuições aleatórias quando houver um relacionamento matemático". por exemplo, x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

curious_cat

4

@curious_cat: Ou, talvez para ser ainda mais sugestivo, abandone ytudo. :-)

cardeal

Por que o coeficiente de correlação entre variáveis ​​aleatórias X e XY tende a ser 0,7

Respostas:

Por que o coeficiente de correlação entre variáveis aleatórias X e XY tende a ser 0,7