Por que o coeficiente de correlação entre variáveis ​​aleatórias X e XY tende a ser 0,7

49

Extraído de Estatísticas Práticas para Pesquisa Médica, onde Douglas Altman escreve na página 285:

... para quaisquer duas quantidades X e Y, X será correlacionado com XY. De fato, mesmo que X e Y sejam amostras de números aleatórios, esperaríamos que a correlação de X e XY fosse 0,7

Eu tentei isso em R e parece ser o caso:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Por que é que? Qual é a teoria por trás disso?

sem estoque
fonte
Para que parte você deseja uma explicação? Você deseja apenas a equação simplificada para a correlação que resulta por causa da correlação conhecida entre x e ye covariância entre x e xy? Ou você só quer saber por que há alguma covariância aqui?
John
Isso é verdade para qualquer e ? Suponha que e não estejam correlacionados e deixem . Então eu suspeito que não será correlacionado com . Y X Z Y = X - Z X X - YXYXZY=XZXXY
Henry

Respostas:

69

Se e são variáveis ​​aleatórias não correlacionadas com variância igual , temos que Conseqüentemente,Y σ 2 var ( X - Y )XYσ2

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
Então, quando você encontrar a correlação de exemplo de e para um grande conjunto de dados extraído de uma população com essas propriedades, que inclui "números aleatórios" como um caso especial, o resultado tende a se aproximar do valor de correlação populacional
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071
Dilip Sarwate
fonte
Você poderia por favor explicar um pouco mais comocov(X,X)-cov(X,Y)=s^2
nostock
5
cov (X, X) é outro nome para var (X). cov (X, Y) = 0, pois X e Y são assumidos como não correlacionados (portanto, covariância = 0).
Dilip Sarwate
58

Uma explicação estatística-geométrica.

Imagine que você faça um gráfico de dispersão "de dentro para fora", onde os sujeitos são os eixos e as variáveis e são os pontos . Isso é chamado de gráfico de espaço do sujeito (em oposição ao gráfico de espaço variável usual ). Como há apenas 2 pontos a serem plotados, todas as dimensões nesse espaço, exceto apenas duas dimensões arbitrárias capazes de suportar os 2 pontos mais a origem, são redundantes e podem ser eliminadas com segurança. E assim ficamos com um avião. Desenhamos setas vetoriais da origem aos pontos: estas são nossas variáveis e como vetores no espaço sujeito dos dados.n 2 XYXY

Agora, se as variáveis ​​foram centralizadas , em um espaço sujeito, o cosseno do ângulo entre seus vetores é seu coeficiente de correlação . Na foto abaixo, os vetores e são ortogonais: seus . A falta de correlação foi um pré-requisito descrito por @Dilip em sua resposta.Y r = 0XYr=0

Também para variáveis ​​centralizadas, seus comprimentos de vetor em um espaço de assunto são seus desvios padrão . Na foto, e têm o mesmo comprimento, - variações iguais também foram um pré-requisito feito pelo @Dilip.YXY

Para desenhar a variável ou a variável usamos apenas a adição ou subtração de vetores que esquecemos desde a escola (mova o vetor Y para o final do vetor X e inverta a direção no caso de subtração - isso é mostrado por setas cinza na foto, - desenhe um vetor para onde a seta cinza aponta).X + YXYX+Y

Fica muito claro que o comprimento dos vetores ou (o desvio padrão dessas variáveis) é, pelo teorema de Pitágoras, , e o ângulo entre e ou é 45 graus, qual cosseno - a correlação - éX + Y XYX+Y XX-YX+Y0,707 ...2σ2XXYX+Y0.707...

insira a descrição da imagem aqui

ttnphns
fonte
4
Um grande +1 para compartilhar essa abordagem.
whuber
(+1) Essa é uma maneira muito interessante de apresentar isso!
precisa
Ahh ... fotos! (+1) Muito bem. :-)
cardeal
11

Eu acredito que há uma intuição simples baseada em simetria aqui também. Como X e Y têm as mesmas distribuições e covariância de 0, a relação de X ± Y com X deve "explicar" metade da variação em X ± Y; a outra metade deve ser explicado por Y. Assim, R 2 deve ser 1/2, o que significa que R é 1 / √2 ≈ 0,707.

denn333
fonte
Parece uma boa intuição, mas observe que, se , a maneira padrão de escrever seria , não que pode confundir algumas pessoas, mesmo que elas são algebricamente equivalentes. r2=12r 1/1/21/2
gung - Restabelece Monica
Não, isso realmente não é mais padrão. (Se você precisa de provas, olhar para a resposta superior As 38 pessoas que já tenham votado a favor não tergiversar com a mesma notação..)
denn333
Eu sou um daqueles 38 ;-). A questão é: o que alguém cuja álgebra é bastante fraca será capaz de seguir com mais facilidade? Se , é mais fácil ver que . r = r2=1/2r=1/2
gung - Restabelece Monica
3

Aqui está uma maneira simples de pensar por que há uma correlação aqui.

Imagine o que acontece quando você subtrai duas distribuições. Se o valor de x for baixo, em média, x - yserá um valor mais baixo do que se o valor de x for alto. À medida que x aumenta, x - yaumente, em média, e, assim, uma correlação positiva.

John
fonte
4
Não acho que sua afirmação seja sempre verdadeira "Sempre haverá uma correlação entre duas distribuições aleatórias quando houver um relacionamento matemático". por exemplo, x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat
4
@curious_cat: Ou, talvez para ser ainda mais sugestivo, abandone ytudo. :-)
cardeal