Extraído de Estatísticas Práticas para Pesquisa Médica, onde Douglas Altman escreve na página 285:
... para quaisquer duas quantidades X e Y, X será correlacionado com XY. De fato, mesmo que X e Y sejam amostras de números aleatórios, esperaríamos que a correlação de X e XY fosse 0,7
Eu tentei isso em R e parece ser o caso:
x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)
xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)
Por que é que? Qual é a teoria por trás disso?
correlation
random-variable
intuition
sem estoque
fonte
fonte
Respostas:
Se e são variáveis aleatórias não correlacionadas com variância igual , temos que Conseqüentemente,Y σ 2 var ( X - Y )X Y σ2
fonte
cov(X,X)-cov(X,Y)=s^2
Uma explicação estatística-geométrica.
Imagine que você faça um gráfico de dispersão "de dentro para fora", onde os sujeitos são os eixos e as variáveis e são os pontos . Isso é chamado de gráfico de espaço do sujeito (em oposição ao gráfico de espaço variável usual ). Como há apenas 2 pontos a serem plotados, todas as dimensões nesse espaço, exceto apenas duas dimensões arbitrárias capazes de suportar os 2 pontos mais a origem, são redundantes e podem ser eliminadas com segurança. E assim ficamos com um avião. Desenhamos setas vetoriais da origem aos pontos: estas são nossas variáveis e como vetores no espaço sujeito dos dados.n 2 X Y X Y
Agora, se as variáveis foram centralizadas , em um espaço sujeito, o cosseno do ângulo entre seus vetores é seu coeficiente de correlação . Na foto abaixo, os vetores e são ortogonais: seus . A falta de correlação foi um pré-requisito descrito por @Dilip em sua resposta.Y r = 0X Y r=0
Também para variáveis centralizadas, seus comprimentos de vetor em um espaço de assunto são seus desvios padrão . Na foto, e têm o mesmo comprimento, - variações iguais também foram um pré-requisito feito pelo @Dilip.YX Y
Para desenhar a variável ou a variável usamos apenas a adição ou subtração de vetores que esquecemos desde a escola (mova o vetor Y para o final do vetor X e inverta a direção no caso de subtração - isso é mostrado por setas cinza na foto, - desenhe um vetor para onde a seta cinza aponta).X + YX−Y X+Y
Fica muito claro que o comprimento dos vetores ou (o desvio padrão dessas variáveis) é, pelo teorema de Pitágoras, , e o ângulo entre e ou é 45 graus, qual cosseno - a correlação - éX + Y √X−Y X+Y XX-YX+Y0,707 ...2σ2−−−√ X X−Y X+Y 0.707...
fonte
Eu acredito que há uma intuição simples baseada em simetria aqui também. Como X e Y têm as mesmas distribuições e covariância de 0, a relação de X ± Y com X deve "explicar" metade da variação em X ± Y; a outra metade deve ser explicado por Y. Assim, R 2 deve ser 1/2, o que significa que R é 1 / √2 ≈ 0,707.
fonte
Aqui está uma maneira simples de pensar por que há uma correlação aqui.
Imagine o que acontece quando você subtrai duas distribuições. Se o valor de x for baixo, em média,
x - y
será um valor mais baixo do que se o valor de x for alto. À medida que x aumenta,x - y
aumente, em média, e, assim, uma correlação positiva.fonte
x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)
$y
tudo. :-)