Estou interessado em saber se uma "correlação" de três variáveis é alguma coisa e, se for o que, isso seria?
Coeficiente de correlação do momento do produto Pearson
Agora a pergunta para 3 variáveis: É
qualquer coisa?
Em R parece algo interpretável:
> a <- rnorm(100); b <- rnorm(100); c <- rnorm(100)
> mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c))
[1] -0.3476942
Normalmente, observamos a correlação entre duas variáveis, dado o valor fixo de uma terceira variável. Alguém poderia esclarecer?
correlation
pearson-r
PascalVKooten
fonte
fonte
Respostas:
Ele é realmente algo. Para descobrir, precisamos examinar o que sabemos sobre a própria correlação.
A matriz de correlação de uma variável aleatória vector é a variância-covariância matriz, ou simplesmente "variância," da versão padronizada de X . Ou seja, cada X i é substituído por sua versão recente e redimensionada.X=(X1,X2,…,Xp) X Xi
A covariância de e X j é a expectativa do produto de suas versões centralizadas. Ou seja, escrevendo X ′ i = X i - E [ X i ] e X ′ j = X j - E [ X j ] , temosXi Xj X′i=Xi−E[Xi] X′j=Xj−E[Xj]
A variação de , que escreverei Var ( X ) , não é um número único. É a matriz de valores Var ( X ) i j = Cov ( X i , X j ) .X Var( X )
A maneira de pensar na covariância para a generalização pretendida é considerá-la um tensor . Isso significa que é uma colecção completa de quantidades , indexado por i e j vão desde 1 através de P , cujos valores de mudar de uma forma previsível particularmente simples quando X sofre uma transformação linear. Especificamente, seja Y = ( Y 1 , Y 2 , … , Y q ) outra variável aleatória com valor vetorial definida porveu j Eu j 1 p X Y =( Y1, Y2, ... , Yq)
As constantes (iejsãoíndices-jnão é uma potência) formam umamatrizq×pA=(aumajEu Eu j j q× p ,j=1,…,pei=1,…,q. A linearidade da expectativa implicaA =( ajEu) j = 1 , … , p i = 1 , ... , q
Na notação matricial,
Todos os componentes de são na verdade variações univariadas, devido à identidade de polarizaçãoVar( X )
Isso nos diz que, se você entende as variações de variáveis aleatórias univariadas, já entende as covariâncias das variáveis bivariadas: elas são "apenas" combinações lineares de variações.
A expressão em questão é perfeitamente análogo: as variáveis foram padronizadas como em ( 1 ) . Podemos entender o que ele representa considerando o que significa para qualquer variável, padronizada ou não. Substituiríamos cada X i por sua versão centralizada, como em ( 2 ) , e formaríamos quantidades com três índices,Xi (1) Xi (2)
Estes são os momentos centrais (multivariados) do grau3 . Como em , eles formam um tensor: quando Y = A X , então(4) Y=AX
Os índices nessa soma tripla variam em todas as combinações de números inteiros de a p .1 p
O análogo da identidade de polarização é
No lado direito, refere-se ao terceiro momento central (univariado): o valor esperado do cubo da variável centralizada. Quando as variáveis são padronizadas, esse momento é geralmente chamado de assimetria . Consequentemente, podemos pensar em μ 3 ( X ) como sendo a assimetria multivariada de X . É um tensor da classificação três (ou seja, com três índices) cujos valores são combinações lineares das assimetrias de várias somas e diferenças do X i . Se procurássemos interpretações, pensaríamos nesses componentes como medindo em pμ3 μ3(X) X Xi p dimensões, independentemente da inclinação que esteja medindo em uma dimensão. Em muitos casos,
Os primeiros momentos medem a localização de uma distribuição;
Os segundos momentos (a matriz variância-covariância) medem sua propagação ;
Os segundos momentos padronizados (as correlações) indicam como a propagação varia no espaço dimensional; ep
Os terceiro e quarto momentos padronizados são usados para medir a forma de uma distribuição em relação à sua propagação.
Para elaborar o significado de uma "forma" multidimensional, observamos que podemos entender o PCA como um mecanismo para reduzir qualquer distribuição multivariada a uma versão padrão localizada na origem e spreads iguais em todas as direções. Depois de APC é realizada, em seguida, proporcionaria os indicadores mais simples da forma multidimensional da distribuição. Essas idéias se aplicam igualmente aos dados e às variáveis aleatórias, porque os dados sempre podem ser analisados em termos de sua distribuição empírica.μ3
Referência
Alan Stuart & J. Keith Ord, Teoria Avançada de Estatística de Kendall Quinta Edição, Volume 1: Teoria da Distribuição ; Capítulo 3, Momentos e Cumulantes . Oxford University Press (1987).
Apêndice: Prova da identidade de polarização
Seja sejam variáveis algébricas. Existem 2 n maneiras de somar e subtrair todos n deles. Quando levantar cada uma dessas somas-e-diferenças para o n th poder, pegar um sinal adequado para cada um desses resultados, e adicioná-los para cima, vamos obter um múltiplo de x 1 x 2 ⋯ x n .x1,…,xn 2n n nth x1x2⋯xn
Mais formalmente, seja o conjunto de todos os n- pares de ± 1 , de modo que qualquer elemento s ∈ S seja um vetor s = ( s 1 , s 2 , … , s n ) cujo os coeficientes são todos ± 1 . A reivindicação éS={1,−1}n n ±1 s∈S s=(s1,s2,…,sn) ±1
Com efeito, o Multinomial teorema indica que o coeficiente da monomial (em que o i j são números inteiros não negativos somando a n ) na expansão de qualquer termo no lado da mão direita éxi11xi22⋯xinn ij n
Na soma , os coeficientes envolvendo x i 1 1 aparecem em pares, onde um de cada par envolve o caso s 1 = 1 , com coeficiente proporcional s 1 vezes s i 1 1 , igual a 1 e o outro de cada par envolve o caso s 1 = - 1 , com coeficiente proporcional a - 1 vezes ( - 1 ) i 1 , igual a ( - 1(1) xi11 s1=1 s1 si11 1 s1=−1 −1 (−1)i1 . Eles cancelam na soma sempre que i 1 + 1 é ímpar. O mesmo argumento se aplica a i 2 , … , i n . Consequentemente,as únicas monômios que ocorrem com coeficientes diferentes de zero deve ter poderes ímpares detodoo x i . O único monômio desse tipo é x 1 x 2 ⋯ x n . Aparece com coeficiente ( n(−1)i1+1 i1+1 i2,…,in xi x1x2⋯xn em todos os2ntermos da soma. Consequentemente, seu coeficiente é2nn! ,QED.(n1,1,…,1)=n! 2n 2nn!
Precisamos pegar apenas metade de cada par associado com : ou seja, podemos restringir o lado direito de ( 1 ) aos termos com s 1 = 1 e reduzir pela metade o coeficiente do lado esquerdo para 2 n - 1 n ! . Isso dá precisamente as duas versões do Polarização Identidade citado nesta resposta para os casos n = 2 e n = 3 : 2 2 - 1 2 ! = 4 e 2 3 - 1x1 (1) s1=1 2n−1n! n = 2 n = 3 22 - 12 ! = 4 .23 - 13 ! = 24
É claro que a identidade de polarização para variáveis algébricas implica imediatamente para variáveis aleatórias: seja uma variável aleatória x i . Tome expectativas de ambos os lados. O resultado segue pela linearidade da expectativa.xEu XEu
fonte
Hummm. Se corrermos ...
parece centrar-se em 0 (não fiz uma simulação real), mas como @ttnphns faz alusão, executando isso (todas as variáveis são iguais)
também parece centrar-se em 0, o que certamente me faz pensar que utilidade isso poderia ter.
fonte
sd
variação é uma função da quadratura, assim como a covariância. Mas, com 3 variáveis, cubing ocorre no numerador, enquanto restos denominador com base em termos originalmente quadradosSe você precisar calcular a "correlação" entre três ou mais variáveis, não poderá usar o Pearson, pois nesse caso será diferente para diferentes ordens de variáveis, veja aqui . Se você é interessante em dependência linear ou se eles são ajustados pela linha 3D, você pode usar o PCA, obter variância explicada para o primeiro PC, permutar seus dados e encontrar probabilidade, de que esse valor possa ser por razões aleatórias. Eu discuti algo semelhante aqui (consulte Detalhes técnicos abaixo).
Código Matlab
fonte