Analogia da correlação de Pearson para 3 variáveis

17

Estou interessado em saber se uma "correlação" de três variáveis ​​é alguma coisa e, se for o que, isso seria?

Coeficiente de correlação do momento do produto Pearson

E{(X-μX)(Y-μY)}Vumar(X)Vumar(Y)

Agora a pergunta para 3 variáveis: É

E{(X-μX)(Y-μY)(Z-μZ)}Vumar(X)Vumar(Y)Vumar(Z)

qualquer coisa?

Em R parece algo interpretável:

> a <- rnorm(100); b <- rnorm(100); c <- rnorm(100)
> mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c))
[1] -0.3476942

Normalmente, observamos a correlação entre duas variáveis, dado o valor fixo de uma terceira variável. Alguém poderia esclarecer?

PascalVKooten
fonte
2
1) Na sua fórmula bivariada de Pearson, se "E" (médio no seu código) implica divisão por n então st. desvios também devem ser baseados em n (não n-1). 2) Deixe todas as três variáveis ​​serem a mesma variável. Neste caso, esperamos correlação a ser 1 (como no caso bivariado), mas infelizmente ...
ttnphns
Para uma distribuição normal trivariada, é zero, independentemente de quais sejam as correlações.
precisa
1
Eu realmente acho que o título iria beneficiar de ser alterado para "Analogia de correlação de Pearson para 3 variáveis" ou similar - que faria links em vez mais informativo
Silverfish
1
@Silverfish Concordo! Eu atualizei o título, obrigado.
PascalVKooten

Respostas:

11

Ele é realmente algo. Para descobrir, precisamos examinar o que sabemos sobre a própria correlação.

  1. A matriz de correlação de uma variável aleatória vector é a variância-covariância matriz, ou simplesmente "variância," da versão padronizada de X . Ou seja, cada X i é substituído por sua versão recente e redimensionada.X=(X1,X2,,Xp)XXi

  2. A covariância de e X j é a expectativa do produto de suas versões centralizadas. Ou seja, escrevendo X i = X i - E [ X i ] e X j = X j - E [ X j ] , temosXiXjXi=XiE[Xi]Xj=XjE[Xj]

    Cov(XEu,Xj)=E[XEuXj].
  3. A variação de , que escreverei Var ( X ) , não é um número único. É a matriz de valores Var ( X ) i j = Cov ( X i , X j ) .XVar(X)

    Var(X)Euj=Cov(XEu,Xj).
  4. A maneira de pensar na covariância para a generalização pretendida é considerá-la um tensor . Isso significa que é uma colecção completa de quantidades , indexado por i e j vão desde 1 através de P , cujos valores de mudar de uma forma previsível particularmente simples quando X sofre uma transformação linear. Especificamente, seja Y = ( Y 1 , Y 2 , , Y q ) outra variável aleatória com valor vetorial definida porvEujEuj1pXY=(Y1,Y2,...,Yq)

    YEu=j=1pumaEujXj.

    As constantes (iejsãoíndices-jnão é uma potência) formam umamatrizq×pA=(aumaEujEujjq×p,j=1,,pei=1,,q. A linearidade da expectativa implicaUMA=(umaEuj)j=1,...,pEu=1,...,q

    Var(Y)Euj=umaEukumajeuVar(X)keu.

    Na notação matricial,

    Var(Y)=UMAVar(X)UMA.
  5. Todos os componentes de são na verdade variações univariadas, devido à identidade de polarizaçãoVar(X)

    4Cov(Xi,Xj)=Var(Xi+Xj)Var(XiXj).

    Isso nos diz que, se você entende as variações de variáveis ​​aleatórias univariadas, já entende as covariâncias das variáveis ​​bivariadas: elas são "apenas" combinações lineares de variações.


A expressão em questão é perfeitamente análogo: as variáveis foram padronizadas como em ( 1 ) . Podemos entender o que ele representa considerando o que significa para qualquer variável, padronizada ou não. Substituiríamos cada X i por sua versão centralizada, como em ( 2 ) , e formaríamos quantidades com três índices,Xi(1)Xi(2)

μ3(X)ijk=E[XiXjXk].

Estes são os momentos centrais (multivariados) do grau 3 . Como em , eles formam um tensor: quando Y = A X , então(4)Y=AX

μ3(Y)ijk=l,m,nailajmaknμ3(X)lmn.

Os índices nessa soma tripla variam em todas as combinações de números inteiros de a p .1p

O análogo da identidade de polarização é

24μ3(X)ijk=μ3(Xi+Xj+Xk)μ3(XiXj+Xk)μ3(Xi+XjXk)+μ3(XiXjXk).

No lado direito, refere-se ao terceiro momento central (univariado): o valor esperado do cubo da variável centralizada. Quando as variáveis ​​são padronizadas, esse momento é geralmente chamado de assimetria . Consequentemente, podemos pensar em μ 3 ( X ) como sendo a assimetria multivariada de X . É um tensor da classificação três (ou seja, com três índices) cujos valores são combinações lineares das assimetrias de várias somas e diferenças do X i . Se procurássemos interpretações, pensaríamos nesses componentes como medindo em pμ3μ3(X)XXipdimensões, independentemente da inclinação que esteja medindo em uma dimensão. Em muitos casos,

  • Os primeiros momentos medem a localização de uma distribuição;

  • Os segundos momentos (a matriz variância-covariância) medem sua propagação ;

  • Os segundos momentos padronizados (as correlações) indicam como a propagação varia no espaço dimensional; ep

  • Os terceiro e quarto momentos padronizados são usados ​​para medir a forma de uma distribuição em relação à sua propagação.

Para elaborar o significado de uma "forma" multidimensional, observamos que podemos entender o PCA como um mecanismo para reduzir qualquer distribuição multivariada a uma versão padrão localizada na origem e spreads iguais em todas as direções. Depois de APC é realizada, em seguida, proporcionaria os indicadores mais simples da forma multidimensional da distribuição. Essas idéias se aplicam igualmente aos dados e às variáveis ​​aleatórias, porque os dados sempre podem ser analisados ​​em termos de sua distribuição empírica.μ3


Referência

Alan Stuart & J. Keith Ord, Teoria Avançada de Estatística de Kendall Quinta Edição, Volume 1: Teoria da Distribuição ; Capítulo 3, Momentos e Cumulantes . Oxford University Press (1987).


Apêndice: Prova da identidade de polarização

Seja sejam variáveis ​​algébricas. Existem 2 n maneiras de somar e subtrair todos n deles. Quando levantar cada uma dessas somas-e-diferenças para o n th poder, pegar um sinal adequado para cada um desses resultados, e adicioná-los para cima, vamos obter um múltiplo de x 1 x 2x n .x1,,xn2nnnthx1x2xn

Mais formalmente, seja o conjunto de todos os n- pares de ± 1 , de modo que qualquer elemento s S seja um vetor s = ( s 1 , s 2 , , s n ) cujo os coeficientes são todos ± 1 . A reivindicação éS={1,1}nn±1sSs=(s1,s2,,sn)±1

(1)2nn!x1x2xn=sSs1s2sn(s1x1+s2x2++snxn)n.

Com efeito, o Multinomial teorema indica que o coeficiente da monomial (em que o i j são números inteiros não negativos somando a n ) na expansão de qualquer termo no lado da mão direita éx1i1x2i2xninijn

(ni1,i2,,in)s1i1s2i2snin.

Na soma , os coeficientes envolvendo x i 1 1 aparecem em pares, onde um de cada par envolve o caso s 1 = 1 , com coeficiente proporcional s 1 vezes s i 1 1 , igual a 1 e o outro de cada par envolve o caso s 1 = - 1 , com coeficiente proporcional a - 1 vezes ( - 1 ) i 1 , igual a ( - 1(1)x1i1s1=1s1s1i11s1=11(1)i1 . Eles cancelam na soma sempre que i 1 + 1 é ímpar. O mesmo argumento se aplica a i 2 , , i n . Consequentemente,as únicas monômios que ocorrem com coeficientes diferentes de zero deve ter poderes ímpares detodoo x i . O único monômio desse tipo é x 1 x 2x n . Aparece com coeficiente ( n(1)i1+1i1+1i2,,inxix1x2xnem todos os2ntermos da soma. Consequentemente, seu coeficiente é2nn! ,QED.(n1,1,,1)=n!2n2nn!

Precisamos pegar apenas metade de cada par associado com : ou seja, podemos restringir o lado direito de ( 1 ) aos termos com s 1 = 1 e reduzir pela metade o coeficiente do lado esquerdo para 2 n - 1 n ! . Isso dá precisamente as duas versões do Polarização Identidade citado nesta resposta para os casos n = 2 e n = 3 : 2 2 - 1 2 ! = 4 e 2 3 - 1x1(1)s1=12n1n!n=2n=322-12!=4 .23-13!=24

É claro que a identidade de polarização para variáveis ​​algébricas implica imediatamente para variáveis ​​aleatórias: seja uma variável aleatória x i . Tome expectativas de ambos os lados. O resultado segue pela linearidade da expectativa.xEuXEu

whuber
fonte
Bem feito em explicar até agora! A distorção multivariada meio que faz sentido. Você poderia adicionar um exemplo que mostrasse a importância dessa distorção multivariada? Como uma questão em modelos estatísticos, ou talvez mais interessante, que caso na vida real estaria sujeito a assimetria multivariada :)?
PascalVKooten
3

Hummm. Se corrermos ...

a <- rnorm(100);
b <- rnorm(100);
c <- rnorm(100)
mean((a-mean(a))*(b-mean(b))*(c-mean(c)))/
  (sd(a) * sd(b) * sd(c))

parece centrar-se em 0 (não fiz uma simulação real), mas como @ttnphns faz alusão, executando isso (todas as variáveis ​​são iguais)

a <- rnorm(100)
mean((a-mean(a))*(a-mean(a))*(a-mean(a)))/
  (sd(a) * sd(a) * sd(a))

também parece centrar-se em 0, o que certamente me faz pensar que utilidade isso poderia ter.

Peter Flom - Restabelece Monica
fonte
2
Aparentemente, o absurdo deriva do fato de que a sdvariação é uma função da quadratura, assim como a covariância. Mas, com 3 variáveis, cubing ocorre no numerador, enquanto restos denominador com base em termos originalmente quadrados
ttnphns
2
Essa é a raiz (trocadilhos)? Numerador e denominador têm as mesmas dimensões e unidades, que são canceladas, de modo que por si só não torna a medida mal formada.
Nick Cox
3
@ Nick Isso mesmo. Este é simplesmente um dos terceiros momentos centrais multivariados. É um componente de um tensor de classificação três que fornece o conjunto completo de terceiros momentos (que está intimamente relacionado ao componente de ordem 3 da função geradora cumulativa multivariada). Em conjunto com os outros componentes, pode ser útil descrever descrições de assimetrias ("skewness" de maior dimensão) na distribuição. Porém, não é o que alguém chamaria de "correlação": quase por definição, uma correlação é uma propriedade de segunda ordem da variável padronizada.
whuber
1

Se você precisar calcular a "correlação" entre três ou mais variáveis, não poderá usar o Pearson, pois nesse caso será diferente para diferentes ordens de variáveis, veja aqui . Se você é interessante em dependência linear ou se eles são ajustados pela linha 3D, você pode usar o PCA, obter variância explicada para o primeiro PC, permutar seus dados e encontrar probabilidade, de que esse valor possa ser por razões aleatórias. Eu discuti algo semelhante aqui (consulte Detalhes técnicos abaixo).

Código Matlab

% Simulate our experimental data
x=normrnd(0,1,100,1);
y=2*x.*normrnd(1,0.1,100,1);
z=(-3*x+1.5*y).*normrnd(1,2,100,1);
% perform pca
[loadings, scores,variance]=pca([x,y,z]);
% Observed Explained Variance for first principal component
OEV1=variance(1)/sum(variance)
% perform permutations
permOEV1=[];
for iPermutation=1:1000
    permX=datasample(x,numel(x),'replace',false);
    permY=datasample(y,numel(y),'replace',false);
    permZ=datasample(z,numel(z),'replace',false);
    [loadings, scores,variance]=pca([permX,permY,permZ]);
    permOEV1(end+1)=variance(1)/sum(variance);
end

% Calculate p-value
p_value=sum(permOEV1>=OEV1)/(numel(permOEV1)+1)
zlon
fonte