Eu sei empiricamente que é o caso. Acabei de desenvolver modelos que se deparam com esse dilema. Eu também suspeito que não é necessariamente uma resposta sim / não. Quero dizer com isso, se A e B estão correlacionados com C, isso pode ter alguma implicação em relação à correlação entre A e B. Mas, essa implicação pode ser fraca. Pode ser apenas uma direção de sinal e nada mais.
Aqui está o que eu quero dizer ... Digamos que A e B tenham uma correlação de 0,5 com C. Dado que, a correlação entre A e B pode muito bem ser 1,0. Eu acho que também pode ser 0,5 ou até mais baixo. Mas acho que é improvável que seja negativo. Você concorda com aquilo?
Além disso, existe uma implicação se você estiver considerando o coeficiente de correlação padrão de Pearson ou o coeficiente de correlação de Spearman (classificação)? Minhas observações empíricas recentes foram associadas ao coeficiente de correlação de Spearman.
Respostas:
Como a correlação é uma propriedade matemática de distribuições multivariadas, alguns insights podem ser obtidos puramente através de cálculos, independentemente da gênese estatística dessas distribuições.
Para as correlações de Pearson , considerar variáveis multinormal , , . Eles são úteis para trabalhar, porque qualquer matriz definida não negativa é realmente a matriz de covariância de algumas distribuições multinormais, resolvendo assim a questão da existência. Se mantivermos matrizes com na diagonal, as entradas fora da diagonal da matriz de covariância serão suas correlações. Escrevendo a correlação de e como , a correlação de e como e a correlação de e comoX Y Z 1 X Y ρ Y Z τ X Z σ , calculamos que
Quando isso implica que . Em outras palavras: quando e são grandes em magnitude, e devem ter correlação diferente de zero.ρ 2 + τ 2 ≤ 1 ρ τ X Zσ=0 ρ2+τ2≤1 ρ τ X Z
Se , qualquer valor não negativo de (entre e , é claro) é possível.σ 0 1ρ2=τ2=1/2 σ 0 1
Quando , valores negativos de são permitidos. Por exemplo, quando , pode estar em qualquer lugar entre e .σ ρ = τ = 1 / 2 σ - 1 / 2 1ρ2+τ2<1 σ ρ = τ= 1 / 2 σ - 1 / 2 1
Essas considerações implicam que existem de fato algumas restrições nas correlações mútuas. As restrições (que dependem apenas da definição não-negativa da matriz de correlação, não das distribuições reais das variáveis) podem ser reforçadas, dependendo de suposições sobre as distribuições univariadas. Por exemplo, é fácil ver (e provar) que quando as distribuições de e não estão na mesma família de escala de local, suas correlações devem ser estritamente menores que em tamanho. (Prova: uma correlação de implica que e estão linearmente relacionados como)Y 1 ± 1 X YX Y 1 ± 1 X Y
Quanto às correlações de Spearman , considere três observações triviais , e de . Suas correlações de classificação mútua são , e . Assim, mesmo o sinal da correlação de postos de e pode ser o inverso dos sinais das correlações de e e e .( 2 , 3 , 1 ) ( 3 , 2 , 3 ) ( X , Y , Z ) 1 / 2 1 / 2 - 1 / 2 Y Z X Y X Z( 1 , 1 , 2 ) (2,3,1) (3,2,3) (X,Y,Z) 1/2 1/2 −1/2 Y Z X Y X Z
fonte
Estou em uma viagem de pesca anual agora. Existe uma correlação entre a hora do dia em que pesco e a quantidade de peixes que pesco. Há também uma correlação entre o tamanho da isca que uso e a quantidade de peixe que pego. Não há correlação entre o tamanho da isca e a hora do dia.
fonte
Correlação é o cosseno do ângulo entre dois vetores. Na situação descrita, (A, B, C) é um triplo de observações, feitas n vezes, sendo cada observação um número real. A correlação entre A e B é o co-seno do ângulo entre e V B = B - E ( B ) tal como medido no espaço euclidiano n-dimensional. Portanto, nossa situação se reduz a considerar 3 vetores V A , V B e V CVUMA= A - E( A ) VB= B - E( B ) VUMA VB VC no espaço dimensional n. Temos 3 pares de vetores e, portanto, 3 ângulos. Se dois dos ângulos são pequenos (alta correlação), o terceiro também será pequeno. Mas dizer "correlacionado" não é muita restrição: significa que o ângulo está entre 0 e . Em geral, isso não dá nenhuma restrição ao terceiro ângulo. Em outras palavras, comece com qualquer ângulo menor que π entre V A e V B (qualquer correlação, exceto -1). Vamos V C bissetriz do ângulo entre V A e V B . Então C será correlacionado com A e B.π/ 2 π VUMA VB VC VUMA VB
fonte
Como complemento da resposta do whuber's: A fórmula apresentada
.1 + 2 ρ στ- ( ρ2+ σ2+ τ2) ≥0
pode ser transformado na seguinte desigualdade (Olkin, 1981):
Uma representação gráfica dos limites superior e inferior para parece com:ρ
Olkin, I. (1981). Restrições de intervalo para matrizes de correlação produto-momento. Psychometrika, 46, 469-472. doi: 10.1007 / BF02293804
fonte
Eu acho que é melhor perguntar "por que eles devem ser correlacionados?" ou, talvez "Por que deveria haver alguma correlação específica?"
O código R a seguir mostra um caso em que x1 e x2 estão correlacionados com Y, mas têm 0 correlação entre si
A correlação com Y pode ser fortalecida reduzindo-se a 0,3 a 0,1 ou qualquer outra
fonte
Deixarei a demonstração estatística para aqueles que são mais adequados do que eu para ela ... mas, intuitivamente, digo que o evento A gera um processo X que contribui para a geração do evento C. Em seguida, A é correlacionado com C (através de X). B, por outro lado, gera Y, que também forma C. Portanto, A está correlacionado com C, B está correlacionado com C, mas A e B não estão correlacionados.
fonte
Para aqueles que querem alguma intuição, uma correlação pode ser vista como um cosseno de algum ângulo. Portanto, considere três vetores em 3D, digamos A, B e C, cada um correspondendo a uma variável. A questão é determinar a faixa de ângulos possíveis entre A e C quando o ângulo entre A e B e o ângulo entre B e C são conhecidos. Para isso, você pode jogar com uma ferramenta online sem instalar nenhum software. Basta ir para a página http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php
fonte
Vamos dar um exemplo:
Para alguns x, A e B terão correlação significativa, da mesma forma A e C também terão correlação significativa, mas a correlação de B e C não será significativa.
Portanto, não é necessariamente verdade que se A e B se correlacionam e A e C se correlacionam, B e C também se correlacionam.
Nota: Para uma compreensão profunda, pense neste exemplo em grandes dados.
fonte