Como a soma de duas variáveis ​​explica mais variação do que as variáveis ​​individuais?

13

Estou obtendo alguns resultados desconcertantes para a correlação de uma soma com uma terceira variável quando os dois preditores estão correlacionados negativamente. O que está causando esses resultados desconcertantes?

Exemplo 1: Correlação entre a soma de duas variáveis ​​e uma terceira variável

Considere a fórmula 16.23 na página 427 do texto de Guildford de 1965, mostrado abaixo.

Descoberta desconcertante: se ambas as variáveis ​​se correlacionam .2 com a terceira variável e -.7 entre si, a fórmula resulta em um valor de .52. Como a correlação do total com a terceira variável pode ser 0,52 se as duas variáveis ​​correlacionam apenas 0,2 com a terceira variável?

Exemplo 2: Qual é a correlação múltipla entre duas variáveis ​​e uma terceira variável?

Considere a fórmula 16.1 na página 404 do texto de Guildford em 1965 (mostrado abaixo).

Descoberta desconcertante: A mesma situação. Se ambas as variáveis ​​se correlacionarem .2 com a terceira variável e -.7 entre si, a fórmula resultará em um valor de .52. Como a correlação do total com a terceira variável pode ser 0,52 se as duas variáveis ​​correlacionam apenas 0,2 com a terceira variável?

Tentei uma rápida simulação de Monte Carlo e ela confirma os resultados das fórmulas de Guilford.

Mas se os dois preditores preveem 4% da variância da terceira variável, como uma soma deles pode prever 1/4 da variância?

correlação da soma de duas variáveis ​​com uma terceira variável correlação múltipla de duas variáveis ​​com uma terceira variável

Fonte: Estatística Fundamental em Psicologia e Educação, 4ª ed., 1965.

ESCLARECIMENTO

A situação com a qual estou lidando envolve prever o desempenho futuro de cada pessoa com base na avaliação de suas habilidades agora.

Os dois diagramas de Venn abaixo mostram minha compreensão da situação e devem esclarecer minha perplexidade.

Esse diagrama de Venn (Fig. 1) reflete a ordem zero r = 0,2 entre x1 e C. No meu campo, existem muitas variáveis ​​preditivas que modestamente prevêem um critério.

Figura 1

Este diagrama de Venn (Fig. 2) reflete dois desses preditores, x1 e x2, cada um prevendo C em r = 0,2 e os dois preditores correlacionados negativamente, r = - .7.

Figura 2

Não consigo imaginar uma relação entre os dois preditores r = 0,2 que os levariam juntos a prever 25% da variação de C.

Busco ajuda para entender a relação entre x1, x2 e C.

Se (como sugerido por alguns em resposta à minha pergunta) x2 atua como uma variável supressora para x1, que área no segundo diagrama de Venn está sendo suprimida?

Se um exemplo concreto for útil, podemos considerar x1 e x2 como duas habilidades humanas e C como um GPA de 4 anos na faculdade, 4 anos depois.

Estou tendo problemas para imaginar como uma variável supressora poderia fazer com que a variação explicada de 8% dos dois r = 0,2 ordem zero rs aumentasse e explicasse 25% da variação de C. Um exemplo concreto seria uma resposta muito útil.

Joel W.
fonte
Existe uma regra prática antiga nas estatísticas de que a variação da soma de um conjunto de variáveis ​​independentes é igual à soma de suas variações.
Mike Hunter
@DJohnson. Como o seu comentário está relacionado à pergunta?
Joel W.
Desculpe, não entendi a pergunta. Para mim, é óbvio como isso se relaciona. Além disso, é um comentário que não é elegível para a recompensa nem exige uma elaboração mais profunda.
Mike Hunter
1
@DJohnson. Como o seu comentário está relacionado à pergunta? Para mim, não é óbvio como isso se relaciona.
Joel W.
2
Sua pergunta sobre o significado de N visualizações pode obter uma resposta melhor no site do Meta CV.
mdewey

Respostas:

3

Isso pode acontecer quando os dois preditores contêm um grande fator de incômodo, mas com sinal oposto; portanto, quando você os adiciona, o incômodo é cancelado e você obtém algo muito mais próximo da terceira variável.

Vamos ilustrar com um exemplo ainda mais extremo. Suponha que são variáveis ​​aleatórias normais padrão independentes. Agora deixeX,YN(0,1)

A=X

B=X+0.00001Y

Digamos que seja sua terceira variável, A , B são seus dois preditores e X é uma variável latente sobre a qual você não conhece nada. A correlação de A com Y é 0 e a correlação de B com Y é muito pequena, próxima de 0,00001. * Mas a correlação deYA,BX com Y é 1.A+BY

* Há uma pequena correção minúscula para o desvio padrão de B ser um pouco mais que 1.

Paulo
fonte
Esse tipo de situação já surge nas ciências sociais?
Joel W.
1
No jargão das ciências sociais, isso é basicamente apenas um efeito forte que confunde um efeito fraco de uma maneira particular. Não sou especialista em ciências sociais, mas não consigo imaginar que seja difícil encontrar um exemplo disso.
Paul
Você tem exemplos de outras ciências além das ciências físicas?
Joel W.
O relacionamento que você descreve pode ser mostrado em um diagrama de Venn?
Joel W.
Pessoalmente, eu não consideraria um diagrama de Venn útil aqui, mas se você precisar, desenharia B como um retângulo e depois o dividiria em dois sub-retângulos, um grande e gordo A e um pequeno e magro Y. A soma de A e B é anulando grande parte a e deixando a pequena parte Y.
Paul
10

Pode ser útil conceber as três variáveis ​​como sendo combinações lineares de outras variáveis ​​não correlacionadas. Para melhorar nossa visão, podemos descrevê-los geometricamente, trabalhar com eles algebricamente e fornecer descrições estatísticas como quisermos.

Considere-se, em seguida, três não correlacionado zero-média-variáveis unidade de desvio , Y , e Z . A partir disso, construa o seguinte:XYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

Explicação geométrica

O gráfico a seguir é sobre tudo o que você precisa para entender os relacionamentos entre essas variáveis.

Figura

Este diagrama pseudo-3D mostra , V , W e U + V no sistema de coordenadas X , Y , Z. Os ângulos entre os vetores refletem suas correlações (os coeficientes de correlação são os cossenos dos ângulos). A grande correlação negativa entre U e V é refletida no ângulo obtuso entre eles. As pequenas correlações positivas de U e V com W são refletidas por sua quase perpendicularidade. No entanto, a soma de U e V cai diretamente abaixo de WUVWU+VX,Y,ZUVUVWUVW, fazendo um ângulo agudo (cerca de 45 graus): existe uma correlação positiva inesperadamente alta.


Cálculos Algébricos

Para aqueles que desejam mais rigor, aqui está a álgebra para fazer backup da geometria no gráfico.

Todas essas raízes quadradas estão aí para fazer , V e W também apresentarem variações de unidade: isso facilita a computação de suas correlações, porque as correlações serão iguais às covariâncias. PortantoUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

porque e Y não estão correlacionados. Similarmente,XY

Cor(U,W)=3/75=1/5=0.2

e

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

Finalmente,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

Consequentemente, essas três variáveis ​​têm as correlações desejadas.


Explicação estatística

Agora podemos ver por que tudo funciona da seguinte maneira:

  • e V têm uma forte correlação negativa de - 7 / 10 porque V é proporcional ao negativo de L , mais um pouco "barulho" sob a forma de um pequeno múltiplo de Y .UV7/10VUY

  • e W têm fraca correlação positiva de 1 / 5 porque W inclui um pequeno múltiplo de L mais um lote de ruído na forma de múltiplos de Y e Z .UW1/5WUYZ

  • e W têm fraca correlação positiva de 1 / 5 porque W (quando multiplicado porVW1/5W , que não altera nenhuma correlação) é a soma de três coisas:75

    • , que está positivamente correlacionado comV;17YV
    • , cujacorrelaçãonegativacomVreduz a correlação geral;3XV
    • e um múltiplo de que introduz muito ruído.Z
  • No entanto, é, em vez positivamente correlacionada comW, porque ele é um múltiplo da referida parte deWque não incluiZ.U+V=(3X+51Y)/10=3/100(3X+17Y)WWZ

whuber
fonte
Existe uma maneira de mostrar isso em um diagrama de Venn? Apesar da matemática, ainda não vejo a lógica da soma de duas variáveis ​​explicando 25 +% da variação de uma terceira variável quando cada uma das duas variáveis ​​que entram na previsão de soma, mas 4% da variação dessa terceira variável . Como 8% de variação explicada se torna 25% de variação explicada apenas adicionando as duas variáveis?
Joel W.
Além disso, existem aplicações práticas desse fenômeno estranho?
Joel W.
Se um diagrama de Venn for inadequado para representar a variação explicada, você pode me dizer por que é inapropriado?
Joel W.
@JoelW. A resposta agradável aqui toca por diagramas de Venn não estão à altura da tarefa de ilustrar esse fenômeno (em direção ao final da resposta): stats.stackexchange.com/a/73876/5829
Jake Westfall
Joel, os Cohens, usavam um diagrama semelhante a Venn, que eles chamavam de "Ballantine" para analisar variações. Veja ww2.amstat.org/publications/jse/v10n1/kennedy.html, por exemplo. No que diz respeito às aplicações práticas, você deveria estar fazendo a pergunta oposta: que aplicações de variância e decomposições de variância não são práticas?
whuber
5

Outro exemplo simples:

  • Seja zN(0,1)
  • Seja x1N(0,1)
  • x2=zx1z=x1+x2 )

Então:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

Geometricamente, o que está acontecendo é como no gráfico do WHuber. Conceitualmente, pode ser algo como isto: enter image description here

E[XY]

x1zθ

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

To connect to the discussion in the comments Flounderer's answer, think of z as some signal, x1 as some noise, and noisy signal x2 as the sum of signal z and noise x1. Adding x1 to x2 is equivalent to subtracting noise x1 from the noisy signal x2.

Matthew Gunn
fonte
(+1) Nice example!
user795305
Please explain the premises of your answer. After positing z = x1 + x2, why say “then Corr(z,x1)=0”? Are you saying that Corr(z,x1)=0 follows from your first Let statement, or is the correlation of zero an additional assumption? If it is an additional assumption, why does the situation in the original question require that additional assumption?
Joel W.
@JoelW. I'm saying z is a random variable following the standard normal distribution and x1 is an independent random variable that also follows the standard normal distribution. z and x1 are independent, hence their correlation is precisely 0. Then compute zx1 and call that x2.
Matthew Gunn
@MatthewGunn. Your third Let says z=x1+x2. That seems to violate your first two Lets that say that z and x1 are independent.
Joel W.
1
@JoelW. I do not agree because that statement is not true. Seeing z=x1+x2 implies nothing about independence between z and x1.
Matthew Gunn
3

Addressing your comment:

Despite the math, I still do not see the logic of the sum of two variables explaining 25+% of the variance of a third variable when each off the two variables that go into the sum predict but 4% of the variance of that third variable. How can 8% explained variance become 25% explained variance just by adding the two variables?

The issue here seems to be the terminology "variance explained". Like a lot of terms in statistics, this has been chosen to make it sound like it means more than it really does.

Here's a simple numerical example. Suppose some variable Y has the values

y=(6,7,4,8,9,6,6,3,5,10)

and U is a small multiple of Y plus some error R. Let's say the values of R are much larger than the values of Y.

r=(20,80,100,90,50,70,40,30,40,60)

and U=R+0.1Y, so that

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

and suppose another variable V=R+0.1Y so that

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

Then both U and V have very small correlation with Y, but if you add them together then the r's cancel and you get exactly 0.2Y, which is perfectly correlated with Y.

In terms of variance explained, this makes perfect sense. Y explains a very small proportion of the variance in U because most of the variance in U is due to R. Similarly, most of the variance in V is due to R. But Y explains all of the variance in U+V. Here is a plot of each variable:

Plot of each of the variables

However, when you try to use the term "variance explained" in the other direction, it becomes confusing. This is because saying that something "explains" something else is a one-way relationship (with a strong hint of causation). In everyday language, A can explain B without B explaining A. Textbook authors seem to have borrowed the term "explain" to talk about correlation, in the hope that people won't realise that sharing a variance component isn't really the same as "explaining".

Flounderer
fonte
@naught101 has created some figures to illustrate your variables, Flounderer. You might want to see if including them appeals to you.
gung - Reinstate Monica
Sure, edit it however you like. I can't actually view imgur at work but I'm sure it will be fine!
Flounderer
I rejected the suggestion, b/c I didn't see that he had contacted you here. You can approve it by going to the suggested edit queue, though.
gung - Reinstate Monica
The example you provide is interesting, if carefully crafted, but the situation I presented is more general (with the numbers not carefully chosen) and based on 2 variables N(0,1). Even if we change the terminology from "explains" to "shared", the question remains. How can 2 random variables, each with 4% shared variance with a third variable, be combined in terms of a simple sum that, according to the formula, has 25% shared variance with a third variable? Also, if the goal is prediction, are there any real-world practical applications of this strange increase in shared variance?
Joel W.
Well, anywhere in electronics when you have (loud noise + weak signal) + (-loud noise) = weak signal, you would be applying this. For example, noise-cancelling headphones.
Flounderer