Por que entre duas variáveis ​​representa a proporção da variação compartilhada?

8

Em primeiro lugar, entendo que as discussões sobre geralmente provocam explicações sobre (isto é, o coeficiente de determinação em regressão). O problema que estou procurando responder é generalizar isso para todas as instâncias de correlação entre duas variáveis.R 2r2R2

Então, fiquei intrigado com a variação compartilhada por um bom tempo. Recebi algumas explicações, mas todas parecem problemáticas:

  1. É apenas mais um termo para covariância. Não pode ser esse o caso, pois a literatura de análise fatorial diferencia entre PCA e EFA, afirmando que o último é responsável pela variação compartilhada e o primeiro (o PCA obviamente é responsável pela covariância, pois está operando sobre uma matriz de covariância, portanto, compartilhada variação deve ser um conceito distinto).

  2. É o coeficiente de correlação ao quadrado ( ). Vejo:r2

Isso faz um pouco mais de sentido. O problema aqui é interpretar como isso implica em uma variação compartilhada. Por exemplo, uma interpretação de 'compartilhamento de variação' é . não se reduz a isso, ou mesmo um conceito prontamente intuitivo [ {\ rm cov} (A, B) ^ 2 / ({\ rm var} (A) \ vezes {\ rm var} (B)) ; que é um objeto tridimensional].r 2 c o v ( A , B ) 2 / ( v um r ( A ) × v um r ( B ) )cov(A,B)/[var(A)+var(B)]r2cov(A,B)2/(var(A)×var(B))

Os links acima tentam explicá-lo através de um diagrama de Ballentine. Eles não ajudam. Em primeiro lugar, os círculos têm o mesmo tamanho (o que parece ser importante para a ilustração por algum motivo), o que não leva em consideração variações desiguais. Pode-se supor que são os diagramas de Ballentine para as variáveis ​​padronizadas, portanto, variância igual; nesse caso, o segmento sobreposto seria responsável pela covariância entre duas variáveis ​​padronizadas (a correlação). Então , não .r 2rr2

TL; DR: explicações sobre variação compartilhada dizem o seguinte:

Ao quadrar o coeficiente, você sabe quanta variação, em termos percentuais, as duas variáveis ​​compartilham.

Por que seria esse o caso?

Sue Doh Nimh
fonte
1
Ambos os pontos ("covariância" e "r ao quadrado") são interpretações corretas. Eu recomendo a você esta minha resposta: é o produto de duas magnitudes relativas da covariância e é uma probabilidade quase conjunta. r2
ttnphns
1
No EFA, eles costumam dizer "variação comum", não "variação compartilhada". A variação comum é o domínio da colinearidade total. Por outro lado, o termo "variação compartilhada" não está totalmente definido (sua pergunta é sobre como defini-lo).
ttnphns
1
Os diagramas de Venn (Ballentine) falham em relacionar adequadamente o conceito de porque a magnitude da covariância não é a área de interseção dos dois círculos (variações). A covariância depende de ambas as variações. O tamanho da covariância pode ser maior que o tamanho da variação menor (o que certamente é impossível de mostrar em Venn por interseção). r2
ttnphns
1
Isso nos leva de volta à definição regressiva de como . Então, se a situação é homocedástico você pode ver facilmente a si mesmo ... 1 - S S r e s i d / S S t S tr21SSresid/SStot
ttnphns
1
Covariância é "variação compartilhada", magnitude bruta de if. Normalizado para uma magnitude relativa, pode ser de duas versões, re er-sq. r-sq pode ser interpretado como% da variação compartilhada na variação combinada.
ttnphns

Respostas:

3

Só podemos adivinhar o que um autor em particular pode significar por "variação compartilhada". Podemos esperar circunscrever as possibilidades considerando quais propriedades esse conceito deve (intuitivamente) ter. Sabemos que "variações adicionam": a variação de uma soma é a soma das variações de e quando e têm covariância zero. É natural para definir a "variância compartilhada" de com a soma a ser a fração da variância da soma representado pela variação do . Isso é suficiente para implicar as variações compartilhadas de quaisquer duas variáveis ​​aleatóriasX ε X ε X X X YX+εXεXεXXXe deve ser o quadrado do seu coeficiente de correlação.Y

Esse resultado dá sentido à interpretação de um coeficiente de correlação ao quadrado como uma "variação compartilhada": em um sentido adequado, é realmente uma fração da variação total que pode ser atribuída a uma variável na soma.

Os detalhes a seguir.

Princípios e suas implicações

É claro que se , sua "variação compartilhada" (vamos chamá-la de "SV" a partir de agora) deve ser 100%. Mas e se Y e X forem apenas versões em escala ou deslocadas uma da outra? Por exemplo, e se Y representar a temperatura de uma cidade em graus F e X representar a temperatura em graus C? Gostaria de sugerir que, nesses casos, X e Y ainda devam ter 100% de SV, para que esse conceito permaneça significativo, independentemente de como X e Y possam ser medidos:Y=XYXYXXYXY

(1)SV(α+βX,γ+δY)=SV(X,Y)

para quaisquer números e números diferentes de zero β , δ .α,γβ,δ

Outro princípio pode ser que, quando é uma variável aleatória independente de , a variação de pode ser decomposta exclusivamente em duas partes não negativas,X X + εεXX+ε

Var(X+ε)=Var(X)+Var(ε),

sugerindo que tentamos definir SV neste caso especial como

(2)SV(X,X+ε)=Var(X)Var(X)+Var(ϵ).

Como todos esses critérios são apenas de segunda ordem - eles envolvem apenas o primeiro e o segundo momentos das variáveis ​​nas formas de expectativas e variações - a exigência de que e sejam independentes e exijam apenas que não sejam correlacionados . Isso tornará a análise muito mais geral do que poderia ser.εXε

Os resultados

Esses princípios - se você os aceitar - levam a um conceito único, familiar e interpretável. O truque será reduzir o caso geral ao caso especial de uma soma, onde podemos aplicar a definição .(2)

Dado , simplesmente tentamos decompor em uma versão em escala e deslocada de mais uma variável não correlacionada com : ou seja, vamos encontrar (se possível) constantes eY X X α β(X,Y)YXXαβ e uma variável aleatória para o qualϵ

(3)Y=α+βX+ε

com . Para que a decomposição tenha alguma chance de ser única, devemos exigirCov(X,ε)=0

E[ε]=0

para que, uma vez encontrado , seja determinado porαβα

α=E[Y]βE[X].

Isso se parece muito com regressão linear e, de fato, é. O primeiro princípio diz que podemos redimensionar e para ter variação unitária (supondo que cada um tenha variação diferente de zero) e que, quando isso for feito, os resultados da regressão padrão afirmem que o valor de em é a correlação de e Y :Y β ( 3 ) XXYβ(3)XY

(4)β=ρ(X,Y).

Além disso, tomar as variações de (1)

1=Var(Y)=β2Var(X)+Var(ε)=β2+Var(ε),

implicando

(5)Var(ε)=1β2=1ρ2.

Consequentemente

SV(X,Y)=SV(X,α+βX+ε)(Model 3)=SV(βX,βX+ε)(Property 1)=Var(βX)Var(βX)+Var(ϵ)(Definition 2)=β2β2+(1β2)=β2(Result 5)=ρ2(Relation 4).

Yρ(Y,X)=ρ(X,Y)XY

SV(X,Y)=ρ(X,Y)2=ρ(Y,X)2=SV(Y,X).
whuber
fonte