Em primeiro lugar, entendo que as discussões sobre geralmente provocam explicações sobre (isto é, o coeficiente de determinação em regressão). O problema que estou procurando responder é generalizar isso para todas as instâncias de correlação entre duas variáveis.R 2
Então, fiquei intrigado com a variação compartilhada por um bom tempo. Recebi algumas explicações, mas todas parecem problemáticas:
É apenas mais um termo para covariância. Não pode ser esse o caso, pois a literatura de análise fatorial diferencia entre PCA e EFA, afirmando que o último é responsável pela variação compartilhada e o primeiro (o PCA obviamente é responsável pela covariância, pois está operando sobre uma matriz de covariância, portanto, compartilhada variação deve ser um conceito distinto).
É o coeficiente de correlação ao quadrado ( ). Vejo:
Isso faz um pouco mais de sentido. O problema aqui é interpretar como isso implica em uma variação compartilhada. Por exemplo, uma interpretação de 'compartilhamento de variação' é . não se reduz a isso, ou mesmo um conceito prontamente intuitivo [ {\ rm cov} (A, B) ^ 2 / ({\ rm var} (A) \ vezes {\ rm var} (B)) ; que é um objeto tridimensional].r 2 c o v ( A , B ) 2 / ( v um r ( A ) × v um r ( B ) )
Os links acima tentam explicá-lo através de um diagrama de Ballentine. Eles não ajudam. Em primeiro lugar, os círculos têm o mesmo tamanho (o que parece ser importante para a ilustração por algum motivo), o que não leva em consideração variações desiguais. Pode-se supor que são os diagramas de Ballentine para as variáveis padronizadas, portanto, variância igual; nesse caso, o segmento sobreposto seria responsável pela covariância entre duas variáveis padronizadas (a correlação). Então , não .r 2
TL; DR: explicações sobre variação compartilhada dizem o seguinte:
Ao quadrar o coeficiente, você sabe quanta variação, em termos percentuais, as duas variáveis compartilham.
Por que seria esse o caso?
fonte
Respostas:
Só podemos adivinhar o que um autor em particular pode significar por "variação compartilhada". Podemos esperar circunscrever as possibilidades considerando quais propriedades esse conceito deve (intuitivamente) ter. Sabemos que "variações adicionam": a variação de uma soma é a soma das variações de e quando e têm covariância zero. É natural para definir a "variância compartilhada" de com a soma a ser a fração da variância da soma representado pela variação do . Isso é suficiente para implicar as variações compartilhadas de quaisquer duas variáveis aleatóriasX ε X ε X X X YX+ ε X ε X ε X X X e deve ser o quadrado do seu coeficiente de correlação.Y
Esse resultado dá sentido à interpretação de um coeficiente de correlação ao quadrado como uma "variação compartilhada": em um sentido adequado, é realmente uma fração da variação total que pode ser atribuída a uma variável na soma.
Os detalhes a seguir.
Princípios e suas implicações
É claro que se , sua "variação compartilhada" (vamos chamá-la de "SV" a partir de agora) deve ser 100%. Mas e se Y e X forem apenas versões em escala ou deslocadas uma da outra? Por exemplo, e se Y representar a temperatura de uma cidade em graus F e X representar a temperatura em graus C? Gostaria de sugerir que, nesses casos, X e Y ainda devam ter 100% de SV, para que esse conceito permaneça significativo, independentemente de como X e Y possam ser medidos:Y= X Y X Y X X Y X Y
para quaisquer números e números diferentes de zero β , δ .α,γ β,δ
Outro princípio pode ser que, quando é uma variável aleatória independente de , a variação de pode ser decomposta exclusivamente em duas partes não negativas,X X + εε X X+ε
sugerindo que tentamos definir SV neste caso especial como
Como todos esses critérios são apenas de segunda ordem - eles envolvem apenas o primeiro e o segundo momentos das variáveis nas formas de expectativas e variações - a exigência de que e sejam independentes e exijam apenas que não sejam correlacionados . Isso tornará a análise muito mais geral do que poderia ser.εX ε
Os resultados
Esses princípios - se você os aceitar - levam a um conceito único, familiar e interpretável. O truque será reduzir o caso geral ao caso especial de uma soma, onde podemos aplicar a definição .(2)
Dado , simplesmente tentamos decompor em uma versão em escala e deslocada de mais uma variável não correlacionada com : ou seja, vamos encontrar (se possível) constantes eY X X α β(X,Y) Y X X α β e uma variável aleatória para o qualϵ
com . Para que a decomposição tenha alguma chance de ser única, devemos exigirCov(X,ε)=0
para que, uma vez encontrado , seja determinado porαβ α
Isso se parece muito com regressão linear e, de fato, é. O primeiro princípio diz que podemos redimensionar e para ter variação unitária (supondo que cada um tenha variação diferente de zero) e que, quando isso for feito, os resultados da regressão padrão afirmem que o valor de em é a correlação de e Y :Y β ( 3 ) XX Y β (3) X Y
Além disso, tomar as variações de dá(1)
implicando
Consequentemente
fonte