Por que a quantidade de variação explicada pelo meu 1º PC é tão próxima da correlação pareada média?

9

Qual é a relação entre o primeiro componente principal e a correlação média na matriz de correlação?

Por exemplo, em uma aplicação empírica, observo que a correlação média é quase a mesma que a razão entre a variação do primeiro componente principal (primeiro valor próprio) e a variação total (soma de todos os valores próprios).

Existe um relacionamento matemático?

Abaixo está o gráfico dos resultados empíricos. Onde correlação é a correlação média entre os retornos do componente de índice de ações DAX calculados ao longo da janela de rolagem de 15 dias e a variação explicada é a parcela da variação explicada pelo primeiro componente principal, também calculada na janela de rolagem de 15 dias.

Isso poderia ser explicado por um modelo de fator de risco comum como o CAPM?

insira a descrição da imagem aqui

Aluna
fonte
11
O que você acha que acontece quando muitas das correlações são negativas ou próximas de zero? Por exemplo, gere alguns dados normais bivariados com correlação zero. Por que você espera que exista alguma relação entre sua taxa de variação e essa correlação zero?
whuber

Respostas:

6

Acredito que a relação entre a correlação média e o autovalor do 1º PC exista, mas não seja única. Eu não sou um matemático para poder deduzi-lo, mas posso pelo menos mostrar o ponto de partida de onde a intuição ou o pensamento podem crescer.

Se você desenhar variáveis ​​padronizadas como vetores no espaço euclidiano que o assenta (e este é o espaço reduzido onde os eixos são observações), a correlação é o cosseno entre dois vetores .

insira a descrição da imagem aqui

E como os vetores têm comprimento unitário (devido à padronização), os cossenos são as projeções dos vetores uns sobre os outros (como mostrado na figura à esquerda com três variáveis). O 1º PC é tal linha um neste espaço que maximiza a soma das projeções quadrados para ele, um 's, chamados cargas; e essa soma é o 1º valor próprio.

Portanto, quando você estabelece a relação entre a média das três projeções à esquerda com a soma (ou média) das três projeções ao quadrado à direita, responde à sua pergunta sobre a relação entre a correlação média e o valor próprio.

ttnphns
fonte
6

O que acho que aconteceu aqui é que todas as variáveis ​​foram correlacionadas positivamente entre si. Nesse caso, o 1º PC geralmente se mostra muito próximo da média de todas as variáveis. Se todas as variáveis ​​estão positivamente correlacionadas com exatamente o mesmo coeficiente de correlação , o 1º PC é exatamente proporcional à média de todas as variáveis, como explico aqui: A média de todas as variáveis ​​pode ser vista como uma forma bruta de PCA?c

Nesse caso simples, é possível derivar matematicamente o relacionamento que você está perguntando. Considere uma matriz de correlação de tamanho parecida com a seguinte:Seu primeiro vetor próprio é igual a , que corresponde à média [escalada] de todas as variáveis. Seu valor próprio é . A soma de todos os autovalores, se é claro, dada pela soma de todos os elementos diagonais, isto é, . Portanto, a proporção da variação explicada pelo primeiro PC é igual an×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

Portanto, neste caso mais simples, a proporção de variação explicada pelo primeiro PC é 100% correlacionada com a correlação média e, para o grande é aproximadamente igual a ela. Qual é precisamente o que vemos no seu enredo.n

Espero que, para matrizes grandes, esse resultado se mantenha aproximadamente, mesmo que as correlações não sejam exatamente idênticas.


Atualizar. Usando a figura postada na pergunta, pode-se tentar estimar o notando que . Se tomarmos e , obtemos . O OP disse que os dados eram um "índice de ações DAX"; pesquisando no Google, vemos que aparentemente consiste em variáveis. Não é uma partida ruim.nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

ameba
fonte