Qual é a relação entre o primeiro componente principal e a correlação média na matriz de correlação?
Por exemplo, em uma aplicação empírica, observo que a correlação média é quase a mesma que a razão entre a variação do primeiro componente principal (primeiro valor próprio) e a variação total (soma de todos os valores próprios).
Existe um relacionamento matemático?
Abaixo está o gráfico dos resultados empíricos. Onde correlação é a correlação média entre os retornos do componente de índice de ações DAX calculados ao longo da janela de rolagem de 15 dias e a variação explicada é a parcela da variação explicada pelo primeiro componente principal, também calculada na janela de rolagem de 15 dias.
Isso poderia ser explicado por um modelo de fator de risco comum como o CAPM?
Respostas:
Acredito que a relação entre a correlação média e o autovalor do 1º PC exista, mas não seja única. Eu não sou um matemático para poder deduzi-lo, mas posso pelo menos mostrar o ponto de partida de onde a intuição ou o pensamento podem crescer.
Se você desenhar variáveis padronizadas como vetores no espaço euclidiano que o assenta (e este é o espaço reduzido onde os eixos são observações), a correlação é o cosseno entre dois vetores .
E como os vetores têm comprimento unitário (devido à padronização), os cossenos são as projeções dos vetores uns sobre os outros (como mostrado na figura à esquerda com três variáveis). O 1º PC é tal linha um neste espaço que maximiza a soma das projeções quadrados para ele, um 's, chamados cargas; e essa soma é o 1º valor próprio.
Portanto, quando você estabelece a relação entre a média das três projeções à esquerda com a soma (ou média) das três projeções ao quadrado à direita, responde à sua pergunta sobre a relação entre a correlação média e o valor próprio.
fonte
O que acho que aconteceu aqui é que todas as variáveis foram correlacionadas positivamente entre si. Nesse caso, o 1º PC geralmente se mostra muito próximo da média de todas as variáveis. Se todas as variáveis estão positivamente correlacionadas com exatamente o mesmo coeficiente de correlação , o 1º PC é exatamente proporcional à média de todas as variáveis, como explico aqui: A média de todas as variáveis pode ser vista como uma forma bruta de PCA?c
Nesse caso simples, é possível derivar matematicamente o relacionamento que você está perguntando. Considere uma matriz de correlação de tamanho parecida com a seguinte:Seu primeiro vetor próprio é igual a , que corresponde à média [escalada] de todas as variáveis. Seu valor próprio é . A soma de todos os autovalores, se é claro, dada pela soma de todos os elementos diagonais, isto é, . Portanto, a proporção da variação explicada pelo primeiro PC é igual an×n
Portanto, neste caso mais simples, a proporção de variação explicada pelo primeiro PC é 100% correlacionada com a correlação média e, para o grande é aproximadamente igual a ela. Qual é precisamente o que vemos no seu enredo.n
Espero que, para matrizes grandes, esse resultado se mantenha aproximadamente, mesmo que as correlações não sejam exatamente idênticas.
Atualizar. Usando a figura postada na pergunta, pode-se tentar estimar o notando que . Se tomarmos e , obtemos . O OP disse que os dados eram um "índice de ações DAX"; pesquisando no Google, vemos que aparentemente consiste em variáveis. Não é uma partida ruim.n n=(1−c)/(R2−c) c=0.5 R2−c=0.02 n=25 30
fonte