Qual é a sua intuição / interpretação de uma distribuição de autovalores de uma matriz de correlação? Costumo ouvir que geralmente os 3 maiores autovalores são os mais importantes, enquanto aqueles próximos de zero são ruídos. Além disso, vi alguns trabalhos de pesquisa investigando como as distribuições de autovalores de ocorrência natural diferem daquelas calculadas a partir de matrizes de correlação aleatória (novamente, distinguindo ruído de sinal).
Sinta-se à vontade para elaborar suas idéias.
distributions
correlation
Eduardas
fonte
fonte
Respostas:
Costumo ouvir que geralmente os 3 maiores autovalores são os mais importantes, enquanto aqueles próximos de zero são ruídos
Você pode testar isso. Veja o artigo vinculado neste post para obter mais detalhes. Novamente, se você estiver lidando com séries temporais financeiras, primeiro você deve corrigir a leptocurticidade (por exemplo, considere a série de retornos ajustados por garch, e não os retornos brutos).
Eu já vi alguns trabalhos de pesquisa investigando como as distribuições de autovalores de ocorrência natural diferem daquelas calculadas a partir de matrizes de correlação aleatória (novamente, distinguindo ruído de sinal).
Edward:> Geralmente, alguém faria o contrário: veja a distribuição multivariada de autovalores (de matrizes de correlação) provenientes do aplicativo que você deseja. Depois de identificar um candidato credível para a distribuição de valores próprios, deve ser bastante fácil gerar a partir deles.
O melhor procedimento para identificar a distribuição multivariada dos seus autovalores depende de quantos ativos você deseja considerar simultaneamente (ou seja, quais são as dimensões da sua matriz de correlação). Existe um truque interessante se ( é o número de ativos).p≤10 p
Editar (comentários de Shabbychef)
procedimento de quatro etapas:
Uma limitação é que o cálculo rápido do casco convexo de uma série de pontos se torna extremamente lento quando o número de dimensões é maior que 10.J≥2
fonte
Os autovalores fornecem magnitudes de componentes principais da propagação de dados.
(fonte: yaroslavvb.com ) O
primeiro conjunto de dados foi gerado a partir de Gaussian com matriz de covariância segundo conjunto de dados é o primeiro conjunto de dados rotacionado por
fonte
Uma maneira de eu ter estudado esse problema no passado é construir os 'portfólios próprios' da matriz de correlação. Ou seja, pegue o vetor próprio associado ao maior valor próprio da matriz de correlação e dimensione-o para uma alavancagem bruta de 1 (ou seja, torne a soma absoluta do vetor igual a um). Em seguida, verifique se é possível encontrar alguma conexão física ou financeira real entre as ações que possuem grande representação no portfólio.k
Normalmente, o primeiro portfólio próprio é quase igual em todos os nomes, ou seja, o portfólio de 'mercado' que consiste em todos os ativos com pesos iguais em dólares. O segundo portfólio próprio pode ter algum significado semântico, dependendo do período em que você olha: por exemplo, principalmente estoques de energia ou bancos, etc. Na minha experiência, seria difícil fazer qualquer história do quinto portfólio próprio ou além, e isso depende em parte da seleção do universo e do período considerado. Isso é bom porque geralmente o quinto valor próprio não está muito além dos limites impostos pela distribuição Marchenko-Pastur.
fonte
Cada valor de suas variáveis define um ponto em um espaço dimensionalEssa nuvem de pontos geralmente é do tipo elipsóide (se não for, então você não deve considerar as variáveis como linearmente relacionadas e a correlação não significa muito). O eixo do elipsóide corresponde aos autovetores da matriz de correlação e sua "força" aos seus autovalores. A prova pode ser encontrada em qualquer livro de análise de séries temporais que cubra a Análise de componentes principais. A intuição solta de por que o PCA ou outros métodos baseados em autovalores são importantes é que você tem algum processo com algumas causas "principais" e o restante é "ruído".N N
fonte