Estou familiarizado com o uso de insights da Random Matrix Theory para determinar o número de componentes principais do PCA de uma matriz de covariância / correlação a ser usada para formar fatores.
Se o autovalor associado ao primeiro PC for grande, significa que os autovalores restantes devem ser pequenos (uma vez que a soma dos autovalores deve ser igual ao traço da matriz de correlação). Quando o primeiro PC é grande o suficiente, é possível que todos esses autovalores estejam abaixo dos limites inferiores na distribuição Marcenko-Pastur. Isso faz sentido que eles sejam baixos, não por causa do acaso, mas porque o primeiro valor próprio é muito grande. No entanto, isso não significa que eles contenham informações significativas. Em vez disso, faria sentido perguntar: "dado que o primeiro PC é um número grande, como seria a distribuição dos valores próprios restantes se os dados aleatórios fossem responsáveis por eles?"
Existe alguma pesquisa que resolva esse problema? Se for possível condicionar a distribuição Marcenko-Pastur ao conhecimento de um ou mais valores próprios, seria possível prosseguir iterativamente para determinar se os fatores refletem informações significativas.
Respostas:
Aqui está um documento sobre o seu problema: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf
A ideia é simples: você calcula a distribuição Marcenko-Pastur com uma variação modificada dos elementos da matriz. A variação modificada corresponde simplesmente à variação explicada por outro valor próprio que não o primeiro.
Como dito por john, você deve substituir por para os primeiros autovalores. Se você normalizou o seu problema e deseja remover apenas o primeiro componente, substitua por . Você obterá:σ2 (∑ni=1λi−∑Jj=1λj)/n J σ2 1−λ1n
Com:
Como provavelmente há mais informações em sua matriz do que apenas um grande autovalor e ruído, você observará alguma diferença. Por exemplo, em estudos de correlação de mercado, podemos observar um vazamento dos autovalores pela borda superior do espectro. (Corresponde aos setores financeiros).
Outra abordagem mencionada no documento é considerar como um parâmetro único na distribuição de marcenko. Você precisa ajustar esse parâmetro para ajustar sua curva.σ2
Para obter mais informações sobre técnicas e referências úteis, você pode dar uma olhada em: http://arxiv.org/abs/physics/0507111
fonte