Supondo que eu tenha um conjunto de dados com dimensões (por exemplo, d = 20 ) para que cada dimensão seja iid X i ∼ U [ 0 ; 1 ] (em alternativa, cada dimensão X i ~ N [ 0 ; 1 ] ) e independentes um do outro.
Agora, traço um objeto aleatório desse conjunto de dados e pego os vizinhos mais próximos e calculo o PCA nesse conjunto. Em contraste com o que se poderia esperar, os valores próprios não são todos iguais. Em 20 dimensões uniformes, um resultado típico é assim:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Para dados distribuídos normais, os resultados parecem ser muito semelhantes, pelo menos ao redimensioná-los para uma soma total de (a distribuição N [ 0 ; 1 ] d tem claramente uma variação maior em primeiro lugar).
Gostaria de saber se existe algum resultado que preveja esse comportamento? Estou procurando um teste se a série de autovalores for um tanto regular e quantos dos autovalores forem esperados e quais diferem significativamente dos valores esperados.
fonte
Respostas:
fonte