No PCA, quando o número de dimensões é maior que (ou mesmo igual a) o número de amostras , por que você terá no máximo autovetores diferentes de zero? Em outras palavras, a classificação da matriz de covariância entre as dimensões é .
Exemplo: suas amostras são imagens vetorizadas, que são da dimensão , mas você só tem imagens.
pca
dimensionality-reduction
eigenvalues
GrokingPCA
fonte
fonte
Respostas:
Considere o que o PCA faz. Simplificando, o PCA (como normalmente é executado) cria um novo sistema de coordenadas ao:
(Para obter mais detalhes, consulte este excelente tópico do CV: Compreendendo a análise de componentes principais, os autovetores e os autovalores .) No entanto, ele não apenas gira seus eixos da maneira antiga. Seu novo (o primeiro componente principal) é orientado na direção da variação máxima de seus dados. O segundo componente principal é orientado na direção da próxima maior quantidade de variação ortogonal ao primeiro componente principal . Os demais componentes principais são formados da mesma forma.X1
Com isso em mente, vamos examinar o exemplo de @ amoeba . Aqui está uma matriz de dados com dois pontos em um espaço tridimensional:
Vamos ver esses pontos em um gráfico de dispersão tridimensional (pseudo):
fonte