Ao ler sobre o PCA, deparei-me com a seguinte explicação:
Suponha que tenhamos um conjunto de dados em que cada ponto de dados represente as pontuações de um único aluno em um teste de matemática, um teste de física, um teste de compreensão de leitura e um teste de vocabulário.
Encontramos os dois primeiros componentes principais, que capturam 90% da variabilidade nos dados e interpretam suas cargas. Concluímos que o primeiro componente principal representa a capacidade acadêmica geral e o segundo representa um contraste entre a capacidade quantitativa e a capacidade verbal.
O texto afirma que os carregamentos de PC1 e PC2 são para PC1 e ( 0,5 , 0,5 , - 0,5 , - 0,5 ) para PC2 e oferece a seguinte explicação:
[O] primeiro componente é proporcional à pontuação média e o segundo componente mede a diferença entre o primeiro par de pontuações e o segundo par de pontuações.
Não consigo entender o que essa explicação significa.
Respostas:
As cargas (que não devem ser confundidas com os autovetores) têm as seguintes propriedades:
Você extraiu 2 primeiros PCs de 4. Matriz de cargas e os valores próprios:A
Nesse caso, os dois valores próprios são iguais. É um caso raro no mundo real, diz que PC1 e PC2 são de igual força explicativa.
Suponha que você também calculou os valores dos componentes,C X^=CA′ A X^
Nx2
matriz e padronizou z (média = 0, st. Dev. = 1) dentro de cada coluna. Em seguida, (como ponto 2 acima diz), X = C A ' . Mas, porque você deixou apenas 2 PCs de 4 (você não tem mais 2 colunas A ) os valores de dados restaurados X não são exatas, - há um erro (se autovalores 3, 4 não são zero).ESTÁ BEM. Quais são os coeficientes para prever componentes por variáveis ? Claramente, se estivesse cheio , estes seriam B = ( A - 1 ) ' . Com matriz de carga não-quadrado, que pode calcular-los como B = Um ⋅ d i um g ( e i g e n v um l u e s ) - 1 = ( A + ) ' , ondeA B=(A−1)′ B=A⋅diag(eigenvalues)−1=(A+)′
4x4
diag(eigenvalues)
é a matriz diagonal quadrada com os valores próprios na diagonal e+
sobrescrito indica pseudoinverso. No seu caso:Portanto, se é matriz de variáveis centralizadas originais (ou variáveis padronizadas, se você estiver executando o PCA com base em correlações e não em covariâncias), então C = X B ; C são pontuações padronizadas dos componentes principais. Qual no seu exemplo é:X C=XB C
Nx4
Respostas relacionadas minhas:
Mais detalhado sobre cargas vs vetores próprios .
Como as pontuações dos componentes principais e as pontuações dos fatores são calculadas .
fonte