O que exatamente é chamado de "componente principal" no PCA?

18

Suponhamos que é o vector que maximiza a variância da projecção dos dados com matriz de design .uX

Agora, vi materiais que se referem a como o (primeiro) componente principal dos dados, que também é o vetor próprio com o maior valor próprio.u

No entanto, também vi que o principal componente dos dados é .Xu

Obviamente, e são coisas diferentes. Alguém pode me ajudar aqui e me dizer qual é a diferença entre essas duas definições de componentes principais?uXu

meu nome é Jeff
fonte
O vetor próprio u é a direção do eixo (os valores de u são a direção cossenos em relação aos eixos originais). Xu são os dados em si, os valores do componente principal, as coordenadas no eixo acima mencionado).
ttnphns

Respostas:

25

Você está absolutamente correto ao observar que, apesar de (um dos vetores próprios da matriz de covariância, por exemplo, a primeira) e (projeção dos dados no quadro unidimensional subespaço estendido por ) são duas coisas diferentes, ambas denominadas "componente principal", às vezes até no mesmo texto.vocêXvocêvocê

Na maioria dos casos, fica claro a partir do contexto o que exatamente se entende. Em alguns casos raros, no entanto, pode realmente ser bastante confuso, por exemplo, quando são discutidas algumas técnicas relacionadas (como PCA ou CCA esparso), onde diferentes direções não precisam ser ortogonais. Nesse caso, uma declaração como "componentes são ortogonais" tem significados muito diferentes, dependendo de se referir a eixos ou projeções.vocêEu

Eu recomendaria chamar "eixo principal" ou "direção principal" e um "componente principal".vocêXvocê

Eu também vi chamado "vetor componente principal".você

Devo mencionar que a convenção alternativa é chamar "componente principal" e "pontuações do componente principal".vocêXvocê

Resumo das duas convenções:

Convenção 1Convenção 2você{Eixo principaldireção principalvetor componente principalprincipal componenteXvocêprincipal componentepontuações dos componentes principais

Nota: Somente os autovetores da matriz de covariância correspondentes a autovalores diferentes de zero podem ser chamados de direções / componentes principais. Se a matriz de covariância for de classificação baixa, ela terá um ou mais valores próprios zero; autovetores correspondentes (e projeções correspondentes que são zero constante) não devem ser chamados de direções / componentes principais. Veja alguma discussão na minha resposta aqui.

ameba diz Restabelecer Monica
fonte
1
A Convenção 2 deve ser ilegal. Ele tem a capacidade de criar um fim sem confusão para iniciantes, pois confunde vetores de base e componentes de vetores de dados em relação à base.
conjecturas
e a definição de Loadings? As cargas são os valores individuais do vetor próprio u?
Makis
@amoeba obrigado! uma última pergunta. No SVD, para X = USVh (Vh: V transposto) se os autovetores forem as colunas de U, posso chamar Vh como carregamento?
Makis
@sera No. Veja stats.stackexchange.com/questions/134282
ameba diz Reinstate Monica