O que exatamente é chamado de "componente principal" no PCA?

Suponhamos que é o vector que maximiza a variância da projecção dos dados com matriz de design . $u$ $X$

Agora, vi materiais que se referem a como o (primeiro) componente principal dos dados, que também é o vetor próprio com o maior valor próprio. $u$

No entanto, também vi que o principal componente dos dados é . $X u$

Obviamente, e são coisas diferentes. Alguém pode me ajudar aqui e me dizer qual é a diferença entre essas duas definições de componentes principais? $u$ $Xu$

pca terminology definition meu nome é Jeff
fonte

O vetor próprio u é a direção do eixo (os valores de u são a direção cossenos em relação aos eixos originais). Xu são os dados em si, os valores do componente principal, as coordenadas no eixo acima mencionado).

ttnphns

Você está absolutamente correto ao observar que, apesar de (um dos vetores próprios da matriz de covariância, por exemplo, a primeira) e (projeção dos dados no quadro unidimensional subespaço estendido por ) são duas coisas diferentes, ambas denominadas "componente principal", às vezes até no mesmo texto. $\mathbf{u}$ $\mathbf{X}\mathbf{u}$ $\mathbf{u}$

Na maioria dos casos, fica claro a partir do contexto o que exatamente se entende. Em alguns casos raros, no entanto, pode realmente ser bastante confuso, por exemplo, quando são discutidas algumas técnicas relacionadas (como PCA ou CCA esparso), onde diferentes direções não precisam ser ortogonais. Nesse caso, uma declaração como "componentes são ortogonais" tem significados muito diferentes, dependendo de se referir a eixos ou projeções. $\mathbf{u}_i$

Eu recomendaria chamar "eixo principal" ou "direção principal" e um "componente principal". $\mathbf{u}$ $\mathbf{X}\mathbf{u}$

Eu também vi chamado "vetor componente principal". $\mathbf u$

Devo mencionar que a convenção alternativa é chamar "componente principal" e "pontuações do componente principal". $\mathbf u$ $\mathbf{Xu}$

Resumo das duas convenções:

\begin{array}{ccc} Convenção 1 & Convenção 2 \\ você & {\begin{cases} Eixo principal \\ direção principal \\ vetor componente principal \end{cases} & principal componente \\ X você & principal componente & pontuações dos componentes principais \end{array}

$\begin{array}{c|c|c} & \text{Convention 1} & \text{Convention 2} \\ \hline \mathbf u & \begin{cases}\text{principal axis}\\ \text{principal direction}\\ \text{principal component vector}\end{cases} & \text{principal component} \\ \mathbf{Xu} & \text{principal component} & \text{principal component scores} \end{array}$

Nota: Somente os autovetores da matriz de covariância correspondentes a autovalores diferentes de zero podem ser chamados de direções / componentes principais. Se a matriz de covariância for de classificação baixa, ela terá um ou mais valores próprios zero; autovetores correspondentes (e projeções correspondentes que são zero constante) não devem ser chamados de direções / componentes principais. Veja alguma discussão na minha resposta aqui.

ameba diz Restabelecer Monica
fonte

A Convenção 2 deve ser ilegal. Ele tem a capacidade de criar um fim sem confusão para iniciantes, pois confunde vetores de base e componentes de vetores de dados em relação à base.

conjecturas

e a definição de Loadings? As cargas são os valores individuais do vetor próprio u?

Makis

@sera Consulte stats.stackexchange.com/questions/143905 e stats.stackexchange.com/questions/125684

amoeba diz Reinstate Monica

@amoeba obrigado! uma última pergunta. No SVD, para X = USVh (Vh: V transposto) se os autovetores forem as colunas de U, posso chamar Vh como carregamento?

Makis

@sera No. Veja stats.stackexchange.com/questions/134282

ameba diz Reinstate Monica

O que exatamente é chamado de "componente principal" no PCA?

Respostas: