Suponhamos que é o vector que maximiza a variância da projecção dos dados com matriz de design .
Agora, vi materiais que se referem a como o (primeiro) componente principal dos dados, que também é o vetor próprio com o maior valor próprio.
No entanto, também vi que o principal componente dos dados é .
Obviamente, e são coisas diferentes. Alguém pode me ajudar aqui e me dizer qual é a diferença entre essas duas definições de componentes principais?
pca
terminology
definition
meu nome é Jeff
fonte
fonte
Respostas:
Você está absolutamente correto ao observar que, apesar de (um dos vetores próprios da matriz de covariância, por exemplo, a primeira) e (projeção dos dados no quadro unidimensional subespaço estendido por ) são duas coisas diferentes, ambas denominadas "componente principal", às vezes até no mesmo texto.você X u você
Na maioria dos casos, fica claro a partir do contexto o que exatamente se entende. Em alguns casos raros, no entanto, pode realmente ser bastante confuso, por exemplo, quando são discutidas algumas técnicas relacionadas (como PCA ou CCA esparso), onde diferentes direções não precisam ser ortogonais. Nesse caso, uma declaração como "componentes são ortogonais" tem significados muito diferentes, dependendo de se referir a eixos ou projeções.vocêEu
Eu recomendaria chamar "eixo principal" ou "direção principal" e um "componente principal".você X u
Eu também vi chamado "vetor componente principal".você
Devo mencionar que a convenção alternativa é chamar "componente principal" e "pontuações do componente principal".você X u
Resumo das duas convenções:
Nota: Somente os autovetores da matriz de covariância correspondentes a autovalores diferentes de zero podem ser chamados de direções / componentes principais. Se a matriz de covariância for de classificação baixa, ela terá um ou mais valores próprios zero; autovetores correspondentes (e projeções correspondentes que são zero constante) não devem ser chamados de direções / componentes principais. Veja alguma discussão na minha resposta aqui.
fonte