Estou lendo sobre o PCA e entendo a maior parte do que está acontecendo em termos de derivação, além da suposição de que os autovetores precisam ser ortogonais e como isso se relaciona com as projeções (pontuações do PCA) não correlacionadas? Tenho duas explicações fornecidas abaixo, que usam um link entre ortogonalidade e correlação, mas não conseguem realmente explicar: UM , DOIS .
Na segunda figura, diz que a condição é imposta para garantir que a projeção não seja correlacionada com . Alguém pode fornecer um exemplo para mostrar por que vetores ortogonais garantem variáveis não correlacionadas?
O que aconteceria no PCA se eu escolhesse vetores que não são ortogonais; isso é possível? Li em outro lugar que a ortogonalidade é apenas um subproduto da matriz de covariância simétrica, o que sugere que não é possível ter autovetores ortogonais não pareados. No entanto, no primeiro quadro em busca da matriz mais 'adequado' parece quase como estamos escolhendo para ser ortogonal para nos dar uma matriz mais conveniente aquele que tem boas propriedades.
Eu li outros posts sobre esse tópico, mas fiquei insatisfeito com a incorporação da intuição com variáveis não correlacionadas. Eu realmente aprecio qualquer ajuda para entender essa confusão !!
fonte
Respostas:
Vou tentar explicar como a ortogonalidade de e garante que e não sejam correlacionados. Queremos que maximize . Isso não será alcançado a menos que , neste caso por . Essa otimização exige o uso de um multiplicador de Lagrange (não é muito complicado, leia sobre isso na Wikipedia). Assim, tentamos maximizar com relação a e . Observe que a diferenciação em relação aa1 a2 y1 y2 a1 Var(y1)=aT1Σa1 a1 aT1a1=1
fonte
O PCA trabalha computando os autovetores da matriz de covariância dos dados. Ou seja, esses vetores próprios correspondem às opções de que maximizam as equações e atendem às restrições dadas em seu livro. Se você escolher vetores diferentes, eles não atenderiam a todos esses critérios e não seriam mais um PCA (você ainda encontraria vários "componentes", mas eles não seriam mais "principais").a1:M
Os vetores próprios podem ser calculados a partir de qualquer matriz quadrada e não precisam ser ortogonais. No entanto, como qualquer matriz de covariância adequada é simétrica, e as matrizes simétricas têm vetores próprios ortogonais, o PCA sempre leva a componentes ortogonais.
A ortogonalidade de e não segue apenas o requisito de que - segue todas as restrições juntas. É fácil perceber por que a ortogonalidade de e não é suficiente, porque a base original na qual os dados são expressos também é ortogonal. Por exemplo, em 2 dimensões, você teria e e claramente seus dados não precisam ser não esteja correlacionado com essas dimensões (se elas fossem, seu PCA retornaria a base original, até um fator de escala).y1 y2 aT1a2=0 a1 a2 b b1=[10] b2=[01]
O texto está redigido um pouco desajeitadamente, mas acho que o "qual" em "que garante ..." se refere à cláusula inteira que veio antes.
fonte