Por que os autovetores de PCA são ortogonais e qual a relação com as pontuações de PCA que não estão correlacionadas?

8

Estou lendo sobre o PCA e entendo a maior parte do que está acontecendo em termos de derivação, além da suposição de que os autovetores precisam ser ortogonais e como isso se relaciona com as projeções (pontuações do PCA) não correlacionadas? Tenho duas explicações fornecidas abaixo, que usam um link entre ortogonalidade e correlação, mas não conseguem realmente explicar: UM , DOIS .

Na segunda figura, diz que a condição é imposta para garantir que a projeção não seja correlacionada com . Alguém pode fornecer um exemplo para mostrar por que vetores ortogonais garantem variáveis ​​não correlacionadas?a2Ta1=0y2=Xa2y1=Xa1

O que aconteceria no PCA se eu escolhesse vetores que não são ortogonais; isso é possível? Li em outro lugar que a ortogonalidade é apenas um subproduto da matriz de covariância simétrica, o que sugere que não é possível ter autovetores ortogonais não pareados. No entanto, no primeiro quadro em busca da matriz mais 'adequado' parece quase como estamos escolhendo para ser ortogonal para nos dar uma matriz mais conveniente aquele que tem boas propriedades.p1,,pmP

Eu li outros posts sobre esse tópico, mas fiquei insatisfeito com a incorporação da intuição com variáveis ​​não correlacionadas. Eu realmente aprecio qualquer ajuda para entender essa confusão !!

Pavan Sangha
fonte
O produto escalar dos vetores centralizados é sempre proporcional à sua covariância, que por sua vez é proporcional à sua correlação. Isso é imediato: as fórmulas para os três são iguais até uma constante diferente de zero. Assim, um é zero se e somente se o outro for zero.
whuber
@whuber Acho que você não entendeu a pergunta: OP está perguntando como a ortogonalidade dos autovetores PCA implica correlação zero das projeções de dados nesses autovetores.
Ameba
@Amoeba Receio que isso me mistifique ainda mais. Se os vetores são ortogonais, a maioria das projeções sobre esses vetores deve ser ortogonal. A pergunta que eu estava respondendo é "alguém pode fornecer um exemplo para mostrar por que vetores ortogonais garantem variáveis ​​não correlacionadas". Isso ainda parece perguntar por que a ortogonalidade implica falta de correlação.
whuber
@whuber O que você quer dizer com "Se os vetores são ortogonais, a fortiori todas as projeções nesses vetores devem ser ortogonais"? Há algum mal-entendido aqui. Tome todos os dados bivariados com correlação diferente de zero. Os vetores [0,1] e [1,0] (vetores de base) são ortogonais, mas as projeções de dados nesses vetores são correlacionadas.
Ameba
@Amoeba Tenho certeza de que você está correto e tenho igualmente certeza de que temos dois entendimentos diferentes do que você está dizendo! Se você projetar um vetor em um vector e um vetor em e e são ortogonais, em seguida, as projeções serão ortogonais também. Se, em vez disso, você projeta no espaço vetorial gerado por , é claro que as projeções não precisam ser ortogonais. Não vale a pena discutir essas trivialidades: nossa primeira preocupação deve ser esclarecer o que a pergunta realmente está pedindo. p1vp2wvwpi{v,w}
whuber

Respostas:

9

Vou tentar explicar como a ortogonalidade de e garante que e não sejam correlacionados. Queremos que maximize . Isso não será alcançado a menos que , neste caso por . Essa otimização exige o uso de um multiplicador de Lagrange (não é muito complicado, leia sobre isso na Wikipedia). Assim, tentamos maximizar com relação a e . Observe que a diferenciação em relação aa1a2y1y2a1Var(y1)=a1TΣa1a1a1Ta1=1

a1TΣa1λ(a1Ta11)
a1λλe, em seguida, igualar a fornece nossa restrição . A diferenciação em relação a fornece ou variância de será maximizado pelo maior valor próprio . Assim, . Aí vem a parte que responderá à sua pergunta . Alguns cálculos elementares usando a definição de covariância mostrarão que 0a1Ta1=1a1
Σa1λa1=0
(ΣλIp)a1=0
y1λ1λ1a1=Σa1
Cov(y1,y2)=Cov(a1Tx,a2Tx)=a1TΣa2=a2TΣa1=a2Tλ1a1=λ1a2Ta1
que será igual a se e somente se .0a2Ta1=0
Bananin
fonte
4

O PCA trabalha computando os autovetores da matriz de covariância dos dados. Ou seja, esses vetores próprios correspondem às opções de que maximizam as equações e atendem às restrições dadas em seu livro. Se você escolher vetores diferentes, eles não atenderiam a todos esses critérios e não seriam mais um PCA (você ainda encontraria vários "componentes", mas eles não seriam mais "principais").a1:M

Os vetores próprios podem ser calculados a partir de qualquer matriz quadrada e não precisam ser ortogonais. No entanto, como qualquer matriz de covariância adequada é simétrica, e as matrizes simétricas têm vetores próprios ortogonais, o PCA sempre leva a componentes ortogonais.

A ortogonalidade de e não segue apenas o requisito de que - segue todas as restrições juntas. É fácil perceber por que a ortogonalidade de e não é suficiente, porque a base original na qual os dados são expressos também é ortogonal. Por exemplo, em 2 dimensões, você teria e e claramente seus dados não precisam ser não esteja correlacionado com essas dimensões (se elas fossem, seu PCA retornaria a base original, até um fator de escala).y1y2a1Ta2=0a1a2bb1=[10]b2=[01]

O texto está redigido um pouco desajeitadamente, mas acho que o "qual" em "que garante ..." se refere à cláusula inteira que veio antes.

Ruben van Bergen
fonte
Obrigado pelo ótimo post, acho que para mim entender completamente, você poderia elaborar dois pontos: 1. Como as condições garantem a ortogonalidade de e e 2. como a ortogonalidade se torna leva às variáveis sendo não correlacionado? Talvez por meio de uma prova ou um exemplo? y1y2
Pavan Sangha