A análise de componentes principais pode usar a decomposição da matriz, mas isso é apenas uma ferramenta para chegar lá.
Como você encontraria os principais componentes sem o uso de álgebra matricial?
Qual é a função objetivo (objetivo) e quais são as restrições?
Respostas:
Sem tentar fornecer um iniciador completo no PCA, do ponto de vista da otimização, a principal função objetivo é o quociente de Rayleigh . A matriz que figura no quociente é (alguns múltiplos) da matriz de covariância de amostra onde cada é um vector de características e é a matriz de tal modo que a -ésima linha é .xipXix T i
O PCA procura resolver uma sequência de problemas de otimização. O primeiro da sequência é o problema irrestrito
Desde, o problema irrestrito acima é equivalente ao problema restritouTu=∥u∥22=∥u∥∥u∥
Aqui é onde a álgebra da matriz entra. Como é uma matriz semidefinida positiva simétrica (por construção!), Ela tem uma decomposição de autovalor da forma onde é matriz ortogonal (então ) e é uma matriz diagonal com entradas não-negativas tais que .S
Portanto, . Como está restrito no problema a ter uma norma de um, também o é pois , em virtude de ser ortogonal.uTSu=uTQΛQTu=wTΛw=∑pi=1λiw2i u w ∥w∥2=∥QTu∥2=∥u∥2=1 Q
Mas, se queremos maximizar a quantidade sob as restrições que , o melhor que podemos fazer é: defina , ou seja, e para .∑pi=1λiw2i ∑pi=1w2i=1 w=e1 w1=1 wi=0 i>1
Agora, retornando o correspondente , que é o que buscamos em primeiro lugar, obtemos que onde indica a primeira coluna de , isto é, o vector próprio correspondente ao maior valor próprio de . O valor da função objetivo também é facilmente visto como .u
Os vetores de componentes principais restantes são encontrados resolvendo a sequência (indexada por ) dos problemas de otimização Portanto, o problema é o mesmo, exceto que adicionamos a restrição adicional de que a solução deve ser ortogonal a todas as soluções anteriores na sequência. Não é difícil estender a discussão acima indutivamente para mostrar que a solução do th problema é, de facto, , o th vector próprio de .i
A solução PCA também é frequentemente expressa em termos da decomposição de valor singular de . Para ver por isso, deixe . Então e então (estritamente falando, até assinar flips) e .X X=UDVT nS=XTX=VD2VT V=Q Λ=D2/n
Os componentes principais são encontrados projetando nos vetores dos componentes principais. A partir da formulação SVD apresentada, é fácil ver queX
A simplicidade de representação dos vetores de componentes principais e dos próprios componentes principais em termos do SVD da matriz de recursos é um dos motivos pelos quais o SVD apresenta tanto destaque em alguns tratamentos de PCA.
fonte
A solução apresentada pelo cardeal concentra-se na matriz de covariância da amostra. Outro ponto de partida é o erro de reconstrução dos dados por um hiperplano q- dimensional. Se os pontos de dados p- dimensionais são o objetivo é resolverx1,…,xn
para uma matriz com colunas ortonormais e . Isso fornece a melhor classificação q- reconstrução conforme medido pela norma euclidiana, e as colunas da solução são os primeiros q vetores de componentes principais.p×q Vq λi∈Rq Vq
Para a solução para e (isso é regressão) éVq μ λi
Para facilitar a notação, vamos supor que tenha sido centralizado nos cálculos a seguir. Temos então que minimizarxi
sobre com colunas ortonormais. Observe que é a projeção no espaço da coluna q- dimensional. Portanto, o problema é equivalente a minimizar ao longo do posto de q projecções . Ou seja, precisamos maximizar sobre a classificação q projeções , onde é a matriz de covariância de amostra. AgoraVq P=VqVTq
O erro de reconstrução sugere uma série de generalizações úteis, por exemplo, componentes principais esparsos ou reconstruções por variedades de baixa dimensão em vez de hiperplanos. Para detalhes, consulte a Seção 14.5 em Os elementos do aprendizado estatístico .
fonte
Veja NIPALS ( wiki ) para um algoritmo que não usa explicitamente uma decomposição de matriz. Suponho que é isso que você quer dizer quando diz que deseja evitar álgebra matricial, já que realmente não pode evitar álgebra matricial aqui :)
fonte