Christopher Bishop escreve em seu livro Pattern Recognition and Machine Learning uma prova de que cada componente principal consecutivo maximiza a variação da projeção para uma dimensão, depois que os dados foram projetados no espaço ortogonal aos componentes selecionados anteriormente. Outros mostram provas semelhantes.
No entanto, isso prova apenas que cada componente consecutivo é a melhor projeção para uma dimensão, em termos de maximização da variação. Por que isso implica que a variação de uma projeção para dizer 5 dimensões seja maximizada escolhendo primeiro esses componentes?
Respostas:
O que se entende por variação em várias dimensões ("variação total") é simplesmente uma soma de variações em cada dimensão. Matematicamente, é um traço da matriz de covariância: o traço é simplesmente uma soma de todos os elementos diagonais. Essa definição possui várias propriedades interessantes, por exemplo, o traço é invariável sob transformações lineares ortogonais, o que significa que se você girar seus eixos de coordenadas, a variação total permanecerá a mesma.
O que é provado no livro de Bishop (seção 12.1.1), é que o principal vetor próprio da matriz de covariância fornece a direção da variação máxima. O segundo vetor próprio fornece a direção da variação máxima sob uma restrição adicional de que ele deve ser ortogonal ao primeiro vetor próprio etc. (acredito que isso constitui o Exercício 12.1). Se o objetivo é maximizar a variação total no subespaço 2D, esse procedimento é uma maximização gananciosa: primeiro escolha um eixo que maximize a variação e depois outro.
Sua pergunta é: por que esse procedimento ganancioso obtém um máximo global?
Aqui está um bom argumento que @whuber sugeriu nos comentários. Vamos primeiro alinhar o sistema de coordenadas com os eixos PCA. A matriz de covariância se torna diagonal: . Por simplicidade, consideraremos o mesmo caso 2D, ou seja, qual é o plano com variação total máxima? Queremos provar que é o plano dado pelos dois primeiros vetores de base (com variação total ).Σ=diag(λi) λ1+λ2
Considere um plano estendido por dois vetores ortogonais e . A variação total nesse plano éPortanto, é uma combinação linear de autovalores com coeficientes todos positivos, que não excedem (veja abaixo) e somam . Nesse caso, é quase óbvio que o máximo é atingido em .u v
Só resta mostrar que os coeficientes não podem exceder . Observe que , onde é o ésimo vetor base. Essa quantidade é um comprimento ao quadrado de uma projeção de no plano medido por e . Portanto, ele deve ser menor que o comprimento ao quadrado de que é igual a , QED.1 u2k+v2k=(u⋅k)2+(v⋅k)2 k k k u v k |k|2=1
Veja também a resposta do @ cardinal para Qual é a função objetivo do PCA? (segue a mesma lógica).
fonte
Se você tiver variáveis aleatórias não correlacionadas classificadas em ordem decrescente de sua variância e for solicitado a escolher delas, de modo que a variação de sua soma seja maximizada, você concorda que a abordagem gananciosa de escolher o primeiro conseguiria isso?N k k
Os dados projetados nos autovetores de sua matriz de covariância são essencialmente colunas de dados não correlacionadas e cuja variação é igual aos respectivos autovalores.N
Para que a intuição seja mais clara, precisamos relacionar a maximização da variação com o cálculo do vetor próprio da matriz de covariância com o maior valor próprio e relacionar a projeção ortogonal à remoção de correlações.
A segunda relação é clara para mim porque o coeficiente de correlação entre dois vetores (média zero) é proporcional ao seu produto interno.
A relação entre a maximização da variância e a decomposição por eigen da matriz de covariância é a seguinte.
Suponha que é a matriz de dados após centralizar as colunas. Precisamos encontrar a direção da variação máxima. Para qualquer vetor de unidade , a variação após a projeção ao longo de éD v v
que é maximizado se é o vetor próprio de correspondente ao maior valor próprio.v Cov(D)
fonte