Na análise de componentes principais (PCA), pode-se escolher a matriz de covariância ou a matriz de correlação para encontrar os componentes (de seus respectivos vetores próprios). Eles fornecem resultados diferentes (cargas de PC e pontuações), porque os vetores próprios entre as duas matrizes não são iguais. Meu entendimento é que isso é causado pelo fato de que um vetor de dados brutos e sua padronização não podem ser relacionados por uma transformação ortogonal. Matematicamente, matrizes semelhantes (isto é, relacionadas por transformação ortogonal) têm os mesmos valores próprios, mas não necessariamente os mesmos vetores próprios.
Isso levanta algumas dificuldades em minha mente:
O PCA realmente faz sentido, se você puder obter duas respostas diferentes para o mesmo conjunto de dados inicial, ambas tentando obter a mesma coisa (= encontrando instruções de variação máxima)?
Ao usar a abordagem da matriz de correlação, cada variável está sendo padronizada (escalada) por seu próprio desvio padrão individual, antes de calcular os PCs. Como, então, ainda faz sentido encontrar as direções da variação máxima se os dados já foram dimensionados / compactados de forma diferente de antemão? Eu sei que esse PCA baseado em correlação é muito conveniente (variáveis padronizadas são adimensionais, portanto, suas combinações lineares podem ser adicionadas; outras vantagens também são baseadas no pragmatismo), mas está correto?
Parece-me que o PCA baseado em covariância é o único verdadeiramente correto (mesmo quando as variações das variáveis diferem bastante) e que sempre que essa versão não pode ser usada, o PCA baseado em correlação também não deve ser usado.
Eu sei que existe esta discussão: PCA sobre correlação ou covariância? - mas parece focar apenas em encontrar uma solução pragmática, que pode ou não ser também algebricamente correta.
fonte
Respostas:
Espero que essas respostas às suas duas perguntas acalmem sua preocupação:
Próximo texto e fotos adicionados por @whuber (agradeço a ele. Além disso, veja meu comentário abaixo)
Aqui está um exemplo bidimensional mostrando por que ainda faz sentido localizar os eixos principais dos dados padronizados (mostrados à direita). Observe que no gráfico à direita a nuvem ainda tem uma "forma", embora as variações ao longo dos eixos das coordenadas agora sejam exatamente iguais (a 1,0). Da mesma forma, em dimensões mais altas, a nuvem de pontos padronizada terá uma forma não esférica, mesmo que as variações ao longo de todos os eixos sejam exatamente iguais (a 1,0). Os eixos principais (com seus valores próprios correspondentes) descrevem essa forma. Outra maneira de entender isso é notar que todo o redimensionamento e deslocamento que ocorre ao padronizar as variáveis ocorre apenas nas direções dos eixos de coordenadas e não nas próprias direções principais.
O que está acontecendo aqui é geometricamente tão intuitivo e claro que seria muito difícil caracterizá-lo como uma "operação de caixa preta": pelo contrário, padronização e PCA são algumas das coisas mais básicas e rotineiras que fazemos com os dados para para entendê-los.
Continua por @ttnphns
Quando alguém preferiria fazer PCA (ou análise fatorial ou outro tipo similar de análise) em correlações (isto é, em variáveis padronizadas z) em vez de fazê-lo em covariâncias (isto é, em variáveis centralizadas)?
fonte
Falando de um ponto de vista prático - possivelmente impopular aqui - se você tiver dados medidos em diferentes escalas, siga a correlação ('UV scaling' se você é quimiométrico), mas se as variáveis estiverem na mesma escala e o tamanho delas for importante (por exemplo, com dados espectroscópicos), a covariância (centralizando apenas os dados) faz mais sentido. O PCA é um método dependente da escala e a transformação de log também pode ajudar com dados altamente distorcidos.
Na minha humilde opinião, baseada em 20 anos de aplicação prática da quimiometria, você precisa experimentar um pouco e ver o que funciona melhor para o seu tipo de dados. No final do dia, você precisa ser capaz de reproduzir seus resultados e tentar provar a previsibilidade de suas conclusões. Como você chega lá, geralmente há um caso de tentativa e erro, mas o importante é que o que você faz é documentado e reproduzível.
fonte
Não tenho tempo para entrar em uma descrição mais completa dos aspectos técnicos e detalhados do experimento que descrevi, e os esclarecimentos sobre palavras (recomendação, desempenho, ótimo) nos desviariam novamente do problema real, que é o tipo de dado de entrada . o PCA pode (não) / não (deve) estar tomando. O PCA opera utilizando combinações lineares de números (valores de variáveis). Matematicamente, é claro, pode-se adicionar dois números (reais ou complexos). Mas se eles foram redimensionados antes da transformação do PCA, a combinação linear (e, portanto, o processo de maximização) ainda é significativa para operar? Se cada variável tem a mesma variação , então claramente sim, porquexi s2 (x1/s1)+(x2/s2)=(x1+x2)/s ainda é proporcional e comparável à superposição física dos dados . Mas se , a combinação linear de quantidades padronizadas distorce os dados das variáveis de entrada para diferentesx1+x2 s1≠s2 graus. Parece pouco, então, maximizar a variação de sua combinação linear. Nesse caso, o PCA fornece uma solução para um conjunto diferente de dados, em que cada variável é dimensionada de maneira diferente. Se você não padronizar posteriormente (ao usar corr_PCA), isso poderá ser bom e necessário; mas se você simplesmente pegar a solução corr_PCA bruta como está e parar por aí, obteria uma solução matemática, mas não uma relacionada aos dados físicos. Como a padronização posterior parece obrigatória no mínimo (ou seja, 'esticar' os eixos pelos desvios padrão inversos), cov_PCA poderia ter sido usado para começar. Se você ainda está lendo agora, estou impressionado! Por enquanto, termino citando o livro de Jolliffe, p. 42, que é a parte que me preocupa:'Não se deve esquecer, no entanto, que os PCs da matriz de correlação, quando reexpressos em termos das variáveis originais, ainda são funções lineares de x que maximizam a variação em relação às variáveis padronizadas e não em relação às variáveis originais.'
Se você acha que estou interpretando isso incorretamente ou suas implicações, esse trecho pode ser um bom ponto de foco para uma discussão mais aprofundada.
fonte
There seems little point
no PCA sobre correlações. Bem, se você precisar ficar perto dos dados brutos ("dados físicos", como estranhamente o chama), não deve usar correlações, pois elas correspondem a outros dados ("distorcidos").X'X
matriz. Este formulário é ainda mais "próximo" dos dados originais do que o cov-PCA, porque nenhuma centralização de variáveis está sendo feita. E os resultados geralmente são totalmente diferentes . Você também pode fazer PCA em cossenos. As pessoas fazem PCA em todas as versões da matriz SSCP , embora covariâncias ou correlações sejam usadas com mais frequência.