Usando análise de componentes principais vs análise de correspondência

9

Estou analisando um conjunto de dados sobre comunidades entre marés. Os dados são cobertura percentual (de algas, cracas, mexilhões etc.) em quadrantes. Estou acostumado a pensar na análise de correspondência (CA) em termos de contagem de espécies e na análise de componentes principais (PCA) como algo mais útil para tendências ambientais lineares (e não espécies). Realmente não tive sorte em descobrir se o PCA ou CA seria o melhor ajuste para a porcentagem de cobertura (não consigo encontrar nenhum documento), e nem tenho certeza de como seria distribuído algo que é limitado a 100% ?

Eu estou familiarizado com a diretriz aproximada de que, se o comprimento do primeiro eixo da análise de correspondência prejudicada (DCA) for maior que 2, você poderá assumir com segurança que a CA deve ser usada. O comprimento do eixo 1 do DCA era de 2,17, o que não acho útil.

HFBrowning
fonte
3
Tanto o PCA quanto o CA estão relacionados e ambos podem ser baseados no algoritmo SVD. A diferença formal fundamental (não mencionada na resposta profunda de @ Gavin) é que o PCA decompõe relações apenas entre colunas (por exemplo, decompondo sua matriz de covariância), tratando linhas como "casos"; enquanto a CA decompõe colunas e linhas simultaneamente, tratando-as simetricamente, como "categorias" de tabulação cruzada. Portanto, o biplot deixado pela CA e o quase biplot (cargas + escores) que poderiam ser plotados após o PCA fornecem informações conceitualmente bastante diferentes.
ttnphns

Respostas:

9

O PCA trabalha nos valores em que a CA trabalha nos valores relativos. Ambos são bons para dados de abundância relativa do tipo que você menciona (com uma ressalva importante, veja mais adiante). Com% de dados, você já tem uma medida relativa, mas ainda haverá diferenças. Pergunte a si mesmo

  • você deseja enfatizar o padrão nas espécies / táxons abundantes (ou seja, aqueles com grande% de cobertura), ou
  • você quer se concentrar nos padrões de composição relativa?

Se o primeiro, use o PCA. Se o último usar CA. O que quero dizer com as duas perguntas é: você gostaria

A = {50, 20, 10}
B = { 5,  2,  1}

ser considerado diferente ou igual? Ae Bsão duas amostras e os valores são a cobertura% de três táxons mostrados. (Este exemplo acabou mal, suponha que exista um terreno descoberto! ;-) O PCA consideraria esses itens muito diferentes por causa da distância euclidiana usada, mas a CA consideraria essas duas amostras como sendo muito semelhantes porque têm o mesmo perfil relativo.

A grande ressalva aqui é a natureza composicional fechada dos dados. Se você tem alguns grupos (areia, silte, argila, por exemplo) que somam 1 (100%), nenhuma das abordagens está correta e você pode passar para uma análise mais apropriada por meio do PCA de proporção de log de Aitchison, projetado para composição composicional fechada. dados. (O IIRC para fazer isso é necessário centralizar por linhas e colunas e transformar os dados pelos logs.) Existem outras abordagens também. Se você usar R, então um livro que seria útil é Analisando composicional de dados com R .

Gavin Simpson
fonte
Como sempre, uma resposta realmente excelente, Gavin. Obrigado! Isso esclarece bastante as coisas e eu usarei o PCA então. Dado que a comunidade entremarés é tridimensional, a porcentagem de cobertura foi realmente 100% em alguns casos quando os organismos cresceram um sobre o outro. Esta não é a forma composicional fechada da qual você está falando, certo?
HFBrowning
Não, não é disso que ele está falando. Por fechada Eu acredito que ele significa um sistema em que, com três espécies A, B, C, você tem% C = 100% -% B -% A
Pertinax
e o DCA?
Darwin PC
O DCA é uma versão desarrumada da CA. Portanto, os mesmos princípios gerais se aplicam a ele. O DCA está fazendo uma tortura estranha dos dados e acho que não precisamos nos preocupar com isso como um método em nossa caixa de ferramentas hoje, mas as opiniões de outros irão variar.
Gavin Simpson