Eu tenho diferentes variáveis que interagem dentro de uma população. Basicamente, tenho feito um inventário de milípedes e medido alguns outros valores do terreno, como:
- As espécies e a quantidade de espécimes coletados
- Os diferentes ambientes onde os animais estão
- o pH
- A porcentagem de material orgânico
- a quantidade de P, K, Mg, Ca, Mn, Fe, Zn, Cu
- Relação Ca + Mg / K
Basicamente, eu gostaria de usar o PCA para determinar quais variáveis direcionam a variabilidade das amostras e tornam a floresta (ambientes) diferente; quais variáveis devo usar para "variáveis" e quais para "indivíduos"?
Respostas:
Como @amoeba mencionado nos comentários, o PCA examinará apenas um conjunto de dados e mostrará os principais padrões (lineares) de variação nessas variáveis, as correlações ou covariâncias entre essas variáveis e os relacionamentos entre as amostras (as linhas ) no seu conjunto de dados.
O que normalmente se faz com um conjunto de dados de espécies e um conjunto de possíveis variáveis explicativas é ajustar uma ordenação restrita. No PCA, os principais componentes, os eixos no biplot do PCA, são derivados como combinações lineares ideais de todas as variáveis. Se você executou isso em um conjunto de dados de química do solo com variáveis pH, , TotalCarbon, talvez descubra que o primeiro componente foiCa2+
e o segundo componente
Esses componentes são livremente selecionáveis a partir das variáveis medidas, e as que são escolhidas são aquelas que explicam sequencialmente a maior quantidade de variação no conjunto de dados e que cada combinação linear é ortogonal (não correlacionada com) as outras.
Em uma ordenação restrita, temos dois conjuntos de dados, mas não temos liberdade para selecionar as combinações lineares do primeiro conjunto de dados (os dados químicos do solo acima) que desejamos. Em vez disso, temos que selecionar combinações lineares das variáveis no segundo conjunto de dados que melhor explicam a variação no primeiro. Além disso, no caso do PCA, o único conjunto de dados é a matriz de resposta e não há preditores (você pode pensar na resposta como se ela própria estivesse se prevendo). No caso restrito, temos um conjunto de dados de resposta que desejamos explicar com um conjunto de variáveis explicativas.
Embora você não tenha explicado quais variáveis são a resposta, normalmente se deseja explicar a variação na abundância ou composição dessas espécies (ou seja, as respostas) usando as variáveis explicativas ambientais.
A versão restrita do PCA é uma coisa chamada Análise de Redundância (RDA) nos círculos ecológicos. Isso pressupõe um modelo de resposta linear subjacente para as espécies, que não é apropriado ou apenas apropriado se você tiver gradientes curtos ao longo dos quais as espécies respondem.
Uma alternativa ao PCA é uma coisa chamada análise de correspondência (CA). Isso é irrestrito, mas possui um modelo de resposta unimodal subjacente, que é um pouco mais realista em termos de como as espécies respondem ao longo de gradientes mais longos. Observe também que a CA modela abundâncias ou composição relativa , o PCA modela as abundâncias brutas.
Existe uma versão restrita do CA, conhecida como análise de correspondência restrita ou canônica (CCA) - que não deve ser confundida com um modelo estatístico mais formal conhecido como análise de correlação canônica.
Tanto na RDA quanto na CCA, o objetivo é modelar a variação na abundância ou composição de espécies como uma série de combinações lineares das variáveis explicativas.
Pela descrição, parece que sua esposa quer explicar a variação na composição (ou abundância) das espécies de milípedes em termos das outras variáveis medidas.
Algumas palavras de aviso; RDA e CCA são apenas regressões multivariadas; O CCA é apenas uma regressão multivariada ponderada. Tudo o que você aprendeu sobre regressão se aplica, e existem outras dicas:
então meu conselho é o mesmo que com a regressão; pense com antecedência quais são suas hipóteses e inclua variáveis que refletem essas hipóteses. Não basta jogar todas as variáveis explicativas na mistura.
Exemplo
Ordenação sem restrições
PCA
Vou mostrar um exemplo comparando PCA, CA e CCA usando o pacote vegan para R, que ajudo a manter e que foi projetado para atender a esses tipos de métodos de ordenação:
vegan não padroniza a inércia, ao contrário de Canoco, então a variação total é 1826 e os valores próprios estão nessas mesmas unidades e somam 1826
Também vemos que o primeiro valor próprio é cerca da metade da variação e, com os dois primeiros eixos, explicamos ~ 80% da variação total
Um biplot pode ser obtido a partir das pontuações das amostras e espécies nos dois primeiros componentes principais
Há duas questões aqui
CA
Uma AC pode ajudar com ambos os pontos, pois lida melhor com o gradiente longo devido ao modelo de resposta unimodal e modela a composição relativa das espécies, não a abundância bruta.
O código vegan / R para fazer isso é semelhante ao código PCA usado acima
Aqui explicamos cerca de 40% da variação entre sites em sua composição relativa
A parcela conjunta das pontuações de espécies e locais é agora menos dominada por algumas espécies
Qual PCA ou CA você escolhe deve ser determinado pelas perguntas que deseja fazer dos dados. Geralmente, com dados de espécies, estamos mais interessados na diferença no conjunto de espécies, de modo que a CA é uma escolha popular. Se tivermos um conjunto de dados de variáveis ambientais, como a química da água ou do solo, não esperamos que eles respondam de maneira unimodal ao longo de gradientes, para que a CA seja inadequada e o PCA (de uma matriz de correlação, usando
scale = TRUE
arda()
chamada) seja mais apropriado.Ordenação restrita; CCA
Agora, se tivermos o segundo conjunto de dados que desejamos usar para explicar padrões no primeiro conjunto de dados de espécies, devemos usar uma ordenação restrita. Geralmente, a escolha aqui é CCA, mas o RDA é uma alternativa, assim como o RDA após a transformação dos dados para permitir que ele lide melhor com os dados das espécies.
Reutilizamos a
cca()
função, mas fornecemos dois quadros de dados (X
para espécies eY
para variáveis explicativas / preditivas) ou uma fórmula de modelo listando a forma do modelo que desejamos ajustar.Para incluir todas as variáveis que poderíamos usar
varechem ~ ., data = varechem
como fórmula para incluir todas as variáveis - mas como eu disse acima, essa não é uma boa ideia em geralO trio da ordenação acima é produzido usando o
plot()
métodoObviamente, agora a tarefa é descobrir qual dessas variáveis é realmente importante. Observe também que explicamos cerca de 2/3 da variação de espécies usando apenas 13 variáveis. Um dos problemas de usar todas as variáveis nessa ordenação é que criamos uma configuração em arco nas pontuações de amostras e espécies, que é puramente um artefato do uso de muitas variáveis correlacionadas.
Se você quiser saber mais sobre isso, consulte a documentação vegana ou um bom livro sobre análise de dados ecológicos multivariados.
Relação com regressão
É mais simples ilustrar o link com o RDA, mas o CCA é o mesmo, exceto que tudo envolve somas marginais de tabela e linha bidirecional como pesos.
No fundo, o RDA é equivalente à aplicação do PCA a uma matriz de valores ajustados a partir de uma regressão linear múltipla ajustada aos valores de cada espécie (resposta) (abundância), por exemplo, com preditores dados pela matriz de variáveis explicativas.
Em R, podemos fazer isso como
Os valores próprios para essas duas abordagens são iguais:
Por alguma razão, não consigo obter as pontuações do eixo (cargas) correspondentes, mas, invariavelmente, elas são dimensionadas (ou não), por isso preciso examinar exatamente como elas estão sendo feitas aqui.
Nós não fazemos o RDA via
rda()
como mostrei nolm()
etc, mas usamos uma decomposição QR para a parte do modelo linear e, em seguida, SVD para a parte do PCA. Mas os passos essenciais são os mesmos.fonte
fitted()