Existem muitas técnicas em estatísticas ecológicas para análise exploratória de dados multidimensionais. Essas são chamadas técnicas de 'ordenação'. Muitos são iguais ou estão intimamente relacionados a técnicas comuns em outras partes da estatística. Talvez o exemplo prototípico seja a análise de componentes principais (PCA). Os ecologistas podem usar o PCA e técnicas relacionadas para explorar 'gradientes' (não estou totalmente claro o que é um gradiente, mas tenho lido um pouco sobre isso).
Por esta página , o último item sob Análise de Componentes Principais (PCA) lê-se:
- O PCA tem um sério problema para os dados de vegetação: o efeito ferradura. Isso é causado pela curvilinearidade da distribuição das espécies ao longo dos gradientes. Como as curvas de resposta das espécies são tipicamente unimodais (isto é, fortemente curvilíneas), efeitos em ferradura são comuns.
Mais abaixo na página, em Análise de correspondência ou Média recíproca (AR) , refere-se ao "efeito de arco":
- RA tem um problema: o efeito de arco. Também é causado pela não linearidade das distribuições ao longo dos gradientes.
- O arco não é tão sério quanto o efeito de ferradura do PCA, porque as extremidades do gradiente não são complicadas.
Alguém pode explicar isso? Recentemente, vi esse fenômeno em gráficos que re-representam dados em um espaço dimensional mais baixo (a saber, análise de correspondência e análise fatorial).
- O que um "gradiente" corresponderia de maneira mais geral (isto é, em um contexto não ecológico)?
- Se isso acontecer com seus dados, é um "problema" ("problema sério")? Para quê?
- Como interpretar a saída onde uma ferradura / arco aparece?
- É necessário aplicar um remédio? O que? As transformações dos dados originais ajudariam? E se os dados forem classificações ordinais?
As respostas podem existir em outras páginas desse site (por exemplo, para PCA , CA e DCA ). Eu tenho tentado trabalhar com isso. Mas as discussões são apresentadas em terminologia ecológica e exemplos suficientemente desconhecidos, que são mais difíceis de entender a questão.
fonte
Respostas:
Q1
Os ecologistas falam de gradientes o tempo todo. Existem muitos tipos de gradientes, mas pode ser melhor pensar neles como uma combinação de quaisquer variáveis que você deseja ou é importante para a resposta. Portanto, um gradiente pode ser tempo, espaço, acidez do solo, nutrientes ou algo mais complexo, como uma combinação linear de uma gama de variáveis requeridas pela resposta de alguma forma.
Falamos sobre gradientes porque observamos espécies no espaço ou no tempo e várias coisas variam com esse espaço ou tempo.
Q2
Cheguei à conclusão de que em muitos casos a ferradura na PCA não é um problema sério se você entende como isso ocorre e não faz coisas tolas como tomar PC1 quando o "gradiente" é realmente representado por PC1 e PC2 (bem, também é dividido em PCs mais altos, mas espero que uma representação em 2-d esteja correta).
Na CA, acho que penso o mesmo (agora tendo sido forçado a pensar um pouco sobre isso). A solução pode formar um arco quando não há uma segunda dimensão forte nos dados, de modo que uma versão dobrada do primeiro eixo, que atenda aos requisitos de ortogonalidade dos eixos CA, explique mais "inércia" do que outra direção nos dados. Isso pode ser mais sério, pois é uma estrutura composta em que, com o PCA, o arco é apenas uma maneira de representar a abundância de espécies em locais ao longo de um único gradiente dominante.
Eu nunca entendi por que as pessoas se preocupam tanto com a ordem errada ao longo do PC1 com uma ferradura forte. Eu diria que você não deve usar apenas o PC1 nesses casos e o problema desaparece; os pares de coordenadas no PC1 e PC2 eliminam as reversões em qualquer um desses dois eixos.
Q3
Se eu visse a ferradura em um biplot PCA, interpretaria os dados como tendo um único gradiente dominante ou direção de variação.
Se eu visse o arco, provavelmente concluiria o mesmo, mas ficaria muito cauteloso ao tentar explicar o eixo 2 da CA.
Eu não aplicaria o DCA - ele apenas distorce o arco (nas melhores circunstâncias), de modo que você não veja esquisitices em plotagens 2D, mas em muitos casos produz outras estruturas espúrias, como diamantes ou trompetes, arranjo de amostras no espaço DCA. Por exemplo:
Vemos uma dispersão típica dos pontos de amostra à esquerda do gráfico.
Q4
Isso sugeriria encontrar uma direção não linear no espaço de alta dimensão dos dados. Um desses métodos é a curva principal de Hastie & Stuezel, mas estão disponíveis outros métodos de coletor não linear que podem ser suficientes.
Por exemplo, para alguns dados patológicos
Vemos uma ferradura forte. A curva principal tenta recuperar esse gradiente subjacente ou arranjo / ordenação de amostras por meio de uma curva suave nas dimensões m dos dados. A figura abaixo mostra como o algoritmo iterativo converge para algo que se aproxima do gradiente subjacente. (Eu acho que ele se afasta dos dados na parte superior do gráfico para ficar mais próximo dos dados em dimensões mais altas e, em parte, devido ao critério de autoconsistência para que uma curva seja declarada a principal).
Tenho mais detalhes, incluindo código no meu post do qual tirei essas imagens. Mas o ponto principal aqui é que as curvas principais recuperam facilmente a ordem conhecida das amostras, enquanto PC1 ou PC2 por si só não.
No caso do PCA, é comum aplicar transformações em ecologia. Transformações populares são aquelas que podem ser pensadas para retornar alguma distância não euclidiana quando a distância euclidiana é computada nos dados transformados. Por exemplo, a distância Hellinger é
A ferradura é conhecida e estudada há muito tempo em ecologia; parte da literatura inicial (além de uma aparência mais moderna) é
As principais referências da curva principal são
Sendo o primeiro uma apresentação muito ecológica.
fonte