O que é o "efeito ferradura" e / ou o "efeito arco" na análise PCA / correspondência?

20

Existem muitas técnicas em estatísticas ecológicas para análise exploratória de dados multidimensionais. Essas são chamadas técnicas de 'ordenação'. Muitos são iguais ou estão intimamente relacionados a técnicas comuns em outras partes da estatística. Talvez o exemplo prototípico seja a análise de componentes principais (PCA). Os ecologistas podem usar o PCA e técnicas relacionadas para explorar 'gradientes' (não estou totalmente claro o que é um gradiente, mas tenho lido um pouco sobre isso).

Por esta página , o último item sob Análise de Componentes Principais (PCA) lê-se:

  • O PCA tem um sério problema para os dados de vegetação: o efeito ferradura. Isso é causado pela curvilinearidade da distribuição das espécies ao longo dos gradientes. Como as curvas de resposta das espécies são tipicamente unimodais (isto é, fortemente curvilíneas), efeitos em ferradura são comuns.

Mais abaixo na página, em Análise de correspondência ou Média recíproca (AR) , refere-se ao "efeito de arco":

  • RA tem um problema: o efeito de arco. Também é causado pela não linearidade das distribuições ao longo dos gradientes.
  • O arco não é tão sério quanto o efeito de ferradura do PCA, porque as extremidades do gradiente não são complicadas.

Alguém pode explicar isso? Recentemente, vi esse fenômeno em gráficos que re-representam dados em um espaço dimensional mais baixo (a saber, análise de correspondência e análise fatorial).

  1. O que um "gradiente" corresponderia de maneira mais geral (isto é, em um contexto não ecológico)?
  2. Se isso acontecer com seus dados, é um "problema" ("problema sério")? Para quê?
  3. Como interpretar a saída onde uma ferradura / arco aparece?
  4. É necessário aplicar um remédio? O que? As transformações dos dados originais ajudariam? E se os dados forem classificações ordinais?

As respostas podem existir em outras páginas desse site (por exemplo, para PCA , CA e DCA ). Eu tenho tentado trabalhar com isso. Mas as discussões são apresentadas em terminologia ecológica e exemplos suficientemente desconhecidos, que são mais difíceis de entender a questão.

- Reinstate Monica
fonte
1
(+1) Encontrei uma resposta razoavelmente clara em ordination.okstate.edu/PCA.htm . A explicação da "curvilinearidade" na sua citação está totalmente errada - e é isso que a torna tão confusa.
whuber
2
Veja também Diaconis, et al. (2008), Ferraduras em escala multidimensional e métodos locais de kernel , Ann. Appl. Stat. vol. 2, n. 3, 777-807.
cardeal
Tentei responder às suas perguntas, mas não sei ao certo como consegui que, como eu sou uma ecologista e gradiente, é assim que penso sobre essas coisas.
Reinstate Monica - G. Simpson
@ whuber: A explicação da "curvilinearidade" citada pode ser confusa e não muito clara, mas não acho que seja "totalmente errada". Se as abundâncias da espécie em função da posição ao longo do verdadeiro "gradiente" (usando um exemplo do seu link) fossem todas lineares (talvez corrompidas por algum ruído), a nuvem de pontos seria (aproximadamente) unidimensional e PCA encontraria. A nuvem de pontos se torna curvada / curvada porque as funções não são lineares. Um caso especial de gaussianos deslocados leva a uma ferradura.
ameba diz Restabelecer Monica
@Amoeba No entanto, o efeito ferradura não resulta da curvilinearidade dos gradientes das espécies: decorre de não linearidades nas proporções de distribuição . A citação, ao atribuir o efeito às formas dos próprios gradientes, não identifica a causa do fenômeno corretamente.
whuber

Respostas:

19

Q1

Os ecologistas falam de gradientes o tempo todo. Existem muitos tipos de gradientes, mas pode ser melhor pensar neles como uma combinação de quaisquer variáveis ​​que você deseja ou é importante para a resposta. Portanto, um gradiente pode ser tempo, espaço, acidez do solo, nutrientes ou algo mais complexo, como uma combinação linear de uma gama de variáveis ​​requeridas pela resposta de alguma forma.

Falamos sobre gradientes porque observamos espécies no espaço ou no tempo e várias coisas variam com esse espaço ou tempo.

Q2

Cheguei à conclusão de que em muitos casos a ferradura na PCA não é um problema sério se você entende como isso ocorre e não faz coisas tolas como tomar PC1 quando o "gradiente" é realmente representado por PC1 e PC2 (bem, também é dividido em PCs mais altos, mas espero que uma representação em 2-d esteja correta).

Na CA, acho que penso o mesmo (agora tendo sido forçado a pensar um pouco sobre isso). A solução pode formar um arco quando não há uma segunda dimensão forte nos dados, de modo que uma versão dobrada do primeiro eixo, que atenda aos requisitos de ortogonalidade dos eixos CA, explique mais "inércia" do que outra direção nos dados. Isso pode ser mais sério, pois é uma estrutura composta em que, com o PCA, o arco é apenas uma maneira de representar a abundância de espécies em locais ao longo de um único gradiente dominante.

Eu nunca entendi por que as pessoas se preocupam tanto com a ordem errada ao longo do PC1 com uma ferradura forte. Eu diria que você não deve usar apenas o PC1 nesses casos e o problema desaparece; os pares de coordenadas no PC1 e PC2 eliminam as reversões em qualquer um desses dois eixos.

Q3

Se eu visse a ferradura em um biplot PCA, interpretaria os dados como tendo um único gradiente dominante ou direção de variação.

Se eu visse o arco, provavelmente concluiria o mesmo, mas ficaria muito cauteloso ao tentar explicar o eixo 2 da CA.

Eu não aplicaria o DCA - ele apenas distorce o arco (nas melhores circunstâncias), de modo que você não veja esquisitices em plotagens 2D, mas em muitos casos produz outras estruturas espúrias, como diamantes ou trompetes, arranjo de amostras no espaço DCA. Por exemplo:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

insira a descrição da imagem aqui

Vemos uma dispersão típica dos pontos de amostra à esquerda do gráfico.

Q4

m eixos PCA, seria benéfico se pudéssemos estimar uma única variável que representa as posições dos locais / amostras ao longo do gradiente.

Isso sugeriria encontrar uma direção não linear no espaço de alta dimensão dos dados. Um desses métodos é a curva principal de Hastie & Stuezel, mas estão disponíveis outros métodos de coletor não linear que podem ser suficientes.

Por exemplo, para alguns dados patológicos

insira a descrição da imagem aqui

Vemos uma ferradura forte. A curva principal tenta recuperar esse gradiente subjacente ou arranjo / ordenação de amostras por meio de uma curva suave nas dimensões m dos dados. A figura abaixo mostra como o algoritmo iterativo converge para algo que se aproxima do gradiente subjacente. (Eu acho que ele se afasta dos dados na parte superior do gráfico para ficar mais próximo dos dados em dimensões mais altas e, em parte, devido ao critério de autoconsistência para que uma curva seja declarada a principal).

insira a descrição da imagem aqui

Tenho mais detalhes, incluindo código no meu post do qual tirei essas imagens. Mas o ponto principal aqui é que as curvas principais recuperam facilmente a ordem conhecida das amostras, enquanto PC1 ou PC2 por si só não.

No caso do PCA, é comum aplicar transformações em ecologia. Transformações populares são aquelas que podem ser pensadas para retornar alguma distância não euclidiana quando a distância euclidiana é computada nos dados transformados. Por exemplo, a distância Hellinger é

DHeeueuEunger(x1,x2)=j=1p[y1jy1+-y2jy2+]2

yEujjEuyEu+Eu

A ferradura é conhecida e estudada há muito tempo em ecologia; parte da literatura inicial (além de uma aparência mais moderna) é

As principais referências da curva principal são

Sendo o primeiro uma apresentação muito ecológica.

Restabelecer Monica - G. Simpson
fonte
Obrigado Gavin. Considere classificações ordinais 1: 5 de um conjunto de dados com perguntas como: "Eu gosto do meu médico" e "Sinto que meu médico se importa comigo como pessoa". Estes não são significativamente distribuídos pelo espaço ou pelo tempo. Qual seria o 'gradiente' aqui?
gung - Restabelece Monica
Com uma tabela 5x5 e N alto, uma maneira de visualizar os dados é com CA. Os dados são ordinais, mas a CA não reconhece isso; para que possamos verificar se as linhas / colunas adjacentes estão mais próximas do que as mais afastadas. Ambos os conjuntos de pontos caem ao longo de uma linha clara na ordem apropriada, mas a linha se curva de modo que os extremos estejam mais próximos um do outro do que o ponto médio no espaço 2D. Como isso deve ser interpretado?
gung - Restabelece Monica
A CA encontra uma ordem para as linhas (amostras) e variáveis ​​(colunas) que maximizam a dispersão das "pontuações" da amostra. Ele encontra uma variável latente (uma combinação linear das variáveis) que maximiza essa dispersão. Chamamos essa variável latente de gradiente.
Reinstate Monica - G. Simpson
Quanto à compressão, você quer dizer mais próximo um do outro no eixo CA 1 ou mais próximo em termos de distância euclidiana na escala do biplot? De qualquer forma, isso é realmente um problema na projeção dos dados para um espaço de baixa dimensão. O DCA tenta desfazer esse efeito separando as amostras no final do eixo 1 do DCA prejudicado e comprimindo as amostras perto da origem. Portanto, sim, é um problema, mas é devido à inflexibilidade do método para capturar o gradiente subjacente de forma adequada. Podemos conviver com ele ou usar uma abordagem mais flexível (pelo menos em ecologia).
Reinstate Monica - G. Simpson
1
Se você olhasse para isso em mais dimensões, o problema desapareceria. Eu acho que isso é apenas um limite do método; funciona bem em muitos casos, mas falha em outros.
Reinstate Monica - G. Simpson