Não sou ecologista da comunidade, mas atualmente trabalho com dados de ecologia da comunidade.
O que eu não conseguia entender, além da matemática dessas distâncias, são os critérios para cada distância a ser usada e em que situações ela pode ser aplicada. Por exemplo, o que usar com os dados da contagem? Como converter o ângulo de inclinação entre dois locais em uma distância? Ou a temperatura ou precipitação em dois locais? Quais são as premissas para cada distância e quando faz sentido?
Respostas:
Infelizmente, na maioria das situações, não há uma resposta clara para sua pergunta. Ou seja, para qualquer aplicação, certamente existem muitas métricas de distância que produzirão respostas semelhantes e precisas. Considerando que existem dezenas e provavelmente centenas de métricas de distância válidas sendo usadas ativamente, a noção de que você pode encontrar a distância "certa" não é uma maneira produtiva de pensar sobre o problema de selecionar uma métrica de distância apropriada.
Em vez disso, focaria em não escolher a métrica de distância errada . Deseja que sua distância reflita "magnitude absoluta" (por exemplo, você está interessado em usar a distância para identificar ações com valores médios semelhantes) ou refletir a forma geral da resposta (por exemplo, preços de ações que flutuam de maneira semelhante ao longo do tempo, mas pode ter valores brutos totalmente diferentes)? O primeiro cenário indicaria distâncias como Manhattan e Euclidiano, enquanto o último indicaria distância de correlação, por exemplo.
Se você conhece a estrutura de covariância de seus dados, a distância de Mahalanobis é provavelmente mais apropriada. Para dados puramente categóricos, existem muitas distâncias propostas, por exemplo, distância correspondente. Para categorias categóricas e contínuas, a distância de Gower é popular (embora, teoricamente, seja um pouco insatisfatória na minha opinião).
Finalmente, na minha opinião, sua análise será fortalecida se você demonstrar que seus resultados e conclusões são robustos à escolha da métrica da distância (dentro do subconjunto de distâncias apropriadas, é claro). Se sua análise mudar drasticamente com mudanças sutis na métrica da distância usada, mais estudos devem ser realizados para identificar o motivo da inconsistência.
fonte
correlation distance
? 1- r ?reflect overall shape of the response
em suas palavras.Escolher a distância certa não é uma tarefa elementar. Quando queremos fazer uma análise de cluster em um conjunto de dados, resultados diferentes podem aparecer usando distâncias diferentes, por isso é muito importante ter cuidado em qual distância escolher, pois podemos criar um artefato falso bom que captura bem a variabilidade, mas na verdade sem sentido em nosso problema.
A distância euclidiana é apropriada quando tenho variáveis numéricas contínuas e quero refletir distâncias absolutas. Essa distância leva em consideração todas as variáveis e não remove redundâncias, portanto, se eu tivesse três variáveis que explicam o mesmo (estão correlacionadas), ponderaria esse efeito em três. Além disso, essa distância não é invariável à escala, então geralmente tenho que escalar anteriormente para usar a distância.
Exemplo de ecologia: Temos observações diferentes de muitas localidades, das quais os especialistas coletaram amostras de alguns fatores microbiológicos, físicos e químicos. Queremos encontrar padrões nos ecossistemas. Esses fatores têm uma alta correlação, mas sabemos que todos são relevantes, portanto, não queremos remover essas redundâncias. Usamos a distância euclidiana com dados em escala para evitar o efeito de unidades.
A distância de Mahalanobis é apropriada quando tenho variáveis numéricas contínuas e quero refletir distâncias absolutas, mas queremos remover redundâncias. Se tivermos variáveis repetidas, seu efeito repetitivo desaparecerá.
A família Hellinger , Species Profile e Chord distance são apropriadas quando queremos enfatizar as diferenças entre as variáveis, quando queremos diferenciar perfis. Essas distâncias pesam em quantidades totais de cada observação, de tal forma que as distâncias são pequenas quando variáveis por variáveis, os indivíduos são mais semelhantes, embora em magnitudes absolutas fosse muito diferente. Cuidado! Essas distâncias refletem muito bem a diferença entre perfis, mas perdem o efeito de magnitude. Eles podem ser muito úteis quando temos diferentes tamanhos de amostra.
Exemplo de ecologia: queremos estudar a fauna de muitas terras e temos uma matriz de dados de um inventário do gastrópode (locais de amostragem em linhas e nomes de espécies em colunas). A matriz é caracterizada por ter muitos zeros e magnitudes diferentes, porque algumas localidades têm algumas espécies e outras têm outras espécies. Poderíamos usar a distância de Hellinger.
Bray-Curtis é bastante semelhante, mas é mais apropriado quando queremos diferenciar perfis e também levar em consideração as magnitudes relativas.
fonte
Em relação à distância de Manhattan: Kaufman, Leonard e Peter J. Rousseeuw. "Localizando grupos nos dados: uma introdução à análise de cluster." (2005).
fonte