Qual distância usar? por exemplo, manhattan, euclidiano, Bray-Curtis, etc.

11

Não sou ecologista da comunidade, mas atualmente trabalho com dados de ecologia da comunidade.

O que eu não conseguia entender, além da matemática dessas distâncias, são os critérios para cada distância a ser usada e em que situações ela pode ser aplicada. Por exemplo, o que usar com os dados da contagem? Como converter o ângulo de inclinação entre dois locais em uma distância? Ou a temperatura ou precipitação em dois locais? Quais são as premissas para cada distância e quando faz sentido?

user36491
fonte
A maneira confiável de entender as métricas de distância, suas suposições, significado e aplicabilidade é meditar em suas fórmulas. Você sabe, a anatomia comparada permitiu prever como diferentes animais vivem e se comportam. Leia também livros / artigos sobre métricas à distância.
ttnphns
2
Nota pedante: Bray-Curtis não é uma distância, mas uma dissimilaridade.
Franck Dernoncourt

Respostas:

13

Infelizmente, na maioria das situações, não há uma resposta clara para sua pergunta. Ou seja, para qualquer aplicação, certamente existem muitas métricas de distância que produzirão respostas semelhantes e precisas. Considerando que existem dezenas e provavelmente centenas de métricas de distância válidas sendo usadas ativamente, a noção de que você pode encontrar a distância "certa" não é uma maneira produtiva de pensar sobre o problema de selecionar uma métrica de distância apropriada.

Em vez disso, focaria em não escolher a métrica de distância errada . Deseja que sua distância reflita "magnitude absoluta" (por exemplo, você está interessado em usar a distância para identificar ações com valores médios semelhantes) ou refletir a forma geral da resposta (por exemplo, preços de ações que flutuam de maneira semelhante ao longo do tempo, mas pode ter valores brutos totalmente diferentes)? O primeiro cenário indicaria distâncias como Manhattan e Euclidiano, enquanto o último indicaria distância de correlação, por exemplo.

Se você conhece a estrutura de covariância de seus dados, a distância de Mahalanobis é provavelmente mais apropriada. Para dados puramente categóricos, existem muitas distâncias propostas, por exemplo, distância correspondente. Para categorias categóricas e contínuas, a distância de Gower é popular (embora, teoricamente, seja um pouco insatisfatória na minha opinião).

Finalmente, na minha opinião, sua análise será fortalecida se você demonstrar que seus resultados e conclusões são robustos à escolha da métrica da distância (dentro do subconjunto de distâncias apropriadas, é claro). Se sua análise mudar drasticamente com mudanças sutis na métrica da distância usada, mais estudos devem ser realizados para identificar o motivo da inconsistência.

ahfoss
fonte
11
Como assim correlation distance? 1- r ?
ttnphns
11
1rρ[1,1]cos1(ρ)1ρ22ρpractice
Citação do meu último comentário: Krzanowski (1983). Biometrika, 70 (1), 235--243. Veja a página 236.
ahfoss
11
OK obrigado. Verifique também esta resposta, por favor. Isso indica que r está exatamente relacionado à distância euclidiana obtida nos dados padronizados (perfis sendo comparados), o que reflect overall shape of the responseem suas palavras.
ttnphns
11
Bom post. As duas métricas estão realmente relacionadas, como você aponta. Para contextualizar seus pontos na discussão atual, a principal diferença é que, na distância euclidiana, as variáveis ​​de distância não são (geralmente) centralizadas, mas a fórmula de correlação centraliza as variáveis ​​e escalas pelo seu desvio padrão. Assim, a correlação é invariável a transformações lineares, enquanto a distância euclidiana não é necessariamente.
ahfoss
6

Escolher a distância certa não é uma tarefa elementar. Quando queremos fazer uma análise de cluster em um conjunto de dados, resultados diferentes podem aparecer usando distâncias diferentes, por isso é muito importante ter cuidado em qual distância escolher, pois podemos criar um artefato falso bom que captura bem a variabilidade, mas na verdade sem sentido em nosso problema.

A distância euclidiana é apropriada quando tenho variáveis ​​numéricas contínuas e quero refletir distâncias absolutas. Essa distância leva em consideração todas as variáveis ​​e não remove redundâncias, portanto, se eu tivesse três variáveis ​​que explicam o mesmo (estão correlacionadas), ponderaria esse efeito em três. Além disso, essa distância não é invariável à escala, então geralmente tenho que escalar anteriormente para usar a distância.
Exemplo de ecologia: Temos observações diferentes de muitas localidades, das quais os especialistas coletaram amostras de alguns fatores microbiológicos, físicos e químicos. Queremos encontrar padrões nos ecossistemas. Esses fatores têm uma alta correlação, mas sabemos que todos são relevantes, portanto, não queremos remover essas redundâncias. Usamos a distância euclidiana com dados em escala para evitar o efeito de unidades.

A distância de Mahalanobis é apropriada quando tenho variáveis ​​numéricas contínuas e quero refletir distâncias absolutas, mas queremos remover redundâncias. Se tivermos variáveis ​​repetidas, seu efeito repetitivo desaparecerá.

A família Hellinger , Species Profile e Chord distance são apropriadas quando queremos enfatizar as diferenças entre as variáveis, quando queremos diferenciar perfis. Essas distâncias pesam em quantidades totais de cada observação, de tal forma que as distâncias são pequenas quando variáveis ​​por variáveis, os indivíduos são mais semelhantes, embora em magnitudes absolutas fosse muito diferente. Cuidado! Essas distâncias refletem muito bem a diferença entre perfis, mas perdem o efeito de magnitude. Eles podem ser muito úteis quando temos diferentes tamanhos de amostra.
Exemplo de ecologia: queremos estudar a fauna de muitas terras e temos uma matriz de dados de um inventário do gastrópode (locais de amostragem em linhas e nomes de espécies em colunas). A matriz é caracterizada por ter muitos zeros e magnitudes diferentes, porque algumas localidades têm algumas espécies e outras têm outras espécies. Poderíamos usar a distância de Hellinger.

Bray-Curtis é bastante semelhante, mas é mais apropriado quando queremos diferenciar perfis e também levar em consideração as magnitudes relativas.

Gonzalo Espinosa Duelo
fonte
Obrigado por diferenciar os casos de uso e exemplos. Achei isso muito útil na aplicação a um modelo de classificação aerodinâmica.
S3DEV 14/04