Existe uma caracterização intuitiva da correlação de distância?

14

Estive olhando a página da Wikipedia para correlação de distância, onde parece ser caracterizada por como pode ser calculada. Embora eu pudesse fazer os cálculos, luto para obter quais medidas de correlação de distância e por que os cálculos têm a mesma aparência.

Existe uma (ou muitas) caracterizações mais intuitivas da correlação de distância que podem me ajudar a entender o que ela mede?

Percebo que pedir intuição é um pouco vago, mas se soubesse que tipo de intuição estava pedindo, provavelmente não teria perguntado em primeiro lugar. Eu também ficaria feliz com a intuição em relação ao caso da correlação de distância entre duas variáveis ​​aleatórias (embora a correlação de distância seja definida entre dois vetores aleatórios).

Rasmus Bååth
fonte

Respostas:

8

Esta minha resposta não responde a pergunta corretamente. Por favor, leia os comentários.

Vamos comparar a covariância usual e a covariância à distância . A parte efetiva de ambos são seus numeradores. (Os denominadores estão simplesmente na média.) O numerador de covariância é o produto cruzado somado (= produto escalar) dos desvios de um ponto, a média: ( com sobrescrito como o centróide). Para reescrever a expressão neste estilo: , com representando o desvio do ponto do centróide, ou seja, sua distância (assinada) para o centróide. A covariância é definida pela soma dos produtos das duas distâncias em todos os pontos.Σ(xiμx)(yiμy)μΣdiμxdiμydi

Como estão as coisas com a covariância à distância ? O numerador é, como você sabe, . Não é muito parecido com o que escrevemos acima? e qual é a diferença? Aqui, a distância está entre pontos de dados variáveis , não entre um ponto de dados e a média como acima. A covariância da distância é definida pela soma dos produtos das duas distâncias sobre todos os pares de pontos.Σdijxdijyd

O produto escalar (entre duas entidades - no nosso caso, variáveis e ) com base na co-distância de um ponto fixo é maximizado quando os dados são organizados em uma linha reta . O produto escalar com base na co-distância de um ponto variável * é maximizado quando os dados são organizados localmente em uma linha reta, por partes; em outras palavras, quando os dados em geral representam uma cadeia de qualquer forma , dependência de qualquer forma.xy

E, de fato, a covariância usual é maior quando o relacionamento está mais próximo de ser linear perfeito e as variações são maiores. Se você padronizar as variações para uma unidade fixa, a covariância depende apenas da força da associação linear e é denominada correlação de Pearson . E, como sabemos - e acabamos de entender por que - a covariância à distância é maior quando o relacionamento está mais próximo da curva perfeita e os spreads de dados são maiores. Se você padronizar os spreads para uma unidade fixa, a covariância depende apenas da força de alguma associação curvilínea e é denominada correlação browniana (distância) .

ttnphns
fonte
O segundo parágrafo fez clique para mim. Não sei por que não vi isso na página da wikipedia ... Obrigado!
Rasmus Bååth
Apenas imaginando, onde em en.wikipedia.org/wiki/Brownian_covariance#Distance_covariance é o numerador do seu exemplo (ou como ir do seu numerador para a versão da wikipedia)? Wikipedia apenas descrevem como calcular o quadrado da covariância distância e eu estou tendo um pouco de dificuldade que coincidem com sua descrição contra a descrição lá ...
Rasmus Baath
d
Sim, a dupla centralização está me intrigando. Seria muito apreciado se você tivesse tempo para esclarecer isso! :)
Rasmus Bååth
1
α=1