Medindo a “distância” entre duas distribuições multivariadas

28

Estou procurando uma boa terminologia para descrever o que estou tentando fazer, para facilitar a procura de recursos.

Então, digamos que eu tenho dois grupos de pontos A e B, cada um associado a dois valores, X e Y, e eu quero medir a "distância" entre A e B - ou seja, qual a probabilidade de eles terem sido amostrados da mesma distribuição (Eu posso assumir que as distribuições são normais). Por exemplo, se X e Y estão correlacionados em A, mas não em B, as distribuições são diferentes.

Intuitivamente, eu pegaria a matriz de covariância de A e depois veria qual a probabilidade de cada ponto em B se encaixar lá e vice-versa (provavelmente usando algo como a distância de Mahalanobis).

Mas isso é um pouco "ad-hoc", e provavelmente existe uma maneira mais rigorosa de descrever isso (é claro, na prática, tenho mais de dois conjuntos de dados com mais de duas variáveis ​​- estou tentando identificar quais dos meus conjuntos de dados são discrepantes).

Obrigado!

Emile
fonte
Não sei por que, mas um teste de Mantel apareceu diante dos meus olhos quando li seu post.
Roman Luštrik 6/11/10

Respostas:

15

Há também a divergência Kullback-Leibler , que está relacionada à Distância Hellinger que você mencionou acima.

Restabelecer Monica - G. Simpson
fonte
2
pode-se calcular a divergência de pontos de Kullback-Leibler sem assumir a densidade de probabilidade subjacente da qual os pontos vieram?
11136 Andre Holzner
16

Hmm, a distância Bhattacharyya parece ser o que estou procurando, embora a distância Hellinger também funcione.

Emile
fonte
você menciona Bhattacharyya e Helling, em seguida, aceita uma resposta falando sobre KL ... No final, qual foi sua escolha e por quê?
Simon C.
1
Acredito que tenha sido uma divergência de KL, mas ... isso foi em 2010 e minha memória está longe de ser perfeita.
Emile
ahah sim, eu acho que sim, mas obrigada mesmo assim!
Simon C.
9

Heurística

  • Forma de Minkowski
  • Variação média ponderada (WMV)

Estatísticas de teste não paramétricas

  • 2 (Praça do Chi)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergências da teoria da informação

  • Kullback-Liebler (KL)
  • Divergência de Jensen-Shannon (métrica)
  • Divergência de Jeffrey (numericamente estável e simétrica)

Medidas de distância do solo

  • Interseção do histograma
  • Forma quadrática (QF)
  • Distância de motores de terra (EMD)
skyde
fonte
0

Mais algumas medidas de "Diferença estatística"

  • Teste de permutação (de Fisher)
  • Teorema do limite central e teorema de Slutsky
  • Teste de Mann-Whitney-Wilcoxin
  • Teste de Anderson – Darling
  • Teste de Shapiro-Wilk
  • Teste de Hosmer – Lemeshow
  • Teste de Kuiper
  • discrepância Stein kernelizada
  • Semelhança Jaccard
  • Além disso, o cluster hierárquico lida com medidas de similaridade entre grupos. As medidas mais populares de similaridade de grupo talvez sejam a ligação única, a ligação completa e a ligação média.
Danylo Zherebetskyy
fonte