Estou procurando uma boa terminologia para descrever o que estou tentando fazer, para facilitar a procura de recursos.
Então, digamos que eu tenho dois grupos de pontos A e B, cada um associado a dois valores, X e Y, e eu quero medir a "distância" entre A e B - ou seja, qual a probabilidade de eles terem sido amostrados da mesma distribuição (Eu posso assumir que as distribuições são normais). Por exemplo, se X e Y estão correlacionados em A, mas não em B, as distribuições são diferentes.
Intuitivamente, eu pegaria a matriz de covariância de A e depois veria qual a probabilidade de cada ponto em B se encaixar lá e vice-versa (provavelmente usando algo como a distância de Mahalanobis).
Mas isso é um pouco "ad-hoc", e provavelmente existe uma maneira mais rigorosa de descrever isso (é claro, na prática, tenho mais de dois conjuntos de dados com mais de duas variáveis - estou tentando identificar quais dos meus conjuntos de dados são discrepantes).
Obrigado!
Respostas:
Há também a divergência Kullback-Leibler , que está relacionada à Distância Hellinger que você mencionou acima.
fonte
Hmm, a distância Bhattacharyya parece ser o que estou procurando, embora a distância Hellinger também funcione.
fonte
Heurística
Estatísticas de teste não paramétricas
Divergências da teoria da informação
Medidas de distância do solo
fonte
A pesquisa mais completa é fornecida em Inferência Estatística Baseada em Medidas de Divergência, por Leandro Pardo, Universidade Complutense, Chapman Hall 2006.
fonte
Mais algumas medidas de "Diferença estatística"
fonte