Digamos que você tenha dois conjuntos de dados multivariados, digamos um antigo e um novo, e que eles deveriam ter sido gerados pelo mesmo processo (para o qual você não tem modelo), mas talvez, em algum lugar ao longo da linha de coleta / criação os dados, algo deu errado. Você não deseja usar os novos dados como, por exemplo, um conjunto de validação para os dados antigos ou adicioná-los aos dados antigos.
Você pode fazer um monte de estatísticas 1-d (por variável), por exemplo, soma da classificação de Wilcoxon e tentar algumas correções de testes múltiplos, mas não tenho certeza se isso é ideal (para capturar os meandros dos dados multivariados, sem falar nos problemas de vários testes). Uma maneira é usar um classificador e verificar se você pode discriminar entre os dois conjuntos de dados (dado um classificador ideal que é ótimo). Isso parece funcionar, mas ainda assim a) perhpas, existe uma maneira melhor b) Não é realmente projetado para dizer por que é diferente (se nada mais, ele usará os melhores preditores e possivelmente perderá outros bons preditores que foram substituídos pelos melhores)
fonte
Consulte o T ^ 2 de Hotelling ou, se você tiver dados realmente muito escuros, veja o seguinte: http://normaldeviate.wordpress.com/2012/07/14/modern-two-sample-tests/
fonte