Como testar se duas distribuições multivariadas são amostradas da mesma população subjacente?

13

Digamos que você tenha dois conjuntos de dados multivariados, digamos um antigo e um novo, e que eles deveriam ter sido gerados pelo mesmo processo (para o qual você não tem modelo), mas talvez, em algum lugar ao longo da linha de coleta / criação os dados, algo deu errado. Você não deseja usar os novos dados como, por exemplo, um conjunto de validação para os dados antigos ou adicioná-los aos dados antigos.

Você pode fazer um monte de estatísticas 1-d (por variável), por exemplo, soma da classificação de Wilcoxon e tentar algumas correções de testes múltiplos, mas não tenho certeza se isso é ideal (para capturar os meandros dos dados multivariados, sem falar nos problemas de vários testes). Uma maneira é usar um classificador e verificar se você pode discriminar entre os dois conjuntos de dados (dado um classificador ideal que é ótimo). Isso parece funcionar, mas ainda assim a) perhpas, existe uma maneira melhor b) Não é realmente projetado para dizer por que é diferente (se nada mais, ele usará os melhores preditores e possivelmente perderá outros bons preditores que foram substituídos pelos melhores)

um diamante
fonte

Respostas:

3
http://131.95.113.139/courses/multivariate/mantel.pdf

Discute duas maneiras possíveis de fazer exatamente isso se seus conjuntos de dados forem do mesmo tamanho. A abordagem básica é calcular uma métrica de distância entre suas duas matrizes observadas. Para determinar se essa distância é significativa, use um teste de permutação .

Se seus conjuntos de dados não tiverem o mesmo tamanho, você poderá usar o teste de correspondência cruzada, embora não pareça ser muito popular. Em vez do teste de correspondência cruzada, você pode tentar amostrar seus dados para cima ou para baixo, para que eles tenham o mesmo tamanho, usando uma das abordagens mencionadas no primeiro artigo.

Amit Deshwar
fonte
Você menciona que, se tivermos conjuntos de dados de tamanho desigual, use o teste de correspondência cruzada. No entanto, seguindo o documento mencionado, eles usam conjuntos de dados iguais e procuram emparelhar com base nas distâncias. Você encontrou alguma evidência disso? mesmo nas notas de lançamento do cross-match, o exemplo usa igual conjuntos de dados
lukeg