Eu tenho um conjunto de arquivos que consiste em pontos selecionados aleatoriamente em um conjunto de dados, cada arquivo pertencendo a uma classe específica. Cada linha desses arquivos contém as coordenadas no espaço n do ponto. Gostaria de comparar as distribuições no espaço n de cada um desses arquivos - e sou inspirado pelo teste KS para comparar histogramas. Pelo que li, esse método não se estende bem aos dados multivariados. Eu já havia usado o PCA - mas toda a minha variação caiu em uma única dimensão ruidosa e os métodos de agrupamento eram inúteis.
Minha pergunta - existe um motivo para eu não usar apenas uma média dos valores KS no histograma para cada uma das n-dimensões como uma métrica para a qualidade do ajuste? Existe um método melhor para comparar essas distribuições?