Teste de Kolmogorov – Smirnov para dados multivariados

8

Eu tenho um conjunto de arquivos que consiste em pontos selecionados aleatoriamente em um conjunto de dados, cada arquivo pertencendo a uma classe específica. Cada linha desses arquivos contém as coordenadas no espaço n do ponto. Gostaria de comparar as distribuições no espaço n de cada um desses arquivos - e sou inspirado pelo teste KS para comparar histogramas. Pelo que li, esse método não se estende bem aos dados multivariados. Eu já havia usado o PCA - mas toda a minha variação caiu em uma única dimensão ruidosa e os métodos de agrupamento eram inúteis.

Minha pergunta - existe um motivo para eu não usar apenas uma média dos valores KS no histograma para cada uma das n-dimensões como uma métrica para a qualidade do ajuste? Existe um método melhor para comparar essas distribuições?

bab
fonte

Respostas:

3

O ROOT suporta os testes de Kolmogorov em histogramas de dimensões mais altas, e as notas (para a versão 2D) sugerem que existe uma ambiguidade - com a qual eles lidam punindo: calcule-o dos dois modos. Não sei se o código contém mais detalhes, mas os comentários às vezes têm referências a artigos e afins.

Existem alguns comentários interessantes adicionais nas notas de TH1::KolmogorovTest.

dmckee --- gatinho ex-moderador
fonte
3

Eu calcularia a média e a matriz de covariância do conjunto de dados conjunto e, em seguida, faria um teste K / S na quantidade univariada avaliado nas peças. Se o teste K / S der uma diferença significativa entre as partes, existe uma. Se não houver diferença significativa, o teste deve ser considerado inconclusivo. x¯CV(x):=(xx¯)TC1(xx¯)

Arnold Neumaier
fonte