Por que não se pode generalizar o teste de Kolmogorov-Smirnov para 2 ou mais dimensões?

9

A questão diz tudo. Eu li que ambos não podem generalizar o KS para uma dimensão igual ou maior que dois , e que implementações famosas como as do Numerical Recipes estão simplesmente erradas. Poderia explicar por que é assim?

pedrofigueira
fonte
Adicionei algumas tags (bivariadas, empíricas e cdf), com base na seção citada (na minha resposta) do artigo.
Glen_b -instala Monica
pedrofigueira - Fiz alterações substanciais na minha resposta (meu original estava errado; desculpe por isso). Provavelmente vou fazer mais edições porque pretendo voltar com referências a vários testes KS multivariados.
Glen_b -Reinstala Monica
@Glen_b muito obrigado por todo o seu tempo e esforço!
pedrofigueira 28/05

Respostas:

13

Acredito que seja legítimo citar a parte relevante do parágrafo em questão:

3. O teste KS não pode ser aplicado em duas ou mais dimensões. Os astrônomos geralmente têm conjuntos de dados com pontos distribuídos em um plano ou em dimensões mais altas, em vez de ao longo de uma linha. Vários trabalhos na literatura astronômica pretendem apresentar um teste KS bidimensional, e um é reproduzido no famoso volume Numerical Recipes. No entanto, nenhum teste baseado em EDF (incluindo KS, AD e testes relacionados) pode ser aplicado em duas dimensões ou mais, porque não há uma maneira única de ordenar os pontos para que as distâncias entre EDFs bem definidos possam ser calculadas. Pode-se construir uma estatística com base em algum procedimento de pedido e depois calcular as distâncias supremos entre dois conjuntos de dados (ou um conjunto de dados e uma curva). Mas os valores críticos da estatística resultante não são livres de distribuição.

Como afirmado, isso parece muito forte.

1) A função de distribuição bivariada, que é é um mapa de a . Ou seja, a função usa valores reais univariados entre 0 e 1. Esses valores - sendo probabilidades - certamente já estão "ordenados" - e esse (o valor da função) é o que precisamos fazer comparações para testes baseados em ECDF . Da mesma forma, o ecdf, está perfeitamente bem definido no caso bivariado.F(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

Não creio que seja necessário tentar transformá-lo em alguma função de uma variável combinada univariada, conforme o texto sugere. Você simplesmente calcula e em todas as combinações necessárias e calcula a diferença.FF^

2) No entanto, na questão de saber se é livre de distribuição, eles têm um ponto:

a) claramente essa estatística de teste não seria alterada por mudanças nas transformações das margens, ou seja, se construída como um teste de uniformes independentes bivariados, , então funciona igualmente bem como um teste de independente que . Nesse sentido, é livre de distribuição (poderíamos dizer 'sem margem').U=(U1,U2)(X1,X2)Ui=Fi(Xi)

b) no entanto, geralmente existe um ponto subjacente no sentido mais amplo de que uma versão ingênua da estatística KS (como acabei de descrever) não é mais geralmente livre de distribuição; não podemos simplesmente transformar arbitrariamente .UX=g(U)

Em uma versão anterior da minha resposta, eu disse:

Não há dificuldade, não há problema

Isto é errado. De fato, existem problemas se houver uma mudança, não apenas nas margens dos uniformes independentes bivariados, como acabamos de mencionar. No entanto, essas dificuldades foram consideradas de várias maneiras em vários artigos que produzem versões bivariadas / multivariadas das estatísticas Kolmogorov-Smirnov que não sofrem com esse problema.

Posso voltar e adicionar algumas dessas referências e alguma discussão sobre como elas funcionam assim que o tempo permitir.

Glen_b -Reinstate Monica
fonte
Esta resposta está claramente correta, mas cuidado: o teste KS pode ser usado, não significa que ele deva ser usado. Geralmente, existem testes muito melhores (mais poderosos).
Kjetil b halvorsen
Certamente - embora dependa de quais alternativas são de interesse.
Glen_b -Reinstate Monica
11
Eu não entendo completamente essa resposta. Imagino que muitos conjuntos de dados astronômicos (assim como muitos outros conjuntos de dados de pequena dimensão) não são fornecidos com sistemas de coordenadas intrinsecamente significativos. Portanto, sua alegação de que os pontos já foram "ordenados" seria inválida em tais circunstâncias. Pode ser resgatado se você conseguir mostrar que a estatística KS é independente das coordenadas usadas para identificar os locais . Não acho que isso seja verdade em duas ou mais dimensões, mas posso estar enganado.
whuber
11
@whuber Fiz alterações substanciais à luz da sua resposta muito gentil ao meu erro. Provavelmente farei outras alterações à medida que adicionar referências e mais detalhes, na esperança de fazer uma resposta que seja mais útil a longo prazo.
Glen_b -Reinstala Monica
(+1) Muito obrigado, Glen, por ampliar esta resposta e torná-la mais sutil. Embora eu ache a referência de qualidade duvidosa do OP (no início ele interpreta mal o que significam os testes de hipótese), ele finalmente admite que "o bootstrap pode ajudar, e os níveis de significância para a estatística multidimensional específica e o conjunto de dados em estudo podem ser numericamente computado ". Isso parece alinhado, pelo menos em espírito, com a forma como sua resposta está se moldando.
whuber