Posso usar Kolmogorov-Smirnov para comparar duas distribuições empíricas?

16

Tudo bem usar o teste de ajuste de Kolmogorov-Smirnov para comparar duas distribuições empíricas para determinar se elas parecem ter vindo da mesma distribuição subjacente, em vez de comparar uma distribuição empírica com uma distribuição de referência pré-especificada?

Deixe-me tentar perguntar de outra maneira. Coleto N amostras de alguma distribuição em um local. Coleto M amostras em outro local. Os dados são contínuos (cada amostra é um número real entre 0 e 10, por exemplo), mas não é normalmente distribuído. Quero testar se essas amostras N + M são todas da mesma distribuição subjacente. É razoável usar o teste Kolmogorov-Smirnov para esse fim?

Em particular, eu poderia calcular a distribuição empírica F0 das amostras e a distribuição empírica das amostrasEntão, eu poderia calcular a estatística do teste Kolmogorov-Smirnov para medir a distância entre e : ou seja, calculare use D como minha estatística de teste, como no teste de Kolmogorov-Smirnov, para garantir o ajuste. Essa é uma abordagem razoável?NF1MF0F1D=supx|F0(x)F1(x)|D

(Li em outro lugar que o teste de qualidade de ajuste de Kolmogorov-Smirnov não é válido para distribuições discretas , mas admito que não entendo o que isso significa ou por que pode ser verdade. Isso significa que minha abordagem proposta é ruim? )

Ou você recomenda outra coisa?

DW
fonte
Gostaria de saber se, com base nos comentários de @ Glen_b aqui ( stats.stackexchange.com/questions/362/… ), não se deve usar o teste KS para comparar distribuições empíricas porque o teste KS não deve ser usado quando os parâmetros são estimados (? )
russellpierce

Respostas:

19

Tudo bem, e bastante razoável. É referido como o teste Kolmogorov-Smirnov de duas amostras . Medir a diferença entre duas funções de distribuição pela supnorm é sempre sensato, mas para fazer um teste formal, você deseja conhecer a distribuição sob a hipótese de que as duas amostras são independentes e cada uma delas da mesma distribuição subjacente. Para confiar na teoria assintótica usual, você precisará da continuidade da distribuição comum subjacente (não das distribuições empíricas). Veja a página da Wikipedia vinculada acima para mais detalhes.

Em R, você pode usar o ks.test, que calcula os valores exatos para tamanhos de amostra pequenos. p

NRH
fonte
8
Em R você também pode fazer um bootstrapped KS teste sekhon.berkeley.edu/matching/ks.boot.html que se livrar da exigência de continuidade
Dr G
5
mais informações se você usa Matlab
Artem Kaznatcheev