Tudo bem usar o teste de ajuste de Kolmogorov-Smirnov para comparar duas distribuições empíricas para determinar se elas parecem ter vindo da mesma distribuição subjacente, em vez de comparar uma distribuição empírica com uma distribuição de referência pré-especificada?
Deixe-me tentar perguntar de outra maneira. Coleto N amostras de alguma distribuição em um local. Coleto M amostras em outro local. Os dados são contínuos (cada amostra é um número real entre 0 e 10, por exemplo), mas não é normalmente distribuído. Quero testar se essas amostras N + M são todas da mesma distribuição subjacente. É razoável usar o teste Kolmogorov-Smirnov para esse fim?
Em particular, eu poderia calcular a distribuição empírica das amostras e a distribuição empírica das amostrasEntão, eu poderia calcular a estatística do teste Kolmogorov-Smirnov para medir a distância entre e : ou seja, calculare use D como minha estatística de teste, como no teste de Kolmogorov-Smirnov, para garantir o ajuste. Essa é uma abordagem razoável?
(Li em outro lugar que o teste de qualidade de ajuste de Kolmogorov-Smirnov não é válido para distribuições discretas , mas admito que não entendo o que isso significa ou por que pode ser verdade. Isso significa que minha abordagem proposta é ruim? )
Ou você recomenda outra coisa?
Respostas:
Tudo bem, e bastante razoável. É referido como o teste Kolmogorov-Smirnov de duas amostras . Medir a diferença entre duas funções de distribuição pela supnorm é sempre sensato, mas para fazer um teste formal, você deseja conhecer a distribuição sob a hipótese de que as duas amostras são independentes e cada uma delas da mesma distribuição subjacente. Para confiar na teoria assintótica usual, você precisará da continuidade da distribuição comum subjacente (não das distribuições empíricas). Veja a página da Wikipedia vinculada acima para mais detalhes.
Em R, você pode usar op
ks.test
, que calcula os valores exatos para tamanhos de amostra pequenos.fonte