Estou usando o teste de duas amostras de Kolmogorov – Smirnov para comparar distribuições e notei uma -value é frequentemente relatado como a estatística do teste. Como é isso-determinado? Eu sei que é a probabilidade de obter um resultado pelo menos tão grande quanto o obtido, mas como é isso-determinado, dado que este é um teste não paramétrico? Ou seja, não podemos assumir flutuações gaussianas na distribuição e calcular o-value usando um -teste.
Obrigado!
kolmogorov-smirnov
C. Reed
fonte
fonte
Respostas:
Sob a hipótese nula, a distribuição assintótica da estatística Kolmogorov – Smirnov de duas amostras é a distribuição Kolmogorov, que possui CDF
Os valores de podem ser calculados a partir deste CDF - consulte as seções 4 e 2 da página da Wikipedia no teste de Kolmogorov – Smirnov.p
Parece que você está dizendo que uma estatística de teste não paramétrica não deve ter uma distribuição - esse não é o caso - o que torna esse teste não paramétrico é que a distribuição da estatística de teste não depende de qual distribuição de probabilidade contínua os dados originais vem de onde. Observe que o teste KS possui essa propriedade mesmo para amostras finitas, como mostra @cardinal nos comentários.
fonte
O valor de p, digamos 0,80, implica que 80% das amostras de tamanho n de amostras da população terão uma estatística D menor que a obtida no teste. Isso é calculado com base na estatística D do teste KS, que mede a distância máxima entre os CDFs da distribuição teórica e empírica, para a distribuição fornecida com a qual a amostra é avaliada.
Observe que apenas o valor D * SQRT (tamanho da amostra) tem uma distribuição kolmogrov e não o próprio D. Se você deseja calcular manualmente o valor de p, dado o valor de D, pode consultar as tabelas publicadas disponíveis na Internet para distribuição do kolomogrov. Esse também é o valor fornecido em pacotes como R
fonte