Por que os valores de p e as estatísticas do teste ks diminuem com o aumento do tamanho da amostra? Tome este código Python como um exemplo:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Os resultados são:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Intuitivamente, entendo que à medida que n cresce, o teste é "mais seguro" e as duas distribuições são diferentes. Mas se o tamanho da amostra é muito grande, qual é o objetivo em testes de similaridade como esse e digamos o teste de Anderson Darling, ou o teste t, porque nesses casos em que n é muito grande, as distribuições sempre serão consideradas "significativamente diferente!? Agora estou me perguntando o que diabos são os valores de p. Depende muito do tamanho da amostra ... se p> 0,05 e você deseja que seja menor, basta obter mais dados; e se p <0,05 e você desejar que seja maior, remova alguns dados.
Além disso, se as duas distribuições fossem idênticas, a estatística do teste ks seria 0 e o valor p 1. Mas no meu exemplo, à medida que n aumenta, a estatística do teste ks sugere que as distribuições se tornam cada vez mais semelhantes com o tempo (diminui) , mas de acordo com o valor-p, eles se tornam mais e diferentes com o tempo (também diminui).
Respostas:
A estatística do teste diminui porque suas distribuições são muito semelhantes e amostras maiores têm menos ruído. Se você comparasse as duas distribuições teóricas usadas, deveria obter a estatística KS "verdadeira". À medida que você adiciona mais dados, sua estatística KS estimada deve se aproximar desse valor real. No entanto, mesmo quando sua estatística KS diminui, sua confiança aumenta de que elas são de fato duas distribuições diferentes (ou seja, o valor p diminui) porque você tem maior confiança em suas estimativas das distribuições individuais.
fonte
fonte