Teste de Kolmogorov – Smirnov: o valor p e a estatística do teste ks diminuem à medida que o tamanho da amostra aumenta

11

Por que os valores de p e as estatísticas do teste ks diminuem com o aumento do tamanho da amostra? Tome este código Python como um exemplo:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Os resultados são:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Intuitivamente, entendo que à medida que n cresce, o teste é "mais seguro" e as duas distribuições são diferentes. Mas se o tamanho da amostra é muito grande, qual é o objetivo em testes de similaridade como esse e digamos o teste de Anderson Darling, ou o teste t, porque nesses casos em que n é muito grande, as distribuições sempre serão consideradas "significativamente diferente!? Agora estou me perguntando o que diabos são os valores de p. Depende muito do tamanho da amostra ... se p> 0,05 e você deseja que seja menor, basta obter mais dados; e se p <0,05 e você desejar que seja maior, remova alguns dados.

Além disso, se as duas distribuições fossem idênticas, a estatística do teste ks seria 0 e o valor p 1. Mas no meu exemplo, à medida que n aumenta, a estatística do teste ks sugere que as distribuições se tornam cada vez mais semelhantes com o tempo (diminui) , mas de acordo com o valor-p, eles se tornam mais e diferentes com o tempo (também diminui).

Oliver Angelil
fonte
Consulte O teste de normalidade é 'essencialmente inútil'? . Observe que o que você diz não é bem verdade: se as distribuições são de fato idênticas, a distribuição do valor-p permanece uniforme, mesmo quando você aumenta o tamanho da amostra.
Scortchi - Restabelecer Monica
2
Eu tive um problema que pode estar relacionado a este: stats.stackexchange.com/questions/301628/… Isso me deixou realmente cético em relação a esse teste.
Aleksandar Jovanovic
É verdade que, com dados suficientes, é possível mostrar que tamanhos de efeito arbitrariamente pequenos, mas diferentes de zero, são estatisticamente significativos. A chave aqui é reconhecer a distinção entre significância estatística e significância prática. Para citar Homer Simpson, "você pode usar valores-p para provar qualquer coisa que seja remotamente verdadeira".
Wang Nuclear

Respostas:

4

A estatística do teste diminui porque suas distribuições são muito semelhantes e amostras maiores têm menos ruído. Se você comparasse as duas distribuições teóricas usadas, deveria obter a estatística KS "verdadeira". À medida que você adiciona mais dados, sua estatística KS estimada deve se aproximar desse valor real. No entanto, mesmo quando sua estatística KS diminui, sua confiança aumenta de que elas são de fato duas distribuições diferentes (ou seja, o valor p diminui) porque você tem maior confiança em suas estimativas das distribuições individuais.

adam.r
fonte
3

p

pp

Maarten Buis
fonte
Obrigado pela referência, mas ainda não tenho certeza do motivo pelo qual a estatística do teste ks diminui o n maior.
Oliver Angelil 22/06