Por que o teste de Kolmogorov-Smirnov funciona?

25

Ao ler sobre o teste KS de 2 amostras, entendo exatamente o que está fazendo, mas não entendo por que ele funciona .

Em outras palavras, eu posso seguir todas as etapas para calcular as funções de distribuição empírica, encontrar a diferença máxima entre os dois para encontrar a estatística D, calcular os valores críticos, converter a estatística D em um valor p etc.

Mas não tenho idéia de por que isso realmente me diz alguma coisa sobre as duas distribuições.

Alguém poderia ter me dito com tanta facilidade que preciso pular um burro e contar com que velocidade ele foge e, se a velocidade for menor que 2 km / h, rejeito a hipótese nula. Claro que posso fazer o que você me disse para fazer, mas o que isso tem a ver com a hipótese nula?

Por que o teste KS de 2 amostras funciona? O que calcular a diferença máxima entre os ECDFs tem a ver com a diferença entre as duas distribuições?

Qualquer ajuda é apreciada. Eu não sou estatístico, então assuma que eu sou um idiota, se possível.

Darcy
fonte
4
Bem-vindo ao CV, Darcy! Ótima pergunta!
Alexis
1
Salte por cima de um burro ... :)
Richard Hardy

Respostas:

9

Basicamente, o teste é consistente como resultado direto do teorema de Glivenko Cantelli, um dos resultados mais importantes de processos empíricos e talvez estatísticos.

n

Quão mais? Mmyyeeaa eu não sei. O poder do teste é meio dúbio. Eu nunca usaria isso na realidade.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf

AdamO
fonte
2
+1 Olá AdamO! Uma sentença de uma a duas frases assume o poder de ser "meio dúbio?" Eu adoraria essa perspectiva (concluí que o teste é considerado facilmente "dominado").
Alexis28:
1
F1F2p>0.05p<0.05F1=F2
1
F1F2
2
@ Alexis não, não tenho preocupações com a matemática do teste. Na verdade, acho que é bastante elegante e o resultado do teorema do limite é muito impressionante.
AdamO 29/11
2
F1F2
9

Temos duas amostras independentes e univariadas:

X1,X2,...,XNiidFY1,Y2,...,YMiidG,
GF
H0:F(x)=G(x)for all xRH1:F(x)G(x)for some xR.
{Xi}i=1N{Yj}j=1MXiYjFGxFGF(x)G(x)xR

jcz
fonte
8

Uma visão intuitiva:

O teste de Kolmogorov-Smirnov baseia-se fundamentalmente na ordenação de observações por distribuição. A lógica é que, se as duas distribuições subjacentes forem as mesmas, então, dependendo do tamanho da amostra, a ordem deve ser bem embaralhada entre as duas.

YXD

DXY

Alexis
fonte