Ao ler sobre o teste KS de 2 amostras, entendo exatamente o que está fazendo, mas não entendo por que ele funciona .
Em outras palavras, eu posso seguir todas as etapas para calcular as funções de distribuição empírica, encontrar a diferença máxima entre os dois para encontrar a estatística D, calcular os valores críticos, converter a estatística D em um valor p etc.
Mas não tenho idéia de por que isso realmente me diz alguma coisa sobre as duas distribuições.
Alguém poderia ter me dito com tanta facilidade que preciso pular um burro e contar com que velocidade ele foge e, se a velocidade for menor que 2 km / h, rejeito a hipótese nula. Claro que posso fazer o que você me disse para fazer, mas o que isso tem a ver com a hipótese nula?
Por que o teste KS de 2 amostras funciona? O que calcular a diferença máxima entre os ECDFs tem a ver com a diferença entre as duas distribuições?
Qualquer ajuda é apreciada. Eu não sou estatístico, então assuma que eu sou um idiota, se possível.
Respostas:
Basicamente, o teste é consistente como resultado direto do teorema de Glivenko Cantelli, um dos resultados mais importantes de processos empíricos e talvez estatísticos.
Quão mais? Mmyyeeaa eu não sei. O poder do teste é meio dúbio. Eu nunca usaria isso na realidade.
http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf
fonte
Temos duas amostras independentes e univariadas:
fonte
Uma visão intuitiva:
O teste de Kolmogorov-Smirnov baseia-se fundamentalmente na ordenação de observações por distribuição. A lógica é que, se as duas distribuições subjacentes forem as mesmas, então, dependendo do tamanho da amostra, a ordem deve ser bem embaralhada entre as duas.
fonte