O teste de Kolmogorov-Smirnov é válido com distribuições discretas?

29

Estou comparando uma amostra e verificando se ela distribui como uma distribuição discreta. No entanto, não tenho muita certeza de que Kolmogorov-Smirnov se aplique. A Wikipedia parece sugerir que não. Caso contrário, como posso testar a distribuição da amostra?

Wilhelm
fonte
+1 Um belo exemplo de aplicação incorreta do Teste KS a dados com (muitos) vínculos é apresentado na página de ajuda de um complemento de estatísticas do Excel em real-statistics.com/non-parametric-tests/goodness-of-fit- testes / ... . O resultado está errado por vários motivos. Advertência, lector!
whuber
Testes KS para distribuições nulas discretas estão disponíveis: en.wikipedia.org/wiki/…
Astrid

Respostas:

14

Não se aplica a distribuições discretas. Consulte http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm, por exemplo.

Existe alguma razão para você não poder usar um teste de ajuste de qualidade qui-quadrado? consulte http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm para obter mais informações.

PeterR
fonte
Desculpe a invasão, mas eu realmente não entendo por que ela é aplicável apenas à distribuição contínua (KS e outros testes de validação). Alguém pode me explicar esse fato?
Maurizio
6
@Maurizio - a estatística do teste KS tem a mesma distribuição em todas as distribuições contínuas , mas se a distribuição real não for contínua e se tentar construir um teste de nível assumindo que a distribuição seja contínua, o nível real do teste com ser menor que α . (cf. Lehmann & Romano Testing Statistical Hypotheses, terceira edição , p. 584). Você ainda pode fazer um teste de nível α com base na estatística KS, mas precisará encontrar outro método para obter o valor crítico, por exemplo, por simulação. ααα
DavidR
Existe um teste KS discreto: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid
7

Como costuma ser o caso nas estatísticas, depende do que você quer dizer .

  1. Se você quer dizer "Eu calculo minha estatística de teste em uma amostra extraída de uma distribuição discreta e, em seguida, procuro as tabelas padrão", obterá uma taxa de erro do tipo I mais baixa do que a que você escolheu (possivelmente muito mais baixa).

    Quanto depende de "quão discreta" a distribuição é. Se a probabilidade de qualquer resultado for bastante baixa (portanto, espera-se que a proporção de valores vinculados nos dados seja baixa), isso não importará muito - muitas pessoas não teriam problemas ao executar um 5 % teste em 4,5% dizem. Por exemplo, se você estiver testando um uniforme discreto em [1.100], provavelmente não precisará se preocupar.

    Mas se houver uma alta probabilidade de um valor ser vinculado, o efeito na taxa de erro do tipo I poderá ser marcado. Se você obtiver um nível de significância de 0,005 quando desejar 0,05, isso pode ser um problema, pois afetará o poder de forma correspondente.

  2. Se, em vez disso, você quer dizer "Eu calculo minha estatística de teste em uma amostra extraída de uma distribuição discreta e depois uso um valor crítico adequado / calculo um valor p adequado para minha situação" (digamos, por exemplo, por um teste de permutação), o teste certamente é válido no sentido de que você obterá a taxa de erro tipo I correta - até a discretividade da própria estatística de teste, é claro. (Embora possa muito bem haver testes melhores para seu objetivo específico, da mesma forma que costuma ocorrer no caso contínuo.)

    Observe que a distribuição da estatística de teste em si não é mais livre de distribuição, mas um teste de permutação evita esse problema.

Então, às vezes, não há problema em usar as tabelas padrão, mesmo com distribuições discretas, e mesmo quando não está bem, não é tanto a estatística do teste quanto os valores críticos / valores-p que você usa com esse problema.

Glen_b -Reinstate Monica
fonte
Como sempre, Glen, sua resposta é de alta qualidade. Mas talvez a melhor parte disso seja que você realmente tenha ecoado a piada que fiz neste post sobre estatísticos dizendo "depende"! stats.stackexchange.com/questions/182442/…
Sycorax diz Restabelecer Monica
1
@ user777 que não foi acidental; me divertiu, e eu estava pensando enquanto lia esta pergunta "bem, depende" ... então, certifiquei-me de dizê-la explicitamente para ecoar sua postagem.
Glen_b -Reinstala Monica
1
Minha noite ficou melhor. Felicidades!
Sycorax diz Restabelecer Monica
2

XFF(X)XXF(X)=X

F RA
fonte