Testes de permutação de duas amostras de Kolmogorov-Smirnov

8

Embora seja mais fácil usar o teste do tipo qui-quadrado / Cressie-Read de Pearson, eu gostaria de testar a igualdade de proporções nas categorias em dois grupos usando um teste do tipo Kolmogorov-Smirnov da forma proposta por Pettitt & Stephens (1977 ) (veja também aqui ).k

Em particular, como apontam os autores desse artigo, ele pode ter algum poder contra alternativas de tendência. Portanto, o teste Kolmogorov-Smirnov / categórica de uma amostra tem a seguinte forma: onde \ pi é uma permutação da ordem das categorias, f _ {., i} são as frequências observadas e esperadas (ou equivalente, proporção de observações) na categoria i . Isso pode ser escrito de forma equivalente como: D_n = \ frac {1} {2} \ sum_ {i = 1} ^ k \ vert f_ {exp, i} -f_ {obs, i} \ vert Gostaria de estender isso para um caso de duas amostras usando um procedimento de randomização / permutação, como:

Dn=supπsup1jk|i=1j(fexp,π(i)fobs,π(i))|
πf.,ii
Dn=12i=1k|fexp,ifobs,i|
Dn(r)=12i=1k|fgroup1,i(r)fgroup2,i(r)|,r=1,,R
onde .(r) denota uma estatística calculada com base na permutação rth da variável categórica. Rejeite se o valor da estatística original for maior que o valor de 95% das estatísticas permutadas.

Quaisquer comentários sobre os prós / contras / validade de tal procedimento são muito bem-vindos. Obrigado.

mirtilo
fonte

Respostas:

3

A resposta depende da natureza do processo de geração de dados e da hipótese alternativa que você tem em mente.

Seu teste é uma espécie de qui-quadrado não ponderado. Devido a essa falta de ponderação, será difícil detectar alterações que afetem principalmente as categorias menos populosas. Por exemplo, seu teste será muito menos poderoso do que o teste do qui-quadrado para uma mudança uniforme na localização, que é detectada principalmente por perceber que quase toda a probabilidade de uma cauda é deslocada para a outra cauda.

Por exemplo, suponha que suas categorias sejam intervalos inteiros indexados por e você esteja observando variáveis ​​normais de variação unitária, mas média desconhecida. Por exemplo, 100 observações de uma variável normal padrão ocuparão principalmente as categorias a , embora você possa esperar que algumas ocupem as categorias e . Mesmo para uma grande mudança gritante de erros padrão ( ou seja , uma mudança na média de ), o poder do seu teste semelhante ao KD é de apenas cerca de 50% (quando ).[i,i+1)i213255/100=0.5α=0.05

É difícil conceber um cenário em que esse teste seja mais poderoso que o teste do qui-quadrado. Se você acha que está nessa situação, faça algumas simulações para descobrir qual é o poder e como ele se compara aos testes alternativos padrão.

whuber
fonte
se eu entendi corretamente o que você escreveu, seria o mesmo para todos os ? também - eu posso ver como obter um valor crítico estimado de monte carlo para ; mas e ? Dn(r)rDnDn(r)
Ronaf
@ronaf Você poderia fornecer mais detalhes sobre ? O que é R? Não vejo que permutar as categorias faça absolutamente nada: observe que nenhuma permutação mudará a soma das diferenças absolutas de suas contagens. Dn(r)
whuber