Existe uma versão com várias amostras ou alternativa ao Teste Kolmogorov-Smirnov?

12

Estou comparando a distribuição de tamanho das árvores em seis pares de parcelas em que uma parcela recebeu um tratamento e a outra um controle. Usando um teste de Kolmogorov-Smirnov em cada par de parcelas, acho que varia de 0,0003707 a 0,75 . Existem métodos apropriados para lidar com todas as réplicas juntas, como uma extensão de várias amostras do teste KS, ou existe um teste de acompanhamento apropriado? Ou devo apenas concluir algo como "A distribuição de tamanho difere significativamente ( p < 0,05 ) em 2 pares de parcelas e marginalmente ( p = 0,59 ) em um par de parcelas".p0.00037070,75(p<0,05p=0,59

N Brouwer
fonte
2
O que você deseja comparar sobre essas distribuições, se diferem na tendência central ou se diferem na forma? Costumo pensar em KS como sendo mais sobre a forma / natureza de uma distribuição, mas algo como o teste de Friedman pode determinar que as amostras diferem em tendência central.
gung - Restabelece Monica

Respostas:

13

Na verdade, existem alguns exemplos de testes KS. Por exemplo, um teste Kolmogorov-Smirnov de amostra r comr2que, acredito, tem bom poder. Uma pré-impressão desse lindo papel está disponível aqui . Eu também conheço os Análogos da K-Sample dos Kolmogorov-Smirnov e Cramer-V. Testes de Mises (mas eles têm menos poder, até onde eu sei).

Momo
fonte
5
Bem, a desvantagem desse artigo "bonito" de Böhm e Hornik é que não há implementação disponível ao público até onde eu saiba. A matemática é complexa o suficiente para que você não queira implementá-la. Enviei um e-mail aos autores e perguntei a eles, mas eles não responderam. Observe que Hornik é um membro do grupo R Core Developers ... Se alguém souber sobre uma implementação, pls poste um link aqui!
Laryx Decidua
8

Existe um pacote R kSamples do que fornece, entre outras coisas, um teste Anderson-Darling não paramétrico de amostra-k. A hipótese nula é que todas as k amostras vieram da mesma distribuição que não precisa ser especificada. Talvez você possa usar isso.

Pequeno exemplo na comparação de amostras distribuídas normal e gama dimensionadas para que tenham a mesma média e variação:

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"
Laringe Decidua
fonte
4

Algumas abordagens:

Use os valores p em pares, mas ajuste-os para várias comparações usando algo como os métodos de ajuste da taxa de Bon Feroni ou False Discovery (a primeira provavelmente será um pouco conservadora). Então você pode ter certeza de que qualquer um que ainda seja significativamente diferente provavelmente não se deve aos vários testes.

Você pode criar um teste geral no sabor da KS, encontrando a maior distância entre qualquer uma das distribuições, ou seja, plotar todos os cd's empíricos e encontrar a maior distância da linha inferior à linha superior, ou talvez a distância média ou alguma outra a medida. Em seguida, você pode descobrir se isso é significativo fazendo um teste de permutação: agrupe todos os dados em uma lixeira grande, depois divida-os aleatoriamente em grupos com o mesmo tamanho de amostra que os grupos originais, recompute a estatística nos dados permutados e repita o processo muitas vezes (999 ou mais). Em seguida, veja como seus dados originais se comparam aos conjuntos de dados permutados. Se a estatística de dados original cair no meio das permutadas, não há diferenças significativas encontradas, mas se estiver no limite, ou além de qualquer um dos permutados, há algo significativo acontecendo (mas isso não indica quais são diferentes). Provavelmente, você deve tentar isso com dados simulados, onde sabe que existe uma diferença grande o suficiente para ser interessante apenas para verificar o poder desse teste e encontrar as diferenças interessantes.

Greg Snow
fonte