Kolmogorov-Smirnov duas amostras

Estou usando o teste de duas amostras de Kolmogorov – Smirnov para comparar distribuições e notei uma $p$ -value é frequentemente relatado como a estatística do teste. Como é isso $p$ -determinado? Eu sei que é a probabilidade de obter um resultado pelo menos tão grande quanto o obtido, mas como é isso $p$ -determinado, dado que este é um teste não paramétrico? Ou seja, não podemos assumir flutuações gaussianas na distribuição e calcular o $p$ -value usando um $t$ -teste.

Obrigado!

kolmogorov-smirnov C. Reed
fonte

A estatística Kolmogorov-Smirnov (sobre a classe de distribuições de variáveis aleatórias contínuas) é livre de distribuição . Portanto, a distribuição da estatística de teste não depende da distribuição subjacente dos dados (sob a hipótese nula).

cardeal

@ O argumento do Cardeal é feito em um comentário na entrada da Wikipedia . Observe que a distribuição da estatística de teste é assintótica (ou seja, válida quando o tamanho da amostra menor é grande); ele provavelmente não dependem da distribuição subjacente comum para pequenas amostras.

whuber

@ whuber: Receio não entender bem o seu comentário e não quero interpretá-lo mal. Certamente, a distribuição em amostras finitas não será exatamente igual à distribuição assintótica, mas isso não impede que a estatística seja livre de distribuição para cada tamanho fixo de amostra

n

$n$ (realmente

(n_{1}, n_{2})

$(n_1,n_2)$ pois os tamanhos podem diferir). [cont]

cardeal

@whuber: ... Let

X_{i} \sim F

$X_i \sim F$ e

Y_{i} \sim G

$Y_i \sim G$ ser sequências iid independentes. Então

n {\hat{F}}_{n} (x) = | {i : X_{i} \leq x} | = | {i : F (X_{i}) \leq F (x)} |

$n \hat{F}_n(x) = |\{i: X_i \leq x\}| = |\{i: F(X_i) \leq F(x)\}|$ e

n {\hat{G}}_{n} (x) = | {i : Y_{i} \leq x} | = | {i : G (Y_{i}) \leq G (x)} |

$n \hat{G}_n(x) = |\{i: Y_i \leq x \}| = |\{i: G(Y_i) \leq G(x)\}|$ . Então, com a suposição acima mencionada de que

F

$F$ e

G

$G$ são distribuições contínuas, sob a hipótese nula

F = G

$F=G$ , nós vemos que

sup | {\hat{F}}_{n} (x) - {\hat{G}}_{n} (x) |

$\sup |\hat{F}_n(x) - \hat{G}_n(x)|$ é igual em distribuição à mesma estatística obtida de duas amostras independentes do mesmo tamanho.

U (0, 1)

$\mathcal U(0,1)$

cardeal

@ whuber: Eu acho que esses são dois efeitos separados, mas sutilmente diferentes. Em certo sentido, gostamos de assintóticos precisamente porque eles (geralmente) nos fornecem uma estatística livre de distribuição "no limite" (em virtude da CLT). Portanto, o fato de o valor- relatado ser independente da suposição de distribuição não é tão notável. Alguém pode perguntar: qual é o sentido de uma estatística livre de distribuição se eu não puder (facilmente) calcular sua distribuição para um determinado tamanho de amostra e, em vez disso, precisar confiar em uma aproximação assintótica? O que se parece ganhar é uma versão de convergência uniforme.

p

$p$

cardeal

Respostas:

Sob a hipótese nula, a distribuição assintótica da estatística Kolmogorov – Smirnov de duas amostras é a distribuição Kolmogorov, que possui CDF

\Pr (K \leq x) = \frac{\sqrt{2 π}}{x} \sum_{i = 1}^{\infty} e^{- (2 i - 1)^{2} π^{2} / (8 x^{2})} .

$\operatorname{Pr}(K\leq x)=\frac{\sqrt{2\pi}}{x}\sum_{i=1}^\infty e^{-(2i-1)^2\pi^2/(8x^2)} \>.$

Os valores de podem ser calculados a partir deste CDF - consulte as seções 4 e 2 da página da Wikipedia no teste de Kolmogorov – Smirnov. $p$

Parece que você está dizendo que uma estatística de teste não paramétrica não deve ter uma distribuição - esse não é o caso - o que torna esse teste não paramétrico é que a distribuição da estatística de teste não depende de qual distribuição de probabilidade contínua os dados originais vem de onde. Observe que o teste KS possui essa propriedade mesmo para amostras finitas, como mostra @cardinal nos comentários.

Macro
fonte

(+1) Eu posso sugerir um pequeno ajuste na sua última frase. A estatística do teste é livre de distribuição, mesmo em amostras finitas (embora não seja a mesma que a distribuição assintótica). Portanto, essa propriedade livre de distribuição é o que torna a estatística do teste não paramétrica. Observe que existem muitos exemplos em que a distribuição assintótica não depende da distribuição contínua subjacente (pense apenas no CLT); portanto, a menos que eu esteja enganado, não acredito que esse seja o principal recurso aqui. :)

cardeal

Fiz a correção, mas quanto mais penso nisso, mais me pergunto como você sabe que a estatística realmente não depende da distribuição original dos dados em amostras finitas - você pode dizer mais sobre esse @ cardinal?

Macro

Certo. Veja o quarto comentário (meu terceiro) à pergunta acima.

cardeal

Entendo! muito legal e simples - obrigado cardeal

Macro

Ninguém abordou a distribuição em pequenas amostras, onde podemos calcular diretamente a distribuição de permutação da estatística. Se tivermos rótulos e rótulos , podemos anotar todas as ordens possíveis deles (correspondendo aos valores organizados do menor para o maior) e é possível calcular a estatística KS de duas amostras diretamente a partir disso. Na prática, o algoritmo para encontrar um valor-p pode ser mais sofisticado do que simplesmente escrever para fora todas as possibilidades (de qualquer forma o montante de cálculo cresce rapidamente, mas a distribuição assintótica vem em rapidamente)

m

$m$

X

$X$

n

$n$

Y

$Y$

Glen_b -Reinstate Monica

O valor de p, digamos 0,80, implica que 80% das amostras de tamanho n de amostras da população terão uma estatística D menor que a obtida no teste. Isso é calculado com base na estatística D do teste KS, que mede a distância máxima entre os CDFs da distribuição teórica e empírica, para a distribuição fornecida com a qual a amostra é avaliada.

Observe que apenas o valor D * SQRT (tamanho da amostra) tem uma distribuição kolmogrov e não o próprio D. Se você deseja calcular manualmente o valor de p, dado o valor de D, pode consultar as tabelas publicadas disponíveis na Internet para distribuição do kolomogrov. Esse também é o valor fornecido em pacotes como R

Murugesan Narayanaswamy
fonte

Esta não é uma resposta claramente explicada.

Michael R. Chernick 10/02/19

É uma continuação da resposta anterior postada por Macro acima. Diferentemente do que muitos acreditam, o valor p calculado pelo pacote R é perfeito. Isso significa que, se você pegar todas as amostras possíveis de determinado tamanho da população e compará-las com a distribuição teórica, o valor de [distância máxima D * SQRT (tamanho da amostra)] calculado em relação a cada amostra terá uma distribuição de kolomogrov. Para um dado D-estatística, o pacote R dá o valor da probabilidade de que a amostra de uma dada diferença pertence à população teórico, 0,8 meios de apenas 20% mais elevado terá D

Murugesan Narayanaswamy