Qual é o CDF de duas amostras de e do teste unilateral de Kolmogorov-Smirnov?

9

Estou tentando entender como obter valores- para o teste unilateral de Kolmogorov-Smirnov e estou lutando para encontrar CDFs para e no caso de duas amostras. O abaixo é citado em alguns lugares como CDF para em um caso de uma amostra:pDn1,n2+Dn1,n2Dn+

pn+(x)=P(Dn+x|H0)=xj=0n(1x)(nj)(jn+x)j1(1xjn)nj

Além disso, whuber sez existe uma formulação ligeiramente diferente deste CDF de uma amostra (estou substituindo x por t em sua citação por consistência com a minha notação aqui):

Usando a transformação integral de probabilidade, Donald Knuth deriva sua distribuição (comum) na p. 57 e exercício 17 do TAoCP Volume 2. Cito:

(Dn+xn)=xnnckx(nk)(kx)k(x+nk)nk1

Isso se aplicaria a hipóteses unilaterais no caso de uma amostra, como: H 0F(x)F00 , em que F(x) é o CDF empírico de x , e F0 é algum CDF.

Eu acho que o x , neste caso, é o valor de Dn+ em sua amostra, e que n(1x) é o maior inteiro em nnx . (Isso está certo?)

Mas qual é o CDF para (ou ) quando se tem duas amostras? Por exemplo, quando H para os CDFs empíricos de e ? Como obter ? D - n 1 , n 2 0F A ( x ) - F B ( x ) 0 A B p + n 1 , n 2Dn1,n2+Dn1,n20FA(x)FB(x)0ABpn1,n2+

Alexis
fonte
11
Assim como um ponteiro para quem quer responder a essa pergunta - minha resposta à pergunta anterior de Alexis (que está vinculada na pergunta acima) tem links para várias referências com algumas discussões sobre a história, cada uma com várias referências relevantes. Você pode verificar esses documentos e sua lista de referências.
Glen_b -Reinstala Monica
@Glen_b Obrigado! Eu realmente aprecio sua excelente resposta à minha outra pergunta e segui os recursos citados, mas não consegui atrair o CDF para lá e, em vez de atolar nos comentários, pensei em abrir uma nova consulta . Referências adicionais são bem-vindas, se você souber alguma que funcione para isso. D+
Alexis
Alexis: nenhuma crítica foi feita pelo meu comentário; sua escolha para abrir uma nova pergunta foi exatamente correta (na minha opinião). Eu só queria poupar um pouco de trabalho das pessoas para rastrear algumas das referências relevantes - achei que talvez não ocorra necessariamente para todos seguirem o seu link para a outra pergunta, e talvez não ocorra para as pessoas que fizeram esses links no meu A resposta tinha algumas referências que eles podem querer conhecer.
Glen_b -Reinstar Monica

Respostas:

6

Ok, vou dar uma facada nisso. Informações críticas são bem-vindas.

Na página 192 Gibbons e Chakraborti (1992), citando Hodges, 1958, comece com uma CDF de amostra pequena (exata?) Para o teste frente e verso (estou trocando a notação e por e , respectivamente):d n 1 , n 2 xm,ndn1,n2x

P(Dn1,n2x)=1P(Dn1,n2x)=1A(n1,n2)(n1+n2n1)

Onde é produzido através de uma enumeração de caminhos (aumentando monotonicamente em e ) da origem ao ponto através de um gráfico com - substituindo por - os valores dos eixos x e y são e . Além disso, os caminhos devem obedecer à restrição de permanecer dentro dos limites (em que é o valor da estatística de teste Kolmogorov-Smirnov): n 1 n 2 ( n 1 , n 2 ) S m ( x ) F n 1 ( x ) n 1 F 1 ( x ) n 2 F 2 ( x ) xA(n1,n2)n1n2(n1,n2)Sm(x)Fn1(x)n1F1(x)n2F2(x)x

n2n1±(n1+n2)x(n1+n2n1)

Abaixo está a sua imagem na Figura 3.2, fornecendo um exemplo para , com 12 desses caminhos:A(3,4)

Figura 3.2 da página 193 de Gibbons e Chakraborti (1992) Inferência Estatística Não Paramétrica.

Gibbons e Chakaborti continuam dizendo que o valor unilateral é obtido usando esse mesmo método gráfico, mas apenas com o limite inferior para e somente o superior para .D + n 1 , n 2 D - n 1 , n 2pDn1,n2+Dn1,n2

Essas pequenas abordagens de amostra envolvem algoritmos de enumeração de caminho e / ou relações de recorrência, que sem dúvida tornam os cálculos assintóticos desejáveis. Gibbons e Chakraborti também observam os CDFs limitantes quando e aproximam do infinito, de : n 2 D n 1 , n 2n1n2Dn1,n2

limn1,n2P(n1n2n1+n2Dn1,n2x)=12i=1(1)i1e2i2x2

E eles fornecem o CDF limitador de (ou ) como:Dn1,n2+Dn1,n2

limn1,n2P(n1n2n1+n2Dn1,n2+x)=1e2x2

Como e são estritamente não negativos, o CDF pode assumir valores diferentes de zero acima de : D - [ 0 , )D+D[0,)

CDF de $ D ^ {+} $ (ou $ D ^ {-} $)


Referências
Gibbons, JD e Chakraborti, S. (1992). Inferência estatística não paramétrica . Marcel Decker, Inc., 3ª edição, edição revisada e ampliada.

Hodges, JL (1958). A probabilidade de significância do teste de duas amostras de Smirnov. Arkiv för matematik . 3 (5): 469--486.

Alexis
fonte
11
O cdf real existe em toda parte, mas para o cdf será zero; a forma funcional que você deu aplica-se apenas para (isto é passível de raciocínio simples, o que é ?x 0 P ( D + < 0 )(,0)x0P(D+<0)
Glen_b -Reinstate Monica