Teste estatístico para duas distribuições em que apenas o resumo de 5 números é conhecido

Tenho duas distribuições nas quais apenas o resumo de 5 números (mínimo, 1º quartil, mediana, 3º quartil, máximo) e tamanho da amostra são conhecidos. Ao contrário da pergunta aqui , nem todos os pontos de dados estão disponíveis.

Existe algum teste estatístico não paramétrico que permita verificar se as distribuições subjacentes dos dois são diferentes?

Obrigado!

distributions nonparametric bonifaz
fonte

Respostas:

Sob a hipótese nula de que as distribuições são iguais e as duas amostras são obtidas aleatoriamente e independentemente da distribuição comum, podemos calcular os tamanhos de todos os testes (determinísticos) que podem ser feitos comparando-se um valor de letra a outro . Alguns desses testes parecem ter poder razoável para detectar diferenças nas distribuições. $5\times 5$

Análise

A definição original do resumo de letras de qualquer lote ordenado de números é a seguinte [Tukey EDA 1977]: $5$ $x_1 \le x_2 \le \cdots \le x_n$

Para qualquer número in defina $m = (i + (i+1))/2$ $\{(1+2)/2, (2+3)/2, \ldots, (n-1+n)/2\}$ $x_m = (x_i + x_{i+1})/2.$
Seja . $\bar{i} = n+1-i$
Deixe e $m = (n+1)/2$ $h = (\lfloor m \rfloor + 1)/2.$
O resumo de letras é o conjunto Seus elementos são conhecidos como dobradiça mínima, inferior, mediana, dobradiça superior e máxima, respectivamente. $5$ $\{X^{-} = x_1, H^{-}=x_h, M=x_m, H^{+}=x_\bar{h}, X^{+}=x_n\}.$

Por exemplo, no lote de dados que pode calcular que , , e , de onde $(-3, 1, 1, 2, 3, 5, 5, 5, 7, 13, 21)$ $n=12$ $m=13/2$ $h=7/2$

\begin{aligned} X^{-} & = - 3, \\ H^{-} & = x_{7 / 2} = (x_{3} + x_{4}) / 2 = (1 + 2) / 2 = 3 / 2, \\ M & = x_{13 / 2} = (x_{6} + x_{7}) / 2 = (5 + 5) / 2 = 5, \\ H^{+} & = x_{\bar{7 / 2}} = x_{19 / 2} = (x_{9} + x_{1} 0) / 2 = (5 + 7) / 2 = 6, \\ X^{+} & = x_{12} = 21. \end{aligned}

$\eqalign{ &X^{-} &= -3, \\ &H^{-} &= x_{7/2} = (x_3+x_4)/2 = (1+2)/2 = 3/2, \\ &M &= x_{13/2} = (x_6+x_7)/2 = (5+5)/2 = 5, \\ &H^{+} &= x_\overline{7/2} = x_{19/2} = (x_9+x_10)/2 = (5+7)/2 = 6, \\ &X^{+} &= x_{12} = 21. }$

As dobradiças estão próximas (mas geralmente não são exatamente as mesmas) dos quartis. Se quartis forem usados, observe que, em geral, eles serão meios aritméticos ponderados de duas estatísticas da ordem e, portanto, estarão dentro de um dos intervalos onde possa ser determinado a partir de e o algoritmo usado para calcular os quartis. Em geral, quando está em um intervalo , escreverei vagamente para me referir a uma média ponderada de e . $[x_i, x_{i+1}]$ $i$ $n$ $q$ $[i, i+1]$ $x_q$ $x_i$ $x_{i+1}$

Com dois lotes de dados e existem dois resumos separados de cinco letras. Podemos testar a hipótese nula de que ambos são amostras aleatórias iid de uma distribuição comum comparando um dos -letters com um dos -letters . Por exemplo, podemos comparar a dobradiça superior de com a dobradiça inferior de para ver se é significativamente menor que . Isso leva a uma pergunta definitiva: como calcular essa chance, $(x_i, i=1,\ldots, n)$ $(y_j, j=1,\ldots,m),$ $F$ $x$ $x_q$ $y$ $y_r$ $x$ $y$ $x$ $y$

{Pr}_{F} (x_{q} < y_{r}) .

${\Pr}_F(x_q \lt y_r).$

Para fracionada e isso não é possível sem saber . No entanto, como e então a fortiori $q$ $r$ $F$ $x_q \le x_{\lceil q \rceil}$ $y_{\lfloor r \rfloor} \le y_r,$

{Pr}_{F} (x_{q} < y_{r}) \leq {Pr}_{F} (x_{⌈ q ⌉} < y_{⌊ r ⌋}) .

${\Pr}_F(x_q \lt y_r) \le {\Pr}_F(x_{\lceil q \rceil} \lt y_{\lfloor r \rfloor}).$

Dessa forma, podemos obter limites superiores universais (independentes de ) nas probabilidades desejadas calculando a probabilidade à direita, que compara as estatísticas de ordens individuais. A questão geral à nossa frente é $F$

Qual é a chance de o mais alto de valores ser menor que o mais alto dos valores extraídos de uma distribuição comum? $q^\text{th}$ $n$ $r^\text{th}$ $m$

Mesmo isso não tem uma resposta universal, a menos que descartemos a possibilidade de que a probabilidade esteja muito concentrada nos valores individuais: em outras palavras, precisamos assumir que laços não são possíveis. Isso significa que deve ser uma distribuição contínua. Embora seja uma suposição, é fraca e não é paramétrica. $F$

Solução

A distribuição não desempenha nenhum papel no cálculo, pois, ao reexprimir todos os valores por meio da transformação de probabilidade , obtemos novos lotes $F$ $F$

X^{(F)} = F (x_{1}) \leq F (x_{2}) \leq \dots \leq F (x_{n})

$X^{(F)} = F(x_1) \le F(x_2) \le \cdots \le F(x_n)$

Y^{(F)} = F (y_{1}) \leq F (y_{2}) \leq \dots \leq F (y_{m}) .

$Y^{(F)} = F(y_1) \le F(y_2) \le \cdots \le F(y_m).$

Além disso, essa é monotônica e crescente: preserva a ordem e, ao fazê-lo, preserva o evento Como é contínuo, esses novos lotes são extraídos de uma distribuição Uniforme . Sob essa distribuição - e eliminando o agora supérfluo " " da notação - descobrimos facilmente que tem uma Beta = Beta : $x_q \lt y_r.$ $F$ $[0,1]$ $F$ $x_q$ $(q, n+1-q)$ $(q, \bar{q})$

Pr (x_{q} \leq x) = \frac{n!}{(n - q)! (q - 1)!} \int_{0}^{x} t^{q - 1} (1 - t)^{n - q} d t .

$\Pr(x_q\le x) = \frac{n!}{(n-q)!(q-1)!}\int_0^x t^{q-1}(1-t)^{n-q}dt.$

Da mesma forma, a distribuição de é Beta . Ao realizar a dupla integração na região , podemos obter a probabilidade desejada, $y_r$ $(r, m+1-r)$ $x_q \lt y_r$

Pr (x_{q} < y_{r}) = \frac{Γ (m + 1) Γ (n + 1) Γ (q + r)_{3} {\tilde{F}}_{2} (q, q - n, q + r; q + 1, m + q + 1; 1)}{Γ (r) Γ (n - q + 1)}

$\Pr(x_q \lt y_r) = \frac{\Gamma (m+1) \Gamma (n+1) \Gamma (q+r)\, _3\tilde{F}_2(q,q-n,q+r;\ q+1,m+q+1;\ 1)}{\Gamma (r) \Gamma (n-q+1)}$

Como todos os valores são integrais, todos os valores são realmente apenas fatoriais: para integral A função pouco conhecida é uma função hipergeométrica regularizada . Nesse caso, pode ser calculado como uma soma alternada bastante simples do comprimento , normalizada por alguns fatoriais: $n, m, q, r$ $\Gamma$ $\Gamma(k) = (k-1)! = (k-1)(k-2)\cdots(2)(1)$ $k\ge 0.$ $_3\tilde{F}_2$ $n-q+1$

Γ (q + 1) Γ (m + q + 1)_{3} {\tilde{F}}_{2} (q, q - n, q + r; q + 1, m + q + 1; 1) = \sum_{Eu = 0 0}^{n - q} (- 1)^{Eu} (\binom{n - q}{Eu}) \frac{q (q + r) \dots (q + r + Eu - 1)}{(q + Eu) (1 + m + q) (2 + m + q) \dots (Eu + m + q)} = 1 - \frac{(\binom{n - q}{1}) q (q + r)}{(1 + q) (1 + m + q)} + \frac{(\binom{n - q}{2}) q (q + r) (1 + q + r)}{(2 + q) (1 + m + q) (2 + m + q)} - \dots .

$\Gamma(q+1)\Gamma(m+q+1)\ {_3\tilde{F}_2}(q,q-n,q+r;\ q+1,m+q+1;\ 1) \\ =\sum_{i=0}^{n-q}(-1)^i \binom{n-q}{i} \frac{q(q+r)\cdots(q+r+i-1)}{(q+i)(1+m+q)(2+m+q)\cdots(i+m+q)} \\ = 1 - \frac{\binom{n-q}{1}q(q+r)}{(1+q)(1+m+q)} + \frac{\binom{n-q}{2}q(q+r)(1+q+r)}{(2+q)(1+m+q)(2+m+q)} - \cdots.$

Isso reduziu o cálculo da probabilidade a nada mais complicado do que adição, subtração, multiplicação e divisão. O esforço computacional é escalado como Explorando a simetria $O((n-q)^2).$

Pr (x_{q} < y_{r}) = 1 - Pr (y_{r} < x_{q})

$\Pr(x_q \lt y_r) = 1 - \Pr(y_r \lt x_q)$

o novo cálculo é escalado como permitindo escolher a mais fácil das duas somas, se desejarmos. Porém, isso raramente será necessário, porque os resumos de letras tendem a ser usados apenas para pequenos lotes, raramente excedendo $O((m-r)^2),$ $5$ $n, m \approx 300.$

Inscrição

Suponhamos que os dois lotes têm tamanhos e . As estatísticas relevantes de pedidos para e são e respectivamente. Aqui está uma tabela com as chances de com indexar as linhas indexar as colunas: $n=8$ $m=12$ $x$ $y$ $1,3,5,7,8$ $1,3,6,9,12,$ $x_q \lt y_r$ $q$ $r$

q\r 1       3       6       9       12
1   0.4      0.807  0.9762  0.9987  1.
3   0.0491  0.2962  0.7404  0.9601  0.9993
5   0.0036  0.0521  0.325   0.7492  0.9856
7   0.0001  0.0032  0.0542  0.3065  0.8526
8   0.      0.0004  0.0102  0.1022  0.6

Uma simulação de 10.000 pares de amostras iid de uma distribuição normal padrão deu resultados próximos a eles.

Para construir um teste unilateral no tamanho como para determinar se o lote é significativamente menor que o lote , procure valores nesta tabela próximos ou logo abaixo de . As boas escolhas são em onde a chance é em com uma chance de e em com uma chance de Qual deles usar depende de seus pensamentos sobre a hipótese alternativa. Por exemplo, o teste compara a dobradiça inferior de com o menor valor de $\alpha,$ $\alpha = 5\%,$ $x$ $y$ $\alpha$ $(q,r)=(3,1),$ $0.0491,$ $(5,3)$ $0.0521$ $(7,6)$ $0.0542.$ $(3,1)$ $x$ $y$ e encontra uma diferença significativa quando a dobradiça inferior é a menor. Este teste é sensível a um valor extremo de ; se houver alguma preocupação com dados externos, esse pode ser um teste arriscado. Por outro lado, o teste compara a dobradiça superior de com a mediana de . Este é muito robusto para valores extremos no lote e moderadamente robusto para valores extremos em . No entanto, ele compara valores médios de a valores médios de . Embora essa seja provavelmente uma boa comparação a ser feita, ela não detectará diferenças nas distribuições que ocorrem apenas nas duas caudas. $y$ $(7,6)$ $x$ $y$ $y$ $x$ $x$ $y$

Ser capaz de calcular analiticamente esses valores críticos ajuda na seleção de um teste. Depois que um (ou vários) testes são identificados, seu poder de detectar alterações é provavelmente melhor avaliado através de simulação. O poder dependerá fortemente de como as distribuições diferem. Para entender se esses testes têm algum poder, realizei o teste com o extraído de uma distribuição Normal : isto é, sua mediana foi deslocada por um desvio padrão. Em uma simulação, o teste foi significativo em do tempo: é um poder apreciável para conjuntos de dados tão pequenos. $(5,3)$ $y_j$ $(1,1)$ $54.4\%$

Muito mais pode ser dito, mas tudo isso é rotina sobre a realização de testes nos dois lados, como avaliar o tamanho dos efeitos e assim por diante. O ponto principal foi demonstrado: dados os resumos de letras (e tamanhos) de dois lotes de dados, é possível construir testes não paramétricos razoavelmente poderosos para detectar diferenças em suas populações subjacentes $5$ e, em muitos casos, podemos até ter vários opções de teste para escolher. A teoria desenvolvida aqui tem uma aplicação mais ampla na comparação de duas populações por meio de estatísticas de ordem adequadamente selecionadas de suas amostras (não apenas aquelas que se aproximam dos resumos das cartas).

Esses resultados têm outras aplicações úteis. Por exemplo, um boxplot é uma representação gráfica de um resumo de letras. Assim, juntamente com o conhecimento do tamanho da amostra mostrado por um boxplot, disponibilizamos vários testes simples (com base na comparação de partes de uma caixa e bigode com outro) para avaliar a significância das diferenças visualmente aparentes nessas parcelas. $5$

whuber
fonte

Estou bastante confiante de que ainda não haverá um na literatura, mas se você procurar um teste não paramétrico, ele terá que estar sob a suposição de continuidade da variável subjacente - você pode olhar algo como um ECDF estatística do tipo - digamos que seja equivalente a uma estatística do tipo Kolmogorov-Smirnov ou algo semelhante a uma estatística de Anderson-Darling (embora, é claro, a distribuição da estatística seja muito diferente nesse caso).

A distribuição para amostras pequenas dependerá das definições precisas dos quantis usados no resumo de cinco números.

Considere, por exemplo, os quartis padrão e valores extremos em R (n = 10):

> summary(x)[-4]
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-2.33500 -0.26450  0.07787  0.33740  0.94770

em comparação com os gerados por seu comando para o resumo de cinco números:

> fivenum(x)
[1] -2.33458172 -0.34739104  0.07786866  0.38008143  0.94774213

Observe que os quartis superior e inferior diferem das dobradiças correspondentes no fivenumcomando.

Por outro lado, em n = 9, os dois resultados são idênticos (quando todos ocorrem em observações)

(R vem com nove definições diferentes para quantis.)

O caso dos três quartis que ocorrem nas observações (quando n = 4k + 1, acredito, possivelmente em mais casos sob algumas definições deles) pode ser factível algebricamente e deve ser não paramétrico, mas o caso geral (em muitas definições) pode não é tão factível e pode não ser não paramétrico (considere o caso em que você calcula a média das observações para produzir quantis em pelo menos uma das amostras ... nesse caso, as probabilidades de diferentes arranjos dos quantis de amostra podem não ser mais afetadas por a distribuição dos dados).

Depois que uma definição fixa é escolhida, a simulação parece ser o caminho a seguir.

Como será não paramétrico em um subconjunto de valores possíveis de , o fato de não ser mais livre de distribuição para outros valores pode não ser uma preocupação tão grande; pode-se dizer quase livre de distribuição em tamanhos de amostra intermediários, pelo menos se não for muito pequeno. $n$ $n$

Vamos dar uma olhada em alguns casos que devem ser livres de distribuição e considerar alguns tamanhos de amostra pequenos. Digamos que uma estatística do tipo KS seja aplicada diretamente ao próprio resumo de cinco números, para tamanhos de amostra em que os valores do resumo de cinco números serão estatísticas de pedidos individuais.

Observe que isso realmente não 'emula' o teste KS exatamente, pois os saltos na cauda são muito grandes em comparação com o KS, por exemplo. Por outro lado, não é fácil afirmar que os saltos nos valores de resumo devem ser para todos os valores entre eles. Conjuntos diferentes de pesos / saltos terão diferentes características de erro tipo I e diferentes características de potência e não tenho certeza do que é melhor escolher (escolher valores ligeiramente diferentes de valores iguais pode ajudar a obter um conjunto mais fino de níveis de significância). Meu objetivo, então, é simplesmente mostrar que a abordagem geral pode ser viável, não recomendar nenhum procedimento específico. Um conjunto arbitrário de pesos para cada valor no resumo ainda fornecerá um teste não paramétrico, desde que eles não sejam feitos com referência aos dados.

Enfim, aqui vai:

Localizando a distribuição nula / valores críticos via simulação

Em n = 5 e 5 nas duas amostras, não precisamos fazer nada de especial - esse é um teste KS direto.

Em n = 9 e 9, podemos fazer uma simulação uniforme:

 ks9.9 <- replicate(10000,ks.test(fivenum(runif(9)),fivenum(runif(9)))$statistic)
 plot(table(ks9.9)/10000,type="h"); abline(h=0,col=8)

insira a descrição da imagem aqui

  # Here's the empirical cdf:
 cumsum(table(ks9.9)/10000)
   0.2    0.4    0.6    0.8 
0.3730 0.9092 0.9966 1.0000

portanto, em , você pode obter aproximadamente ( ) e aproximadamente ( ). (Não devemos esperar boas etapas alfa. Quando os são moderadamente grandes, devemos esperar que não haja nada além de opções muito grandes ou muito pequenas para ). $n_1 = n_2=9$ $\alpha=0.1$ $D_{crit}=0.6$ $\alpha=0.005$ $D_{crit}=0.8$ $n$ $\alpha$

$n_1 = 9, n_2=13$ tem um bom nível de significância próximo de 5% ( ) $D=0.6$

$n_1 = n_2=13$ tem um bom nível de significância de quase 2,5% ( ) $D=0.6$

Em tamanhos de amostra próximos destes, esta abordagem deve ser possível, mas se ambos os s são muito acima de 21 ( e ), esta não irá funcionar bem. $n$ $\alpha \approx 0.2$ $\alpha\approx 0.001$

Um teste muito rápido "por inspeção"

Vemos uma regra de rejeição de sendo frequentemente nos casos que examinamos. Que arranjos de amostra levam a isso? Eu acho que os dois casos seguintes: $D\geq 0.6$

(i) Quando uma amostra inteira está do lado da mediana do outro grupo.

(ii) Quando as caixas (o intervalo coberto pelos quartis) não se sobrepõem.

Portanto, existe uma boa regra de rejeição não paramétrica super simples para você - mas geralmente ela não estará em um nível de significância 'agradável', a menos que o tamanho da amostra não esteja muito longe de 9-13.

Obtendo um conjunto mais níveis possíveis $\alpha$

De qualquer forma, a produção de tabelas para casos semelhantes deve ser relativamente direta. Em médio a grande , esse teste terá apenas níveis possíveis muito pequenos (ou muito grandes) e não será útil, exceto nos casos em que a diferença for óbvia). $n$ $\alpha$

Curiosamente, uma abordagem para aumentar os níveis atingíveis de seria definir os saltos no cdf 'fivenum', de acordo com um governante de Golomb . Se os valores de cdf fossem e , por exemplo, então a diferença entre qualquer par de valores de cdf seria ser diferente de qualquer outro par. Pode valer a pena ver se isso tem muito efeito no poder (meu palpite: provavelmente não muito). $\alpha$ $0,\frac{1}{11},\frac{4}{11},\frac{9}{11}$ $1$

Comparado a esses testes de KS, eu esperaria que algo mais parecido com um Anderson-Darling fosse mais poderoso, mas a questão é como ponderar esse caso resumido de cinco números. Imagino que isso possa ser resolvido, mas não tenho certeza até que ponto vale a pena.

Poder

Vamos ver como ele continua a diferença em . Essa é uma curva de potência para dados normais, e o efeito del é o número de desvios padrão na segunda amostra que é deslocada: $n_1=9,n_2=13$

insira a descrição da imagem aqui

Parece uma curva de poder bastante plausível. Portanto, parece funcionar bem, pelo menos nesses pequenos tamanhos de amostra.

E quanto a robustos, em vez de não paramétricos?

Se testes não paramétricos não são tão cruciais, mas testes robustos são bons, poderíamos examinar uma comparação mais direta dos três valores do quartil no resumo, como um intervalo para a mediana baseada no IQR e no tamanho da amostra (com base em alguma distribuição nominal em torno da qual a robustez é desejada, como a normal - esse é o raciocínio por trás das plotagens de caixas entalhadas, por exemplo). Isso deve tender a funcionar muito melhor em amostras grandes do que o teste não paramétrico, que sofrerá com a falta de níveis de significância adequados.

Glen_b -Reinstate Monica
fonte

Muito agradável! Gostaria de saber imediatamente se, dadas as estatísticas resumidas, você poderia realmente calcular a estatística D máxima ou mínima possível para o teste KS. Por exemplo, você pode desenhar os CDFs com base nas estatísticas de resumo e, em seguida, haverá janelas de caixa de seleção para cada CDF de amostra. Com base nessas duas janelas p-box, você pode calcular a estatística D máxima ou mínima possível - e procurar a estatística de teste nas tabelas usuais.

Andy W

Não vejo como poderia haver tal teste, pelo menos sem algumas suposições.

Você pode ter duas distribuições diferentes com o mesmo resumo de 5 números:

Aqui está um exemplo trivial, em que troco apenas 2 números, mas claramente mais números podem ser alterados

set.seed(123)

#Create data
x <- rnorm(1000)

#Modify it without changing 5 number summary
x2 <- sort(x)
x2[100] <- x[100] - 1
x2[900] <- x[900] + 1

fivenum(x)
fivenum(x2)

Peter Flom - Restabelece Monica
fonte

Este exemplo demonstra apenas uma limitação no poder de tal procedimento, mas, de outra forma, não parece lançar muita luz sobre ele.

whuber

Eu acho que significa que, sem algumas suposições, o poder de tal teste seria inestimável. Como seria esse teste?

Peter Flom - Restabelece Monica

Os cálculos de potência sempre exigirão suposições, mesmo com testes não paramétricos. Tente encontrar uma curva de potência para um Kolmogorov-Smirnov sem mais suposições do que você precisa para realizar o teste em si.

Glen_b -Reinstala Monica

Há um pequeno número finito de testes que podem ser considerados: eles comparam os valores em um resumo com os de outro. Um deles seria (por exemplo) uma comparação da dobradiça superior de um conjunto de dados com a dobradiça inferior de outro. Para tamanhos de amostra suficientemente grandes, isso indicaria uma diferença significativa em uma população em comparação com outra. Ela está relacionada com a probabilidade conjunta que para variáveis aleatórias independentes e . Embora você não tenha muito controle sobre o nível de significância, esses testes podem ser razoavelmente poderosos contra um grande conjunto de alternativas.

X > Y

$X\gt Y$

X

$X$

Y

$Y$

whuber

@whuber Sem nenhuma medida do erro ou precisão das medidas? Ou isso é fornecido pelo tamanho da amostra? Os quantis, e ainda mais o máximo e o mínimo, são difíceis de trabalhar dessa maneira.

Peter Flom - Restabelece Monica