Probabilidade de interseção a partir de múltiplas amostragens da mesma população

10

Aqui está um exemplo de caso:

  • Eu tenho uma população de 10.000 itens. Cada item tem um ID exclusivo.
  • Escolho aleatoriamente 100 itens e registro os IDs
  • Coloquei os 100 itens de volta na população
  • Escolho aleatoriamente 100 itens novamente, registro os IDs e os substituo.
  • No total, repito essa amostragem aleatória 5 vezes

Qual é a probabilidade de o número de itens aparecer nas 5 amostragens aleatórias?X

Eu não sou muito bem versado em estatística. Isso seria correto para ?X=10

  • Para cada amostragem, o número de combinações possíveis de 100 itens de 10.000 ébinom(10000,100)
  • De todas as combinações possíveis de 100 itens, as combinações contêm 10 itens específicosbinom(9990,90)binom(100,10)
  • A probabilidade de ter 10 itens específicos é(binom(9990,90)binom(100,10))/binom(10000,100)
  • A probabilidade calculada à potência de 5 representaria 5 amostragens independentes.

Então, basicamente, estamos apenas calculando 5 probabilidades hipergeométricas independentes e depois multiplicando-as? Sinto que estou perdendo um passo em algum lugar.

daemonk
fonte
3
Se você repetir algo uma vez, significa que você faz duas vezes ao todo. Repetir algo 5 vezes significa que você faz 6 vezes?
Glen_b -Reinstala Monica

Respostas:

3

Calcule as chances recursivamente.

Seja a probabilidade de que exatamente valores , , sejam selecionados em todos os sorteios independentes de itens (sem substituição) de uma população de membros . (Vamos manter e fixados durante a análise, para que eles não precisem ser mencionados explicitamente.)x 0 x k s 1 k n k > 0 n kps(x)x0xks1knk>0nk

Seja a probabilidade de que, se exatamente os valores de forem selecionados nos primeiros desenhos , então deles sejam selecionados no último desenho. Como existem subconjuntos de elementos desses elementos , e subconjuntos dos elementos restantes são selecionados separadamente dos outros membros da população,y s - 1 x yps(xy)ys1xy(yx)y ( n - yxy k-xn-y(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

A lei da probabilidade total afirma

ps(x)=y=xkps(xy)ps1(y).

Para , é certo que : esta é a distribuição inicial.x = ks=1x=k

O cálculo total necessário para obter a distribuição completa até repetições é . Não é apenas razoavelmente rápido, o algoritmo é fácil. Uma armadilha que espera o programador incauto é que essas probabilidades podem se tornar extremamente pequenas e causar cálculos de ponto flutuante insuficiente. A implementação a seguir evita isso calculando os valores de nas colunas de uma matriz.O ( k 2 s ) log ( p s ( x ) ) 1 , 2 , , ssO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

A resposta à questão é obtida por deixar , e . n = 10000 = 10 4 k = 100 = 10 2s=5, n=10000=104k=100=102 A saída é uma matriz , mas a maioria dos números é tão pequena que podemos focar em muito pequeno . Aqui estão as quatro primeiras linhas correspondentes a :x x = 0 , 1 , 2 , 3101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

A saída é

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Os valores de rotulam as linhas, enquanto os valores de rotulam as colunas. A coluna 5 mostra a chance de um elemento aparecer em todas as cinco amostras ser minúscula (cerca de uma em um milhão) e não há essencialmente nenhuma chance de que dois ou mais elementos apareçam nas cinco amostras.sxs

Se você gostaria de ver quão pequenas são essas chances, veja os logaritmos deles. A base 10 é conveniente e não precisamos de muitos dígitos:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

A saída nos diz quantos zeros existem após o ponto decimal:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

Os números na linha superior são valores de . Por exemplo, a chance de exatamente três valores aparecerem nas cinco amostras é encontrada pela computação , fornecendo e, na verdade, isso tem zeros antes do primeiro dígito significativo. Como verificação, o último valor é uma versão arredondada de . (que conta as chances de a primeira amostra reaparecer nas próximas quatro amostras) é igual a0,000xexp(u[4])18 967,0 967,26 ( 100000.000000000000000000143441918967.0967.2610-967,26.(10000100)410967.26.

whuber
fonte
0

Acabei de encontrar um problema semelhante e, apesar de também não saber se esta é a solução correta, a abordei da seguinte maneira:

Você está interessado na ocorrência de itens em 5 amostras e itens de itens no total. Você poderia pensar em uma urna com bolas brancas e bolas pretas. bolas são retiradas e é a probabilidade de você ter todas as bolas brancas em seu conjunto. Se você fizer isso vezes (independentemente), eu o multiplicaria: .100 10 , 000 X 10 , 000 - X 100 p h X 5 p = p h 5X10010,000X10,000X100phX5p=ph5

Eu poderia até pensar em um passo adiante e envolvê-la na distribuição binomial: se você tem uma moeda com probabilidade (a probabilidade de ter todos os itens do seu conjunto) e a joga vezes, qual é a probabilidade de obter cabeças? . 5 5 p = ( 5ph55p=(55)ph5(1ph)55=ph5

Hans
fonte
0

Qual é a probabilidade de o número de itens aparecer nas 5 amostragens aleatórias?X

Com base no que Hans disse, você sempre deseja obter os mesmos ids em cada amostra de 100 e 100- ids dentre os 10000- restantes . A probabilidade de fazer isso para uma determinada amostra é dada pela função hipergeométrica para sucessos em um sorteio de 100 de uma população de 10000 com possíveis estados de sucesso: . Para 5 amostras, você usaria .X X X X P = ( XXXXXX P5P=(XX)(10000X100X)(10000100)P5

No entanto, pressupomos conhecer os ids que são compartilhados e existem maneiras de selecionar esses ids. Portanto, sua resposta final seria .( 10000X X ( 10000)(10000X)X(10000X)P5

Hao Ye
fonte
O que é " "? É impossível entender esta resposta, muito menos verificá-la, até que você a revele! x
whuber
Não me lembro, como era há 3 anos, mas provavelmente o mesmo X da pergunta?
Hao Ye
ESTÁ BEM. Mas o que justifica sua fórmula? Verificações simples, como o caso (para o qual sua fórmula nos diz que a probabilidade é , excluindo completamente outras possibilidades!), Indicam que ela está incorreta. 1X=01
whuber