Aqui está um exemplo de caso:
- Eu tenho uma população de 10.000 itens. Cada item tem um ID exclusivo.
- Escolho aleatoriamente 100 itens e registro os IDs
- Coloquei os 100 itens de volta na população
- Escolho aleatoriamente 100 itens novamente, registro os IDs e os substituo.
- No total, repito essa amostragem aleatória 5 vezes
Qual é a probabilidade de o número de itens aparecer nas 5 amostragens aleatórias?
Eu não sou muito bem versado em estatística. Isso seria correto para ?
- Para cada amostragem, o número de combinações possíveis de 100 itens de 10.000 é
- De todas as combinações possíveis de 100 itens, as combinações contêm 10 itens específicos
- A probabilidade de ter 10 itens específicos é
- A probabilidade calculada à potência de 5 representaria 5 amostragens independentes.
Então, basicamente, estamos apenas calculando 5 probabilidades hipergeométricas independentes e depois multiplicando-as? Sinto que estou perdendo um passo em algum lugar.
probability
hypergeometric
daemonk
fonte
fonte
Respostas:
Calcule as chances recursivamente.
Seja a probabilidade de que exatamente valores , , sejam selecionados em todos os sorteios independentes de itens (sem substituição) de uma população de membros . (Vamos manter e fixados durante a análise, para que eles não precisem ser mencionados explicitamente.)x 0 ≤ x ≤ k s ≥ 1 k n ≥ k > 0 n kps(x) x 0≤x≤k s≥1 k n ≥ k > 0 n k
Seja a probabilidade de que, se exatamente os valores de forem selecionados nos primeiros desenhos , então deles sejam selecionados no último desenho. Como existem subconjuntos de elementos desses elementos , e subconjuntos dos elementos restantes são selecionados separadamente dos outros membros da população,y s - 1 x ≤ yps( x ∣ y) y s - 1 x ≤ y ( yx) y ( n - yx y k-xn-y( n-yk - x) k - x n - y
A lei da probabilidade total afirma
Para , é certo que : esta é a distribuição inicial.x = ks=1 x=k
O cálculo total necessário para obter a distribuição completa até repetições é . Não é apenas razoavelmente rápido, o algoritmo é fácil. Uma armadilha que espera o programador incauto é que essas probabilidades podem se tornar extremamente pequenas e causar cálculos de ponto flutuante insuficiente. A implementação a seguir evita isso calculando os valores de nas colunas de uma matriz.O ( k 2 s ) log ( p s ( x ) ) 1 , 2 , … , ss O(k2s) log(ps(x)) 1,2,…,s
R
A resposta à questão é obtida por deixar , e . n = 10000 = 10 4 k = 100 = 10 2s=5, n=10000=104 k=100=102 A saída é uma matriz , mas a maioria dos números é tão pequena que podemos focar em muito pequeno . Aqui estão as quatro primeiras linhas correspondentes a :x x = 0 , 1 , 2 , 3101×5 x x=0,1,2,3
A saída é
Os valores de rotulam as linhas, enquanto os valores de rotulam as colunas. A coluna 5 mostra a chance de um elemento aparecer em todas as cinco amostras ser minúscula (cerca de uma em um milhão) e não há essencialmente nenhuma chance de que dois ou mais elementos apareçam nas cinco amostras.sx s
Se você gostaria de ver quão pequenas são essas chances, veja os logaritmos deles. A base 10 é conveniente e não precisamos de muitos dígitos:
A saída nos diz quantos zeros existem após o ponto decimal:
Os números na linha superior são valores de . Por exemplo, a chance de exatamente três valores aparecerem nas cinco amostras é encontrada pela computação , fornecendo e, na verdade, isso tem zeros antes do primeiro dígito significativo. Como verificação, o último valor é uma versão arredondada de . (que conta as chances de a primeira amostra reaparecer nas próximas quatro amostras) é igual a0,000x 0.0000000000000000001434419… 18 967.0 967.26 10-967,26.(10000100)−4 10−967.26.
exp(u[4])
18 967,0 967,26 ( 10000fonte
Acabei de encontrar um problema semelhante e, apesar de também não saber se esta é a solução correta, a abordei da seguinte maneira:
Você está interessado na ocorrência de itens em 5 amostras e itens de itens no total. Você poderia pensar em uma urna com bolas brancas e bolas pretas. bolas são retiradas e é a probabilidade de você ter todas as bolas brancas em seu conjunto. Se você fizer isso vezes (independentemente), eu o multiplicaria: .100 10 , 000 X 10 , 000 - X 100 p h X 5 p = p h 5X 100 10,000 X 10,000−X 100 ph X 5 p=ph5
Eu poderia até pensar em um passo adiante e envolvê-la na distribuição binomial: se você tem uma moeda com probabilidade (a probabilidade de ter todos os itens do seu conjunto) e a joga vezes, qual é a probabilidade de obter cabeças? . 5 5 p = ( 5ph 5 5 p=(55)ph5(1−ph)5−5=ph5
fonte
Com base no que Hans disse, você sempre deseja obter os mesmos ids em cada amostra de 100 e 100- ids dentre os 10000- restantes . A probabilidade de fazer isso para uma determinada amostra é dada pela função hipergeométrica para sucessos em um sorteio de 100 de uma população de 10000 com possíveis estados de sucesso: . Para 5 amostras, você usaria .X X X X P = ( XX X X X X P5P=(XX)(10000−X100−X)(10000100) P5
No entanto, pressupomos conhecer os ids que são compartilhados e existem maneiras de selecionar esses ids. Portanto, sua resposta final seria .( 10000X X ( 10000)(10000X) X (10000X)P5
fonte