Existe um serviço da web em que posso solicitar informações sobre um item aleatório. Para cada solicitação, cada item tem a mesma chance de ser devolvido.
Posso continuar solicitando itens e registrar o número de duplicatas e único. Como posso usar esses dados para estimar o número total de itens?
Respostas:
Essa é essencialmente uma variante do problema do coletor de cupons.
Se houver itens no total e você tiver retirado um tamanho de amostra s com substituição, a probabilidade de identificar u itens únicos é P r ( U = u | n , s ) =n s u
onde
Agora tudo o que você precisa é de uma distribuição prévia para , aplicar teorema de Bayes, e obter uma distribuição posterior para N .Pr(N=n) N
fonte
Já dei uma sugestão baseada nos números de Stirling do segundo tipo e nos métodos bayesianos.
Para aqueles que consideram os números de Stirling muito grandes ou os métodos bayesianos muito difíceis, um método mais difícil pode ser o de usar
e calcular novamente usando métodos numéricos.
Por exemplo, tomando o exemplo de GaBorgulya com e um observado U = 265 , isso pode nos dar uma estimativa do ns=300 U=265 n^≈1180
Se essa fosse a população, isso nos daria uma variação de de cerca de 25, e dois desvios-padrão arbitrários de ambos os lados de 265 seriam de 255 e 275 (como eu disse, esse é um método grosseiro). 255 nos daria uma estimativa para n cerca de 895, enquanto 275 daria cerca de 1692. O exemplo 1000 é confortavelmente dentro desse intervalo.U n
fonte
Você pode usar o método de captura-recaptura , também implementado como o pacote Rcapture R .
Aqui está um exemplo, codificado em R. Vamos supor que o serviço da Web tenha N = 1000 itens. Faremos n = 300 solicitações. Gere uma amostra aleatória em que, numerando os elementos de 1 a k, onde k é quantos itens diferentes vimos.
O resultado da simulação é
assim, entre as 300 solicitações, havia 4 itens vistos 3 vezes, 27 itens vistos duas vezes e 234 itens vistos apenas uma vez.
Agora estime N desta amostra:
O resultado:
EDIT: Para verificar a confiabilidade do método acima, executei o código acima em 10000 amostras geradas. O modelo Mh Chao convergia todas as vezes. Aqui está o resumo:
fonte