Em uma variação do problema do coletor de cupons , você não sabe o número de cupons e deve determinar isso com base nos dados. Vou me referir a isso como o problema do biscoito da sorte:
Dado um número desconhecido de mensagens distintas sobre cookies da sorte , estime amostrando os cookies um de cada vez e contando quantas vezes cada fortuna aparece. Determine também o número de amostras necessárias para obter um intervalo de confiança desejado nessa estimativa.
Basicamente, preciso de um algoritmo que faça a amostragem de dados suficientes para atingir um determinado intervalo de confiança, digamos com confiança. Por uma questão de simplicidade, podemos assumir que todas as fortunas aparecem com igual probabilidade / frequência, mas isso não é verdade para um problema mais geral e uma solução para isso também é bem-vinda.
Isso parece semelhante ao problema do tanque alemão , mas, neste caso, os biscoitos da sorte não são rotulados sequencialmente e, portanto, não têm pedidos.
Respostas:
Para o caso de igual probabilidade / frequência, essa abordagem pode funcionar para você.
Seja o tamanho total da amostra, N o número de itens diferentes observados, N 1 o número de itens vistos exatamente uma vez, N 2 o número de itens vistos exatamente duas vezes, A = N 1 ( 1 - N 1K N N1 N2 e Q =N1A=N1(1−N1K)+2N2, Q^=N1K.
Então, um intervalo aproximado de 95% de confiança no tamanho total da população é dado porn
Ao implementar, pode ser necessário ajustá-los, dependendo dos seus dados.
O método é devido a Good e Turing. Uma referência com o intervalo de confiança é Esty, Warren W. (1983), "Uma lei de limite normal para um estimador não paramétrico da cobertura de uma amostra aleatória" , Ann. Statist. , Volume 11, Número 3, 905-912.
Para o problema mais geral, a Bunge produziu software livre que produz várias estimativas. Pesquise com o nome dele e a palavra CatchAll .
fonte
Não sei se isso pode ajudar, mas é o problema de pegar bolas diferentes durante n testes em uma urna com m bolas rotuladas diferentemente com a substituição. De acordo com esta página (em francês), se X n se a variável aleatória contar o número de bolas diferentes, a função de probabilidade é dada por: P ( X n = k ) = ( mk n m Xn P(Xn=k)=(mk)∑ki=0(−1)k−i(ki)(im)n
Em seguida, você pode usar um estimador de probabilidade máxima.
Outra fórmula com prova é dada aqui para resolver o problema de ocupação .
fonte
Função de probabilidade e probabilidade
Em uma resposta a uma pergunta sobre o problema do aniversário reverso, Cody Maughan deu uma solução para uma função de probabilidade.
A função de probabilidade para o número de tipos de fortuna cozinham quando desenhamos k biscoitos da sorte diferentes em n sorteios (onde cada tipo de biscoito da sorte tem probabilidade igual de aparecer em um sorteio) pode ser expressa como:
Para uma derivação da probabilidade no lado direito, consulte o problema de ocupação. Isso já foi descrito anteriormente neste site por Ben. A expressão é semelhante à da resposta de Sylvain.
Estimativa de máxima verossimilhança
Podemos calcular aproximações de primeira e segunda ordem do máximo da função de verossimilhança em
Intervalo de probabilidade
(observe, isso não é o mesmo que um intervalo de confiança, consulte: A lógica básica da construção de um intervalo de confiança )
Isso continua sendo um problema em aberto para mim. Ainda não tenho certeza de como lidar com a expressãom−nm!(m−k)! (é claro que é possível calcular todos os valores e selecionar os limites com base nisso, mas seria mais agradável ter alguma fórmula ou estimativa exata explícita). Não consigo relacioná-lo com nenhuma outra distribuição que ajudaria muito a avaliá-lo. Mas sinto que uma expressão agradável (simples) poderia ser possível a partir dessa abordagem de intervalo de probabilidade.
Intervalo de confiança
Para o intervalo de confiança, podemos usar uma aproximação normal. Na resposta de Ben, são dadas as seguintes médias e variações:
Digamos para uma determinada amostran=200 e observamos cookies únicos k os limites de 95% E[K]±1.96V[K]−−−−√ parece com:
Strlng2
fonte