(Pedimos desculpas antecipadamente pelo uso da linguagem leiga e não da estatística).
Se eu quiser medir as chances de rolar cada lado de uma matriz física específica de seis lados para cerca de +/- 2% com uma confiança razoável de certeza, quantos rolos de matriz de amostra seriam necessários?
ou seja, quantas vezes eu precisaria rolar um dado, contando cada resultado, para ter 98% de certeza de que as chances de rolar cada lado estão entre 14,6% e 18,7%? (Ou alguns critérios semelhantes, nos quais seria de cerca de 98% de certeza de que o dado é justo dentro de 2%.)
(Esta é uma preocupação do mundo real para jogos de simulação que usam dados e quer ter certeza de que certos desenhos de dados têm uma probabilidade aceitável de 1/6 de rolar cada número. Há alegações de que muitos desenhos de dados comuns foram medidos rolando 29% 1s por rolando vários dados 1000 vezes cada.)
fonte
Respostas:
TL; DR: sep = 1/6 e você deseja saber qual o tamanho n precisa ter 98% de certeza de que os dados são justos (entre 2%), n precisa ter pelo menos n ≥ 766 .
Sejan o número de jogadas e X o número de jogadas que caem em algum lado especificado. Então X segue uma distribuição binomial (n, p) onde p é a probabilidade de obter esse lado especificado.
Pelo teorema do limite central, sabemos que
ComoX/n é a média amostral de n variáveis aleatórias de Bernoulli (p) . Portanto, para n grande , os intervalos de confiança para p podem ser construídos como
Desdep é desconhecida, podemos substituí-lo com a média da amostra p = X / n , e por vários teoremas de convergência, sabemos que o intervalo de confiança resultante será assintoticamente válido. Portanto, obtemos intervalos de confiança do formuláriop^=X/n
withp^=X/n . I'm going to assume you know what Z -scores are. For example, if you want a 95% confidence interval, you take Z=1.96 . So for a given confidence level α we have
Now let's say you want this confidence interval to be of length less thanCα , and want to know how big a sample we need to make this case. Well this is equivelant to asking what nα satisfies
Which is then solved to obtain
So plug in your values forZα , Cα , and estimated p^ to obtain an estimate for nα . Note that since p is unknown this is only an estimate, but asymptotically (as n gets larger) it should be accurate.
fonte