Eu sou um novato em estatísticas, então peço desculpas antecipadamente se estou fazendo uma pergunta ousada. Procurei respostas para minha pergunta, mas acho que muitos dos tópicos são muito específicos ou vão rapidamente além do que eu entendo atualmente.
Eu tenho alguns trabalhos de simulação que incluem grandes conjuntos de dados que se tornam inviáveis para simular exaustivamente. Para o menor dos meus conjuntos de dados, uma execução exaustiva apresenta a seguinte distribuição de resultados de um total de 9180900 testes.
Resultado / Frequência:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
O que os números significam não importa; o que importa é que os conjuntos de dados maiores que eu tenho podem se estender a bilhões de testes e se tornar muito demorados para serem executados. Eu preciso restringir a carga de trabalho.
Eu sinto que deveria ser capaz de amostrar a partir do conjunto completo de testes para derivar uma distribuição para a amostra e inferir (dentro de alguns limites) que os resultados de uma simulação exaustiva exibiriam aproximadamente a mesma distribuição. Não há viés inerente aos testes executados; portanto, a escolha uniforme de entradas aleatórias deve fornecer uma amostra válida.
O que ainda não entendi é como devo selecionar o tamanho da minha amostra. Em particular, a distribuição exibe uma cauda estranha, e eu temo que a amostragem muito pequena perca as frequências mais baixas. (As 140 ocorrências de '4' representam apenas 0,0015% da população!)
Então, minha pergunta é: qual é a melhor maneira de calcular um tamanho de amostra com o qual posso afirmar algum nível de bondade nos meus resultados?
Ou estou fazendo a pergunta errada?
Eu acho que a análise de poder é muito elaborada para o que você está tentando fazer e pode decepcionar.
Com um tamanho de amostra ao norte de 9 milhões, acho que sua estimativa
p = Pr(X > 3) = 0.000015
é bastante precisa. Portanto, você pode usá-lo em um modelo binomial simples (n, p) para estimar o tamanho da amostra.Digamos que seu objetivo é observar pelo menos um evento "Grande" com uma probabilidade de 99,9%. Então,
Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999
e o tamanho da amostra desejado én = ln(0.001)/ln(0.999985) = 460514
.Obviamente, se você estiver com sorte e estiver disposto a ter 10% de chance de perder um evento Grande, precisará apenas de um tamanho de amostra de n = 153505. Triplicar o tamanho da amostra reduz sua chance de perder o evento Grande por um fator de 100, então eu iria para os 460.000.
MAS ... se você está procurando CINCO, a probabilidade deles fica ao sul de 1/9180902 e para observar pelo menos um daqueles com 99,9% de probabilidade, você precisaria de um tamanho de amostra de cerca de 63,4 milhões!
Siga o conselho do DrKNexus sobre como atualizar sua estimativa das probabilidades para os eventos Grandes, pois pode não ser constante em todos os seus conjuntos de dados.
fonte