Como calcular o tamanho da amostra para simulação, a fim de afirmar algum nível de bondade nos meus resultados?

8

Eu sou um novato em estatísticas, então peço desculpas antecipadamente se estou fazendo uma pergunta ousada. Procurei respostas para minha pergunta, mas acho que muitos dos tópicos são muito específicos ou vão rapidamente além do que eu entendo atualmente.

Eu tenho alguns trabalhos de simulação que incluem grandes conjuntos de dados que se tornam inviáveis ​​para simular exaustivamente. Para o menor dos meus conjuntos de dados, uma execução exaustiva apresenta a seguinte distribuição de resultados de um total de 9180900 testes.

Resultado / Frequência:

  • 0 7183804
  • 1 1887089
  • 2 105296
  • 3 4571
  • 4 140

O que os números significam não importa; o que importa é que os conjuntos de dados maiores que eu tenho podem se estender a bilhões de testes e se tornar muito demorados para serem executados. Eu preciso restringir a carga de trabalho.

Eu sinto que deveria ser capaz de amostrar a partir do conjunto completo de testes para derivar uma distribuição para a amostra e inferir (dentro de alguns limites) que os resultados de uma simulação exaustiva exibiriam aproximadamente a mesma distribuição. Não há viés inerente aos testes executados; portanto, a escolha uniforme de entradas aleatórias deve fornecer uma amostra válida.

O que ainda não entendi é como devo selecionar o tamanho da minha amostra. Em particular, a distribuição exibe uma cauda estranha, e eu temo que a amostragem muito pequena perca as frequências mais baixas. (As 140 ocorrências de '4' representam apenas 0,0015% da população!)

Então, minha pergunta é: qual é a melhor maneira de calcular um tamanho de amostra com o qual posso afirmar algum nível de bondade nos meus resultados?

Ou estou fazendo a pergunta errada?

Stephen
fonte

Respostas:

6

Acho que a resposta para sua pergunta são algumas outras perguntas: quão raro um determinado resultado de teste precisa ser antes de você não se importar com isso? Quão certo você deseja ter, de fato, encontrará pelo menos um teste que sai dessa maneira se ocorrer exatamente no limiar em que você parou de se preocupar com isso. Dados esses valores, você pode fazer uma análise de poder. Não estou 100% confiante se você precisa fazer uma análise de poder multinomial (envolvendo mais de um resultado) ou não, acho que uma binomial (seja o teste raro ou não) funcionará bem, por exemplo, http: / /statpages.org/proppowr.html . Alfa = 0,05, Potência = 80%, Grupo na proporção 0, Proporção do grupo 1 0,0015. Tamanho relativo da amostra, 1; total - logo ao sul de 13.000 testes. No qual o número esperado de teste 4s é ~ 20.

Isso o ajudará a encontrar o número de testes necessários para detectar um desses raros resultados. No entanto, se você realmente se importa com a frequência relativa, o problema é mais difícil. Suponho que, se você simplesmente multiplicasse o N resultante da análise de potência por 20 ou 30, encontraria um palpite razoável.

Na prática, se você realmente não precisar decidir o número de testes antes do tempo, considere executar os testes até obter 20 ou 30 resultados 4s. Quando você obtiver muitos 4s, deverá começar a ter uma estimativa razoável, mas não absoluta, da sua IMO de frequência relativa.

Por fim - existem compensações entre o número de testes executados e a precisão. Você precisa saber o quão preciso você deseja que suas estimativas sejam antes de poder determinar quantas são "suficientes".

russellpierce
fonte
Certo, análise de poder. Eu acho que talvez eu realmente me importe com a frequência relativa, no entanto. Vou tentar ler sobre isso também. Sem um número claramente definido de testes a serem executados, eu executei 2% dos testes, selecionados aleatoriamente uniformemente, em cada um dos conjuntos de dados. 2% é arbitrário, mas também tratável nos conjuntos de dados maiores. Significa meus amostra aumenta de tamanho em relação à população de testes em um conjunto de dados, o que pode levar a mais testes do que eu preciso sobre os conjuntos de dados maiores ...
Stephen
2

Eu acho que a análise de poder é muito elaborada para o que você está tentando fazer e pode decepcionar.

Com um tamanho de amostra ao norte de 9 milhões, acho que sua estimativa p = Pr(X > 3) = 0.000015é bastante precisa. Portanto, você pode usá-lo em um modelo binomial simples (n, p) para estimar o tamanho da amostra.

Digamos que seu objetivo é observar pelo menos um evento "Grande" com uma probabilidade de 99,9%. Então, Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999e o tamanho da amostra desejado é n = ln(0.001)/ln(0.999985) = 460514.

Obviamente, se você estiver com sorte e estiver disposto a ter 10% de chance de perder um evento Grande, precisará apenas de um tamanho de amostra de n = 153505. Triplicar o tamanho da amostra reduz sua chance de perder o evento Grande por um fator de 100, então eu iria para os 460.000.

MAS ... se você está procurando CINCO, a probabilidade deles fica ao sul de 1/9180902 e para observar pelo menos um daqueles com 99,9% de probabilidade, você precisaria de um tamanho de amostra de cerca de 63,4 milhões!

Siga o conselho do DrKNexus sobre como atualizar sua estimativa das probabilidades para os eventos Grandes, pois pode não ser constante em todos os seus conjuntos de dados.

Mike Anderson
fonte
O Pr (X> 3) que você fornece é diferente do que os solicitantes de pergunta 0,0015, você pode revisá-lo.
22810 russellpierce