Cálculo dinâmico do número de amostras necessárias para estimar a média

9

Estou tentando estimar a média de uma distribuição gaussiana mais ou menos via amostragem. Não tenho conhecimento prévio sobre sua média ou variação. Cada amostra é cara de obter. Como decido dinamicamente quantas amostras eu preciso para obter um certo nível de confiança / precisão? Como alternativa, como sei quando posso parar de colher amostras?

Todas as respostas para perguntas como essa que eu acho parecem presumir algum conhecimento da variação, mas preciso descobrir isso ao longo do caminho também. Outros são voltados para a realização de pesquisas, e não está claro para mim (iniciante que sou) como isso generaliza - minha média não é w / in [0,1], etc.

Acho que essa é provavelmente uma pergunta simples com uma resposta bem conhecida, mas meu Google-fu está falhando comigo. Mesmo apenas me dizendo o que procurar seria útil.

Josh Bleecher Snyder
fonte
Alguma razão pela qual você marcou isso como CW? A questão parece suficientemente específica para permitir uma resposta correta e, portanto, não deve ser CW.
11
@josh tudo bem. Eu só estava curioso sobre a sua escolha.
11
Google "amostragem adaptativa" e "amostragem sequencial". Se você ainda estiver preso, inclua "Wald" como uma palavra-chave e, em seguida, avance historicamente (ou seja, observe os trabalhos que fazem referência ao trabalho de Wald sobre amostragem seqüencial, depois os trabalhos que os referenciam etc.).
whuber
11
@Robby McKilliam: Mas que dados você usa? Essa questão surge antes que qualquer dado seja coletado. Se você coletar valores um de cada vez e calcular um IC depois que cada novo for adicionado ao conjunto de dados, não será possível usar fórmulas padrão para os intervalos devido às comparações múltiplas correlacionadas que você estiver fazendo. Portanto, você precisa de uma regra de parada que otimize a soma do risco estatístico de seu estimador e o custo de coletar cada amostra adicional.
whuber
11
@whuber thanks! Ainda estou digerindo o material, mas acho que é exatamente isso que estou procurando. Se esta fosse uma resposta, eu aceitá-la ...
Josh Bleecher Snyder

Respostas:

2

Você precisa procurar por 'designs adaptativos bayesianos'. A ideia básica é a seguinte:

  1. Você inicializa o anterior para os parâmetros de interesse.

    Antes de qualquer coleta de dados, seus antecedentes seriam difusos. À medida que dados adicionais chegam, você redefine o anterior para ser o posterior que corresponde aos 'dados + anteriores até esse momento'.

  2. Coletar dados.

  3. Calcule o posterior com base em dados + anteriores. O posterior é usado como o anterior na etapa 1 se você realmente coletar dados adicionais.

  4. Avalie se seus critérios de parada são atendidos

    Os critérios de parada podem incluir algo como o intervalo de 95% credível não deve ser maior que unidades para os parâmetros de interesse. Você também pode ter funções de perda mais formais associadas aos parâmetros de interesse e calcular a perda esperada em relação à distribuição posterior do parâmetro de interesse.±ϵ

Você repete as etapas 1, 2 e 3 até que os critérios de parada da etapa 4 sejam atendidos.

user28
fonte
0

Você normalmente gostaria que pelo menos 30 invocasse o teorema do limite central (embora isso seja um tanto arbitrário). Diferentemente do caso de pesquisas etc, que são modeladas usando a distribuição binomial, você não pode determinar um tamanho de amostra antecipadamente, o que garante um nível de precisão com um processo gaussiano - depende de quais resíduos você obtém para determinar o erro padrão.

Note-se que se você tiver uma estratégia de amostragem robusta, poderá obter resultados muito mais precisos do que com um tamanho de amostra muito maior com uma estratégia ruim.

James
fonte
3
Por que alguém precisaria invocar o CLT ao coletar amostras de uma distribuição gaussiana conhecida (ou assumida)? A média de até uma amostra de uma será normalmente distribuída!
whuber
Bom ponto! Não fez o RTQ corretamente.
James