Estou tentando estimar a média de uma distribuição gaussiana mais ou menos via amostragem. Não tenho conhecimento prévio sobre sua média ou variação. Cada amostra é cara de obter. Como decido dinamicamente quantas amostras eu preciso para obter um certo nível de confiança / precisão? Como alternativa, como sei quando posso parar de colher amostras?
Todas as respostas para perguntas como essa que eu acho parecem presumir algum conhecimento da variação, mas preciso descobrir isso ao longo do caminho também. Outros são voltados para a realização de pesquisas, e não está claro para mim (iniciante que sou) como isso generaliza - minha média não é w / in [0,1], etc.
Acho que essa é provavelmente uma pergunta simples com uma resposta bem conhecida, mas meu Google-fu está falhando comigo. Mesmo apenas me dizendo o que procurar seria útil.
fonte
Respostas:
Você precisa procurar por 'designs adaptativos bayesianos'. A ideia básica é a seguinte:
Você inicializa o anterior para os parâmetros de interesse.
Antes de qualquer coleta de dados, seus antecedentes seriam difusos. À medida que dados adicionais chegam, você redefine o anterior para ser o posterior que corresponde aos 'dados + anteriores até esse momento'.
Coletar dados.
Calcule o posterior com base em dados + anteriores. O posterior é usado como o anterior na etapa 1 se você realmente coletar dados adicionais.
Avalie se seus critérios de parada são atendidos
Os critérios de parada podem incluir algo como o intervalo de 95% credível não deve ser maior que unidades para os parâmetros de interesse. Você também pode ter funções de perda mais formais associadas aos parâmetros de interesse e calcular a perda esperada em relação à distribuição posterior do parâmetro de interesse.±ϵ
Você repete as etapas 1, 2 e 3 até que os critérios de parada da etapa 4 sejam atendidos.
fonte
Você normalmente gostaria que pelo menos 30 invocasse o teorema do limite central (embora isso seja um tanto arbitrário). Diferentemente do caso de pesquisas etc, que são modeladas usando a distribuição binomial, você não pode determinar um tamanho de amostra antecipadamente, o que garante um nível de precisão com um processo gaussiano - depende de quais resíduos você obtém para determinar o erro padrão.
Note-se que se você tiver uma estratégia de amostragem robusta, poderá obter resultados muito mais precisos do que com um tamanho de amostra muito maior com uma estratégia ruim.
fonte