Digamos que eu coletei um pequeno número (N) de observações para uma hipótese que eu gostaria de testar. Eu poderia usar o método de autoinicialização para produzir uma distribuição de amostra para o resultado médio de N observações, mas estou preocupado que esse modelo possa quebrar quando N ficar muito pequeno, introduzindo erro na própria distribuição de amostra.
Portanto, minha pergunta é: como posso determinar qual é o N mínimo necessário para obter resultados razoáveis; ou mais quantitativamente, como N está vinculado ao erro de amostragem como N-> 0?
Atualização: Estou entendendo que o valor mínimo para N variará com base na natureza dos dados subjacentes. Então, neste caso, que meta-observações posso fazer para me ajudar a determinar isso? Não sei a verdadeira distribuição subjacente, caso contrário não precisaria inicializar.
Respostas:
Não há uma resposta direta para isso, pois sempre dependerá da verdadeira distribuição dos seus dados (imagine o caso degenerado em que o único valor permitido é 1: um bootstrap de uma amostra do tamanho 1 será tão bom quanto qualquer outra coisa. !) e a estatística que você irá calcular: algumas estatísticas terão mais problemas para se recuperar de um tamanho de amostra pequeno do que outras (imagine uma nova amostra de um erro extremo extremo).
Então: você terá que ser mais específico do que o que você nos deu até agora.
fonte