Eu sei que este é um tópico bastante quente, onde ninguém realmente pode dar uma resposta simples. No entanto, estou me perguntando se a seguinte abordagem não poderia ser útil.
O método de autoinicialização é útil apenas se sua amostra seguir mais ou menos (leia exatamente) a mesma distribuição que a população original. Para ter certeza de que esse é o caso, você precisa aumentar o tamanho da amostra. Mas o que é grande o suficiente?
Se minha premissa estiver correta, você terá o mesmo problema ao usar o teorema do limite central para determinar a média da população. Somente quando o tamanho da amostra é grande o suficiente, você pode ter certeza de que a população da sua amostra é normalmente distribuída (em torno da média da população). Em outras palavras, suas amostras precisam representar sua população (distribuição) suficientemente bem. Mas, novamente, o que é grande o suficiente?
No meu caso (processos administrativos: tempo necessário para finalizar uma demanda versus quantidade de demandas), tenho uma população com uma distribuição multimodal (todas as demandas que foram finalizadas em 2011), das quais tenho 99% de certeza de que é ainda menos normalmente distribuído que a população (todas as demandas concluídas entre os dias atuais e os dias anteriores, o ideal é que esse período seja o menor possível). Quero pesquisar.
Minha população de 2011 existe com unidades suficientes para fazer amostras de um tamanho de amostra n . Eu escolho um valor de x , suponha 10 ( x = 10 ). Agora uso tentativa e erro para determinar um bom tamanho de amostra. Eu tomo um n = 50 e ver se minha população média da amostra é normalmente distribuída usando Kolmogorov-Smirnov. Nesse caso, repito as mesmas etapas, mas com um tamanho de amostra 40 , caso contrário, repita com um tamanho de amostra 60 (etc.).
Depois de um tempo, concluo que é o tamanho mínimo absoluto da amostra para obter uma representação mais ou menos boa da minha população de 2011. Como conheço minha população de interesse (todas as demandas concluídas entre os dias atuais e os dias anteriores) tem menos variação, posso usar com segurança um tamanho de amostra de n = 45 para inicializar. (Indiretamente, n = 45 determina o tamanho do meu período de tempo: tempo necessário para concluir 45 demandas.)
resposta na primeira resposta Obrigado por responder, sua resposta foi muito útil para mim, especialmente os links dos livros.
Mas tenho medo de que, na minha tentativa de fornecer informações, tenha obscurecido completamente minha pergunta. Eu sei que as amostras de bootstrap assumem a distribuição da amostra da população. Eu te sigo completamente, mas ...
Sua amostra populacional original precisa ser grande o suficiente para ter uma certeza moderada de que a distribuição da amostra populacional corresponde (é igual) à distribuição 'real' da população.
Essa é apenas uma idéia de como determinar o tamanho do tamanho da amostra original para ter certeza de que a distribuição da amostra corresponde à distribuição da população.
Suponha que você tenha uma distribuição populacional bimodal e uma parte superior seja muito maior que a outra. Se o tamanho da amostra for 5, é grande a chance de que todas as 5 unidades tenham um valor muito próximo do topo maior (a chance de anunciar aleatoriamente uma unidade é a maior). Nesse caso, sua distribuição de amostra parecerá monomodal.
Com um tamanho de amostra de cem, a chance de sua distribuição de amostra também ser bimodal é muito maior! O problema do bootstrap é que você tem apenas uma amostra (e você desenvolve mais nessa amostra). Se a distribuição da amostra realmente não corresponder à distribuição da população, você está com problemas. Essa é apenas uma idéia para ter a chance de ter uma "má distribuição da amostra" o mais baixa possível, sem precisar aumentar infinitamente o tamanho da amostra.
fonte
amostragem bayesiana de bootstrap de check-out que pode lidar com um tamanho pequeno de amostra. Consulte http://www.sumsar.net/blog/2015/04/the-non-parametric-bootstrap-as-a-bayesian-model/ para obter mais detalhes.
fonte