Estou aprendendo sobre o bootstrap como meio de estimar a variação de uma estatística de amostra. Eu tenho uma dúvida básica.
Citando http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :
• Quantas observações devemos refazer a amostra? Uma boa sugestão é o tamanho da amostra original.
Como podemos reamostrar tantas observações quanto na amostra original?
Se eu tenho um tamanho de amostra de 100 e estou tentando estimar a variação da média. Como posso obter várias amostras de bootstrap de tamanho 100 a partir de um tamanho total de amostra de 100? Somente 1 amostra de bootstrap seria possível nesse caso, o que seria equivalente à amostra original, certo?
Obviamente estou entendendo algo muito básico. Entendo que o número de amostras ideais de inicialização é sempre infinito e, para determinar o número necessário de amostras de inicialização necessárias para meus dados, eu precisaria testar a convergência, mantendo em mente a precisão exigida.
Mas estou realmente confuso sobre qual deve ser o tamanho de cada amostra de bootstrap individual .
fonte
Respostas:
O Bootstrap é conduzido por amostragem com substituição . Parece que o termo "com substituição" não é claro para você. Conforme observado pelo whuber , a ilustração da amostragem com substituição é dada na p. 3 do papel a que você se refere (reproduzido abaixo).
(fonte: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )
A idéia geral de amostragem com substituição é que qualquer caso pode ser amostrado várias vezes (mármore verde na primeira imagem acima; bolinhas de gude azuis e violetas na última foto). Se você quiser se imaginar nesse processo, pense em uma tigela cheia de bolinhas coloridas. Diga que você deseja desenhar um certo número de bolinhas de gude nesta tigela. Se você amostrasse sem substituição, simplesmente pegaria as bolinhas da tigela e as colocaria de lado. Se você amostrasse com a substituição, você amostraria os mármores um a um, retirando mármore da tigela, assinando a cor em seu caderno e devolvendo-o de voltapara a tigela. Portanto, ao amostrar com substituição, o mesmo mármore pode ser amostrado várias vezes.
Não há formas de amostragem sem substituição casos fora da população de tamanho e maneiras de amostragem com substituição. Se você quiser ler mais sobre a matemática por trás disso, pode verificar o 2.1. Capítulo Combinatório do manual online Introdução à Probabilidade, de Hossein Pishro-Nik. Há também uma folha de dicas à mão na página WolframMathWorld . kn ( n+k-1( nk) k n ( n+k-1k)
fonte
Quando o tamanho original da amostra é muito grande e você não deseja / não pode treinar um modelo no conjunto de dados completo, a "boa sugestão" não é tão boa.
PS: Eu queria adicionar isso como um comentário à pergunta, mas não tenho permissão para adicionar nenhum comentário ...
fonte