O método bootstrap tem visto uma grande difusão nos últimos anos, eu também o uso muito, especialmente porque o raciocínio por trás é bastante intuitivo.
Mas isso é uma coisa que eu não entendo. Por que a Efron optou por realizar uma nova amostra com substituição, em vez de simplesmente subamostragem, incluindo ou excluindo aleatoriamente observações únicas?
Penso que a subamostragem aleatória tem uma qualidade muito boa, que representa idealmente a situação da vida real em que as observações que temos em nosso estudo são um subconjunto de uma população hipotética. Não vejo a vantagem de ter multiplicado as observações durante a reamostragem. Em um contexto real, nenhuma observação é semelhante a outra, especialmente para situações multivariadas complexas.
fonte
Respostas:
Uma maneira de entender essa escolha é pensar na amostra em questão como a melhor representação que você tem da população subjacente. Talvez você não tenha toda a população para colher amostras, mas você tem essa representação específica da população. Uma amostragem verdadeiramente aleatória dessa representação da população significa que você deve amostrar com substituição; caso contrário, sua amostragem posterior dependerá dos resultados da amostragem inicial. A presença de um caso repetido em uma amostra de bootstrap específica representa membros da população subjacente que possuem características próximas às daquele caso repetido específico. As abordagens deixar de fora ou deixar de fora, como você sugere, também podem ser usadas, mas isso é validação cruzada em vez de inicialização.
Acho que isso coloca em outras palavras o comentário de @kjetil_b_halvorsen
fonte