Ao usar o bootstrapping para avaliação do modelo, sempre achei que as amostras prontas para uso foram usadas diretamente como conjunto de teste. No entanto, esse parece não ser o caso da abordagem preterida do scikit-learnBootstrap
, que parece criar o conjunto de testes a partir do desenho com a substituição do subconjunto de dados pronto para uso. Qual é o raciocínio estatístico por trás disso? Existem cenários específicos em que essa técnica é melhor do que apenas avaliar a amostra fora da bolsa ou vice-versa?
cross-validation
bootstrap
random-forest
scikit-learn
bagging
rabo de peixe
fonte
fonte
Respostas:
Amostras de bootstrap são usadas para avaliar o desempenho do algoritmo por muitas iterações. Enquanto isso, o desempenho em conjuntos alterados aleatoriamente é avaliado.
Por outro lado, ao executar, por exemplo, a validação cruzada com 10 dobras, você está executando apenas 10 iterações em diferentes conjuntos de dados de trem e teste.
O link que você postou está inativo, então eu adicionei a descrição da função na versão atual (0.14) do sklearn
Descrição do método
fonte
Talvez você tenha gostado de algo. Parece que outras pessoas puxaram o mesmo encadeamento e
Bootstrap
foram preteridas em favor de um uso mais intencional doresample
método com assklearn.cross_validation
abordagens testadas e verdadeiras comoStratifiedKFold
.fonte