Bootstrapping é qualquer teste ou métrica que se baseia em amostragem aleatória com substituição. É um método que ajuda em muitas situações, como validação do desempenho preditivo de um modelo, métodos de ensemble, estimativa de viés e variação do parâmetro de um modelo, etc. executando amostragem com substituição do conjunto de dados original e assumindo ao mesmo tempo que os pontos de dados que não foram escolhidos são o conjunto de dados de teste. Podemos repetir esse procedimento várias vezes e calcular a pontuação média como estimativa do desempenho do nosso modelo. Além disso, o Bootstrapping está relacionado aos métodos de treinamento do conjunto, porque podemos construir um modelo usando cada conjunto de dados de bootstrap e agrupar esses modelos em um conjunto usando a votação majoritária (para classificação) ou calculando a média (para previsões numéricas) para todos os esses modelos como resultado final.
A validação cruzada é um procedimento para validar o desempenho de um modelo e é feito dividindo os dados de treinamento em k partes. Assumimos que as partes k-1 são o conjunto de treinamento e a outra parte é o nosso conjunto de testes. Podemos repetir que k vezes diferentemente, mantendo sempre uma parte diferente dos dados. Finalmente, tomamos a média das pontuações k como nossa estimativa de desempenho. A validação cruzada pode sofrer viés ou variação. Aumentando o número de divisões, a variação também aumentará e o viés diminuirá. Por outro lado, se diminuirmos o número de divisões, o viés aumentará e a variação diminuirá.
Em resumo, a validação cruzada divide o conjunto de dados disponível para criar vários conjuntos de dados, e o método Bootstrapping usa o conjunto de dados original para criar vários conjuntos de dados após a nova amostragem com substituição. A inicialização não é tão forte quanto a validação cruzada quando é usada para validação de modelo. Bootstrapping é mais sobre a construção de modelos de conjuntos ou apenas a estimativa de parâmetros.
Christos Karatsalos
fonte
fonte