Gostaria que seus pensamentos sobre as diferenças entre validação cruzada e bootstrapping estimassem o erro de previsão.
Funciona melhor para tamanhos de conjuntos de dados pequenos ou grandes?
fonte
Gostaria que seus pensamentos sobre as diferenças entre validação cruzada e bootstrapping estimassem o erro de previsão.
Funciona melhor para tamanhos de conjuntos de dados pequenos ou grandes?
Tudo se resume a variação e viés (como de costume). O CV tende a ser menos tendencioso, mas o CV com dobras em K tem uma variação bastante grande. Por outro lado, o bootstrapping tende a reduzir drasticamente a variação, mas fornece resultados mais tendenciosos (eles tendem a ser pessimistas). Outros métodos de inicialização foram adaptados para lidar com o viés da inicialização (como as regras 632 e 632+).
Duas outras abordagens seriam "CV de Monte Carlo", também conhecido como "CV de grupo excluído", que faz muitas divisões aleatórias dos dados (como mini-treinamento e divisões de teste). A variação é muito baixa para esse método e o viés não é muito ruim se a porcentagem de dados no hold-out for baixa. Além disso, o CV repetido dobra K várias vezes e calcula a média dos resultados semelhantes aos do K regular. Sou mais parcial disso, pois mantém o viés baixo e reduz a variação.
Para amostras grandes, os problemas de variação se tornam menos importantes e a parte computacional é mais um problema. Eu ainda continuaria com o CV repetido para amostras pequenas e grandes.
Algumas pesquisas relevantes estão abaixo (especialmente Kim e Molinaro).
Bengio, Y., e Grandvalet, Y. (2005). Viés na estimativa da variância da validação cruzada k-fold. Modelagem e análise estatística para problemas complexos de dados, 75–95.
Braga-Neto, UM (2004). A validação cruzada é válida para a classificação de microarranjos de amostras pequenas Bioinformatics, 20 (3), 374–380. doi: 10.1093 / bioinformática / btg419
Efron, B. (1983). Estimando a taxa de erro de uma regra de previsão: melhoria na validação cruzada. Jornal da Associação Estatística Americana, 316-331.
Efron, B. & Tibshirani, R. (1997). Melhorias na validação cruzada: The. 632+ método de inicialização. Jornal da Associação Estatística Americana, 548-560.
Furlanello, C., Merler, S., Chemini, C., & Rizzoli, A. (1997). Uma aplicação da regra bootstrap 632+ para dados ecológicos. WIRN 97.
Jiang, W. & Simon, R. (2007). Uma comparação dos métodos de inicialização e uma abordagem de inicialização ajustada para estimar o erro de previsão na classificação de microarranjos. Statistics in Medicine, 26 (29), 5320-5334.
Jonathan, P., Krzanowski, W. & McCarthy, W. (2000). Sobre o uso da validação cruzada para avaliar o desempenho na previsão multivariada. Statistics and Computing, 10 (3), 209-229.
Kim, J.-H. (2009). Estimando a taxa de erro de classificação: Validação cruzada repetida, retenção repetida e autoinicialização. Estatística Computacional e Análise de Dados, 53 (11), 3735-3745. doi: 10.1016 / j.csda.2009.04.009
Kohavi, R. (1995). Um estudo de validação cruzada e de autoinicialização para estimativa de precisão e seleção de modelo. Conferência Conjunta Internacional sobre Inteligência Artificial, 14, 1137-1145.
Martin, J. & Hirschberg, D. (1996). Estatísticas de amostra pequena para taxas de erro de classificação I: Medições de taxa de erro.
Molinaro, AM (2005). Estimativa de erro de previsão: uma comparação dos métodos de reamostragem. Bioinformtics, 21 (15), 3301-3307. doi: 10.1093 / bioinformática / bti499
Sauerbrei, W., & Schumacher1, M. (2000). Bootstrap e validação cruzada para avaliar a complexidade dos modelos de regressão orientada a dados. Medical Data Analysis, 26-28.
Tibshirani, RJ, & Tibshirani, R. (2009). Uma correção de viés para a taxa de erro mínima na validação cruzada. Pré-impressão do Arxiv arXiv: 0908.2904.
@Frank Harrell trabalhou muito nessa questão. Não conheço referências específicas.
Mas prefiro ver as duas técnicas como tendo finalidades diferentes. A validação cruzada é uma boa ferramenta ao decidir sobre o modelo - ajuda a evitar enganar-se a pensar que você tem um bom modelo quando, na verdade, está se ajustando demais.
Quando seu modelo é corrigido, o uso do bootstrap faz mais sentido (pelo menos para mim).
Há uma introdução a esses conceitos (mais testes de permutação) usando R em http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
fonte
Meu entendimento é que o bootstrapping é uma maneira de quantificar a incerteza em seu modelo, enquanto a validação cruzada é usada para a seleção do modelo e para medir a precisão preditiva.
fonte
Uma diferença é que a validação cruzada, como o jackknife, usa todos os seus pontos de dados, enquanto o bootstrapping, que reanalisa seus dados aleatoriamente, pode não atingir todos os pontos.
Você pode inicializar o quanto quiser, o que significa uma nova amostra maior, o que deve ajudar com amostras menores.
A média da validação cruzada ou do canivete será a mesma da média da amostra, enquanto a média do bootstrap é muito improvável que seja a mesma da média da amostra.
Como a validação cruzada e o peso do canivete, todos os pontos da amostra são iguais, eles devem ter um intervalo de confiança menor (embora possivelmente incorreto) do que o bootstrap.
fonte
Estas são duas técnicas de reamostragem:
Na validação cruzada, dividimos os dados aleatoriamente em kfold e isso ajuda na super adaptação, mas essa abordagem tem sua desvantagem. Como ele usa amostras aleatórias, algumas amostras produzem grandes erros. A fim de minimizar o CV, tem técnicas, mas não é tão poderoso com problemas de classificação. O Bootstrap ajuda nisso, melhora o erro de sua própria verificação de amostra ... para obter detalhes, consulte ..
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf
fonte