Ao dividir meus dados rotulados em conjuntos de treinamento, validação e teste, ouvi de 50/25/25 a 85/5/10. Estou certo de que isso depende de como você usará o seu modelo e de quão propenso a sobreajustar o seu algoritmo de aprendizado. Existe uma maneira de decidir ou é tudo por regra geral? Até o ELSII parece vago sobre o assunto.
machine-learning
cross-validation
Ed Fine
fonte
fonte
Respostas:
fonte
Dependendo do aplicativo, é possível ignorar a incerteza e usar a inicialização.
Wiki: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
Pergunta relacionada aqui. Noções básicas sobre autoinicialização para validação e seleção de modelo
fonte
Claro que você também precisa decidir sobre as razões de divisão para a reamostragem (dupla) ...
No entanto, a reamostragem geralmente funciona para uma ampla variedade de taxas de divisão, se você tiver em mente
O que você pode fazer se não tiver certeza de que a reamostragem é necessária é: reamostrar algumas vezes. O suficiente para que você possa medir se a reamostragem foi necessária.
Com esses resultados, você pode decidir se deve adicionar mais iterações de reamostragem ou se as coisas estão bem como estão.
fonte
Não existe uma regra rígida para isso. Mas a análise empírica mostrou que quanto mais dados de treinamento você tiver, melhor será sua precisão. Mas faça o que fizer, não se esqueça de reunir todos os seus dados de treinamento / validação / teste e faça um CV de 10 vezes quando estiver finalizando. Isso fornece uma visão muito boa sobre o problema de overfit / underfit durante o experimento.
fonte
Eu acho que tudo importa em quais perguntas você está tentando responder. Você está interessado em uma visão precisa da diferença de desempenho entre vários algoritmos? Então você precisa de um conjunto de validação bastante grande. Você está interessado no desempenho de um algoritmo para N = 10000 amostras? Então você deve colocar pelo menos 10.000 amostras no conjunto de trens.
Um conjunto de validação maior fornece mais segurança estatística sobre seus resultados, mas a certeza é sobre o desempenho de um algoritmo treinado em menos amostras, o que pode não ser o que você procura no final.
fonte