Suponha que eu tenha um tamanho pequeno de amostra, por exemplo, N = 100 e duas classes. Como devo escolher os tamanhos de treinamento, validação cruzada e conjunto de testes para aprendizado de máquina?
Eu escolheria intuitivamente
- Tamanho do conjunto de treinamento como 50
- Conjunto de validação cruzada tamanho 25 e
- Teste o tamanho como 25.
Mas provavelmente isso faz mais ou menos sentido. Como devo realmente decidir esses valores? Posso tentar opções diferentes (embora eu ache que não é tão preferível ... maior possibilidade de mais aprendizado)?
E se eu tivesse mais de duas aulas?
Respostas:
Você certamente encontrou a pergunta muito semelhante: escolha de K na validação cruzada K-fold ?
(Incluindo o link para o trabalho de Ron Kohavi)
Se o tamanho da sua amostra já for pequeno, recomendo evitar qualquer otimização orientada a dados. Em vez disso, restrinja-se a modelos em que você pode corrigir hiperparâmetros com seu conhecimento sobre modelo e aplicativo / dados. Isso torna desnecessário um dos níveis de validação / teste, deixando mais de alguns casos para treinamento dos modelos substitutos na validação cruzada restante.k recomendado em geral.
IMHO, você de qualquer maneira não pode pagar modelos muito sofisticados com esse tamanho de amostra. E quase certamente você não pode se dar ao luxo de fazer comparações significativas de modelos (com certeza não, a menos que use regras de pontuação adequadas e técnicas de análise emparelhadas).
Essa decisão é muito mais importante do que a escolha precisa de (por exemplo, 5 vezes vs. 10 vezes) - com a importante exceção de deixar uma de fora não é
Curiosamente, com esses problemas de classificação de tamanho de amostra muito pequeno, a validação geralmente é mais difícil (em termos de necessidades de tamanho de amostra) em comparação com o treinamento de um modelo decente. Se você precisar de alguma literatura sobre isso, consulte, por exemplo, nosso artigo sobre planejamento de tamanho de amostra:
Beleites, C. e Neugebauer, U. e Bocklitz, T. e Krafft, C. e Popp, J .: Planejamento de tamanho de amostra para modelos de classificação. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceito no arXiv: 1211.1323
Outro ponto importante é fazer bom uso da possibilidade de iterar / repetir a validação cruzada (que é uma das razões contra a LOO): isso permite medir a estabilidade das previsões contra perturbações (ou seja, poucos casos diferentes) do treinamento dados.
Literatura:
DOI: 10.1007 / s00216-007-1818-6
DOI: 10.1016 / j.chemolab.2009.07.016
Se você optar por uma única execução em um conjunto de teste de espera (sem iterações / repetições),
fonte
Como o tamanho da amostra é pequeno, uma boa prática seria deixar de fora a seção de validação cruzada e usar uma proporção de 60 - 40 ou 70 - 30.
Como você pode ver na seção 2.8 da Introdução à clementina e mineração de dados e também na Biblioteca MSDN - Mineração de dados - Treinamento e teste Define uma proporção de 70 a 30 é comum. De acordo com as palestras de Andrew Ng sobre Machine Learning, recomenda-se uma proporção de 60 a 20 a 20.
Espero ter sido útil. Cumprimentos.
fonte