Como escolher os tamanhos de conjunto de treinamento, validação cruzada e teste para pequenos dados de tamanho de amostra?

10

Suponha que eu tenha um tamanho pequeno de amostra, por exemplo, N = 100 e duas classes. Como devo escolher os tamanhos de treinamento, validação cruzada e conjunto de testes para aprendizado de máquina?

Eu escolheria intuitivamente

  • Tamanho do conjunto de treinamento como 50
  • Conjunto de validação cruzada tamanho 25 e
  • Teste o tamanho como 25.

Mas provavelmente isso faz mais ou menos sentido. Como devo realmente decidir esses valores? Posso tentar opções diferentes (embora eu ache que não é tão preferível ... maior possibilidade de mais aprendizado)?

E se eu tivesse mais de duas aulas?

Husa
fonte
2
100 é muito pequeno para mim. Eu optaria por uma estratégia de exclusão única para validação cruzada e avaliação de teste.
Memming
Não vi nenhuma literatura sobre isso (tamanhos mínimos de amostra para validação). Não sei por que. Parece uma questão importante.
charles

Respostas:

15
cbeleites descontentes com o SX
fonte
+1 apenas para aconselhamento sobre otimização de parâmetros e complexidade do modelo. mas todo esse conselho é fantástico.
charles
1

Como o tamanho da amostra é pequeno, uma boa prática seria deixar de fora a seção de validação cruzada e usar uma proporção de 60 - 40 ou 70 - 30.

Como você pode ver na seção 2.8 da Introdução à clementina e mineração de dados e também na Biblioteca MSDN - Mineração de dados - Treinamento e teste Define uma proporção de 70 a 30 é comum. De acordo com as palestras de Andrew Ng sobre Machine Learning, recomenda-se uma proporção de 60 a 20 a 20.

Espero ter sido útil. Cumprimentos.

mrdatamx
fonte