Estou confuso sobre como particionar os dados para validação cruzada k-fold do aprendizado de conjuntos.
Supondo que eu tenha uma estrutura de aprendizado de conjuntos para classificação. Minha primeira camada contém os modelos de classificação, por exemplo, svm, árvores de decisão.
Minha segunda camada contém um modelo de votação, que combina as previsões da primeira camada e fornece a previsão final.
Se usarmos a validação de 5 dobras cruzadas, estou pensando em usar as 5 dobras da seguinte maneira:
- 3 dobras para treinar a primeira camada
- 1 dobra para treinar a segunda camada
- 1 dobra para teste
Esta é a forma correta? Os dados de treinamento para a primeira e a segunda camada devem ser independentes? Eu estou pensando que eles devem ser independentes, para que a estrutura de aprendizado do conjunto seja robusta.
Meu amigo sugere que os dados de treinamento para a primeira e a segunda camada sejam os mesmos, ou seja,
- 4 dobras para treinar a primeira e a segunda camada
- 1 dobra para teste
Dessa forma, teremos um erro mais preciso da estrutura de aprendizado do conjunto, e o ajuste iterativo da estrutura será mais preciso, pois é baseado em um único dado de treinamento. Além disso, a segunda camada pode ser tendenciosa em relação aos dados de treinamento independentes
Quaisquer conselhos são muito apreciados
fonte