Gostaria de saber se existem / algumas vantagens em usar amostragem estratificada em vez de aleatória, ao dividir o conjunto de dados original em conjunto de treinamento e teste para classificação.
Além disso, a amostragem estratificada introduz mais viés no classificador do que a amostragem aleatória?
O aplicativo, para o qual eu gostaria de usar amostragem estratificada para preparação de dados, é um classificador Random Forests, treinado em do conjunto de dados original. Antes do classificador, há também uma etapa de geração de amostra sintética (SMOTE [1]) que equilibra o tamanho das classes.
[1] Chawla, Nitesh V., et al. " SMOTE: técnica de sobre-amostragem de minoria sintética. " Journal of Artificial Intelligence Research 16 (2002): 321-357.