Gostaria de testar meu modelo treinado em um conjunto de dados desequilibrado. Existe algum algoritmo disponível para gerar dados sintéticos a partir de um conjunto de dados rotulado equilibrado (spam / não spam)?
unbalanced-classes
synthetic-data
Stuart Peterson
fonte
fonte
Respostas:
Experimente o SMOTE , um algoritmo usado para amostragem excessiva. Ele cria amostras sintéticas da classe que você deseja sobre-amostrar.
Você pode usar isso para criar qualquer número de amostras necessárias.
fonte