Criando um conjunto de dados desequilibrado

11

Gostaria de testar meu modelo treinado em um conjunto de dados desequilibrado. Existe algum algoritmo disponível para gerar dados sintéticos a partir de um conjunto de dados rotulado equilibrado (spam / não spam)?

Stuart Peterson
fonte
Você sempre pode desequilibrar qualquer conjunto de dados simplesmente subamostrando uma classe.
user2974951

Respostas:

8

Experimente o SMOTE , um algoritmo usado para amostragem excessiva. Ele cria amostras sintéticas da classe que você deseja sobre-amostrar.

Você pode usar isso para criar qualquer número de amostras necessárias.

Mary93
fonte
1
O SMOTE também pode ser usado para sub-amostragem?
Stuart Peterson
Bem, você pode obter undersampling de classe A por oversampling classe nota ...
b Kjetil Halvorsen
3
@StuartPeterson Não, SMOTE é um algoritmo sobre-amostragem, mas há muitos outros algoritmos de amostragem sob
mary93