Qual a sua opinião sobre o excesso de amostragem na classificação em geral e o algoritmo SMOTE em particular? Por que não aplicaríamos apenas uma multa / custo para ajustar o desequilíbrio nos dados da classe e qualquer custo desequilibrado dos erros? Para meus propósitos, a precisão da previsão para um conjunto futuro de unidades experimentais é a medida final.
Para referência, o documento SMOTE: http://www.jair.org/papers/paper953.html
machine-learning
classification
oversampling
Dave Cummins
fonte
fonte
Respostas:
{1} fornece uma lista de vantagens e desvantagens do aprendizado sensível a custos versus amostragem:
Eles também fizeram uma série de experimentos, que eram inconclusivos:
Eles então tentam entender quais critérios nos conjuntos de dados podem sugerir qual técnica é melhor ajustada.
Eles também observam que o SMOTE pode trazer algumas melhorias:
{1} Weiss, Gary M., Kate McCarthy e Bibi Zabar. "Aprendizagem sensível ao custo x amostragem: qual é o melhor para lidar com classes desequilibradas com custos de erro desiguais?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=pt_BR&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf
fonte