Estou trabalhando em dados gravemente desequilibrados. Na literatura, vários métodos são utilizados para reequilibrar os dados usando re-amostragem (super ou sub-amostragem). Duas boas abordagens são:
SMOTE: Técnica de sobre-amostragem de minorias sintéticas ( SMOTE )
ADASYN: Abordagem de Amostra Sintética Adaptativa para Aprendizagem Desequilibrada ( ADASYN )
Eu implementei o ADASYN devido à sua natureza adaptativa e facilidade de extensão a problemas de várias classes.
Minha pergunta é como testar os dados superamostrados produzidos pelo ADASYN (ou qualquer outro método de superamostragem). Não está claro nos dois artigos mencionados como eles realizaram seus experimentos. Existem dois cenários:
1- Superexample todo o conjunto de dados e divida-o em conjuntos de treinamento e teste (ou validação cruzada).
2- Após dividir o conjunto de dados original, realize a superamostragem apenas no conjunto de treinamento e teste no conjunto de teste de dados original (pode ser realizado com validação cruzada).
No primeiro caso, os resultados são muito melhores do que sem a amostragem excessiva, mas estou preocupado se houver ajuste excessivo. Enquanto no segundo caso, os resultados são um pouco melhores do que sem superamostragem e muito piores que o primeiro caso. Mas a preocupação com o segundo caso é que, se todas as amostras da classe minoritária forem para o conjunto de testes, nenhum benefício será alcançado com a super amostragem.
Não tenho certeza se existem outras configurações para testar esses dados.
A segunda (2) opção é a maneira correta de fazê-lo. As amostras sintéticas que você cria com as técnicas de superamostragem não são exemplos reais, mas sim sintéticas. Eles não são válidos para fins de teste enquanto ainda estão ok para treinamento. Eles pretendem modificar o comportamento do classificador sem modificar o algoritmo.
fonte