Eu tenho um conjunto de dados de teste altamente desequilibrado. O conjunto positivo consiste em 100 casos, enquanto o conjunto negativo consiste em 1500 casos. No lado do treinamento, eu tenho um pool de candidatos maior: o conjunto de treinamento positivo tem 1200 casos e o conjunto de treinamento negativo tem 12000 casos. Para esse tipo de cenário, tenho várias opções:
1) Usando SVM ponderado para todo o conjunto de treinamento (P: 1200, N: 12000)
2) Usando o SVM com base no conjunto de treinamento amostrado (P: 1200, N: 1200), os 1200 casos negativos são amostrados de 12000 casos.
Existe alguma orientação teórica para decidir qual abordagem é melhor? Como o conjunto de dados de teste é altamente desequilibrado, devo usar o conjunto de treinamento desequilibrado também?
fonte
Respostas:
De uma publicação recente no reddit, a resposta pela datapraxis será de interesse.
editar: o artigo mencionado é Haibo He, Edwardo A. Garcia, "Aprendendo com dados desequilibrados", transações do IEEE sobre conhecimento e engenharia de dados, pp. 1263-1284, setembro de 2009 (PDF)
fonte
Regressão logística expandida em pares, aprendizado baseado em ROC, Boosting e ensacamento (agregação de bootstrap), conjunto de cluster baseado em link (LCE), rede bayesiana, classificadores de centróide mais próximos, técnicas bayesianas, conjunto áspero ponderado, k-NN
e muitos métodos de amostragem para lidar com o desequilíbrio.
fonte