abordagens de treinamento para um conjunto de dados altamente desequilibrado

16

Eu tenho um conjunto de dados de teste altamente desequilibrado. O conjunto positivo consiste em 100 casos, enquanto o conjunto negativo consiste em 1500 casos. No lado do treinamento, eu tenho um pool de candidatos maior: o conjunto de treinamento positivo tem 1200 casos e o conjunto de treinamento negativo tem 12000 casos. Para esse tipo de cenário, tenho várias opções:

1) Usando SVM ponderado para todo o conjunto de treinamento (P: 1200, N: 12000)

2) Usando o SVM com base no conjunto de treinamento amostrado (P: 1200, N: 1200), os 1200 casos negativos são amostrados de 12000 casos.

Existe alguma orientação teórica para decidir qual abordagem é melhor? Como o conjunto de dados de teste é altamente desequilibrado, devo usar o conjunto de treinamento desequilibrado também?

bit-question
fonte
1
verifique as seguintes perguntas: Aprendizado supervisionado com eventos "raros" e Melhor maneira de lidar com conjuntos de dados multiclasses desequilibrados com o SVM . Isso ajuda? Francamente, suas perguntas parecem bastante semelhantes;).
Steffen

Respostas:

0

Regressão logística expandida em pares, aprendizado baseado em ROC, Boosting e ensacamento (agregação de bootstrap), conjunto de cluster baseado em link (LCE), rede bayesiana, classificadores de centróide mais próximos, técnicas bayesianas, conjunto áspero ponderado, k-NN

e muitos métodos de amostragem para lidar com o desequilíbrio.

Vladimir Chupakhin
fonte