abordagens de treinamento para um conjunto de dados altamente desequilibrado

16

Eu tenho um conjunto de dados de teste altamente desequilibrado. O conjunto positivo consiste em 100 casos, enquanto o conjunto negativo consiste em 1500 casos. No lado do treinamento, eu tenho um pool de candidatos maior: o conjunto de treinamento positivo tem 1200 casos e o conjunto de treinamento negativo tem 12000 casos. Para esse tipo de cenário, tenho várias opções:

1) Usando SVM ponderado para todo o conjunto de treinamento (P: 1200, N: 12000)

2) Usando o SVM com base no conjunto de treinamento amostrado (P: 1200, N: 1200), os 1200 casos negativos são amostrados de 12000 casos.

Existe alguma orientação teórica para decidir qual abordagem é melhor? Como o conjunto de dados de teste é altamente desequilibrado, devo usar o conjunto de treinamento desequilibrado também?

machine-learning classification data-mining svm bioinformatics bit-question
fonte

1

verifique as seguintes perguntas: Aprendizado supervisionado com eventos "raros" e Melhor maneira de lidar com conjuntos de dados multiclasses desequilibrados com o SVM . Isso ajuda? Francamente, suas perguntas parecem bastante semelhantes;).

Steffen

7

De uma publicação recente no reddit, a resposta pela datapraxis será de interesse.

editar: o artigo mencionado é Haibo He, Edwardo A. Garcia, "Aprendendo com dados desequilibrados", transações do IEEE sobre conhecimento e engenharia de dados, pp. 1263-1284, setembro de 2009 (PDF)

user728785
fonte

0

Regressão logística expandida em pares, aprendizado baseado em ROC, Boosting e ensacamento (agregação de bootstrap), conjunto de cluster baseado em link (LCE), rede bayesiana, classificadores de centróide mais próximos, técnicas bayesianas, conjunto áspero ponderado, k-NN

e muitos métodos de amostragem para lidar com o desequilíbrio.

Vladimir Chupakhin
fonte

abordagens de treinamento para um conjunto de dados altamente desequilibrado

Respostas: