Quero tentar usar SVMs (Support Vector Machines) no meu conjunto de dados. Antes de tentar o problema, fui avisado de que os SVMs não apresentam bom desempenho em dados extremamente desequilibrados. No meu caso, posso ter entre 95 e 98% de 0 e 2-5% de 1.
Tentei encontrar recursos que falassem sobre o uso de SVMs em dados esparsos / desequilibrados, mas tudo o que pude encontrar foram 'sparseSVMs' (que usam uma pequena quantidade de vetores de suporte).
Eu esperava que alguém pudesse explicar brevemente:
- Quão bem seria esperado do SVM com esse conjunto de dados
- Quais modificações, se houver, devem ser feitas no algoritmo SVM
- Que recursos / documentos discutem isso
fonte
Os SVMs funcionam bem com dados esparsos e desequilibrados. O SVM ponderado por classe foi desenvolvido para lidar com dados desequilibrados, atribuindo penalidades mais altas de classificação incorreta a instâncias de treinamento da classe minoritária.
fonte
No caso de dados esparsos como esse, o SVM funcionará bem.
Conforme declarado pelo @Bitwise, você não deve usar a precisão para medir o desempenho do algoritmo.
Em vez disso, você deve calcular a precisão, recall e F-Score do algoritmo.
fonte