Preciso classificar os URLs em categorias. Digamos que eu tenho 15 categorias nas quais planejo zerar cada URL.
Um classificador de 15 vias é melhor? Onde eu tenho 15 rótulos e gero recursos para cada ponto de dados.
Ou construindo 15 classificadores binários, digamos: Filme ou Não Filme, e use os números que eu recebo dessas classificações para construir um corretor, escolher a melhor categoria e melhorar?
Isso dependerá de como seus dados são dispersos. Há um belo exemplo que foi dado recentemente a uma pergunta semelhante em que o OP queria saber se uma única função discriminante linear seria um classificador melhor para decidir a população A vs B ou C ou uma baseada em funções discriminantes lineares múltiplas que separam A, B e C. Alguém deu um gráfico de dispersão colorido muito bom para mostrar como o uso de dois discriminantes seria melhor que um nesse caso. Vou tentar vincular a ele.
fonte
Alguns métodos lidam bem com multiclasses, florestas aleatórias e MLPs, por exemplo.
Se você não quiser seguir esse caminho, é possível que o ECOC possa executar o 1-vs-All para o seu problema, apenas os testes indicarão.
fonte