Estou lidando com um problema de classificação binária supervisionada. Eu gostaria de usar o pacote GBM para classificar os indivíduos como não infectados / infectados. Eu tenho 15 vezes mais não infectado do que indivíduos infectados.
Eu queria saber se os modelos GBM sofrem no caso de tamanhos de classe desequilibrados? Não encontrei nenhuma referência respondendo a essa pergunta.
Tentei ajustar os pesos atribuindo um peso de 1 aos indivíduos não infectados e um peso de 15 aos infectados, mas obtive resultados ruins.
Respostas:
Na minha experiência, o GBM sofre de fato com tamanhos de classe desequilibrados. Tive um bom sucesso usando a amostragem SMOTE, que cria dados sintéticos enquanto superamostra a classe minoritária. Você pode encontrá-lo no
DMwR
pacote.fonte
Penso que os seus dados são semelhantes aos da Secom, nos quais trabalhei no passado e enfrentei muitas dificuldades. A seguir, é o que eu tentei:
Eu também tentei o SVM de 1 classe, que apresentou melhores resultados em comparação com outros como adaboost, Random Forest. Você pode tentar isso também.
E posso ver que você fez essa pergunta há um ano, por isso, se você encontrou a melhor maneira, publique-a aqui para que eu possa obter ajuda para obter melhor precisão.
fonte