A classificação GBM sofre com tamanhos de classe desequilibrados?

16

Estou lidando com um problema de classificação binária supervisionada. Eu gostaria de usar o pacote GBM para classificar os indivíduos como não infectados / infectados. Eu tenho 15 vezes mais não infectado do que indivíduos infectados.

Eu queria saber se os modelos GBM sofrem no caso de tamanhos de classe desequilibrados? Não encontrei nenhuma referência respondendo a essa pergunta.

Tentei ajustar os pesos atribuindo um peso de 1 aos indivíduos não infectados e um peso de 15 aos infectados, mas obtive resultados ruins.

yoyo
fonte
1
(nota lateral) Seria útil se você fornecesse o que GBM significa e um link para o pacote.
Memming
1
Que função de perda você está usando para o seu modelo de aumento de gradiente? Quando se trata de classes desequilibradas, vi desempenho ruim quando utilizei erro absoluto médio, porque parece favorecer a classe mais comum. Quando eu usei erro quadrado médio o desempenho melhorou substancialmente
Ryan Zotti
Apenas para referência futura, acho que a função de perda padrão usada pela perda logarítmica de cursor (desvio cruzado) também é bastante útil. (Que penalizam fortemente sobre os casos erradas em uma escala logarítmica negativa)
Lily Longo

Respostas:

4

Na minha experiência, o GBM sofre de fato com tamanhos de classe desequilibrados. Tive um bom sucesso usando a amostragem SMOTE, que cria dados sintéticos enquanto superamostra a classe minoritária. Você pode encontrá-lo no DMwRpacote.

Trey
fonte
Estou um pouco confuso. O GBM não deveria ser uma abordagem para lidar com o desequilíbrio de dados? Confira isso analyticsvidhya.com/blog/2017/03/…
Lamothy
5

Penso que os seus dados são semelhantes aos da Secom, nos quais trabalhei no passado e enfrentei muitas dificuldades. A seguir, é o que eu tentei:

  • Diferentes técnicas de amostragem
  • Classificadores diferentes, como Random Forest, ANN, GBM, métodos Ensemble, etc.

Eu também tentei o SVM de 1 classe, que apresentou melhores resultados em comparação com outros como adaboost, Random Forest. Você pode tentar isso também.

E posso ver que você fez essa pergunta há um ano, por isso, se você encontrou a melhor maneira, publique-a aqui para que eu possa obter ajuda para obter melhor precisão.

Ankit
fonte