Estou tentando aumentar o gradiente em um conjunto de dados com taxa de eventos de cerca de 1% usando o Enterprise miner, mas está falhando em produzir qualquer saída. Minha pergunta é: como é uma abordagem baseada em árvore de decisão, é correto usar o aumento de gradiente com um evento tão baixo?
boosting
unbalanced-classes
rare-events
gradient
user2542275
fonte
fonte
Respostas:
(Para dar uma resposta curta a isso :)
É bom usar um algoritmo de máquina de aumento de gradiente ao lidar com um conjunto de dados desequilibrado. Ao lidar com um conjunto de dados fortemente desequilibrado, é muito mais relevante questionar a adequação da métrica usada. Devemos potencialmente evitar métricas, como Precisão ou Rechamada, baseadas em limites arbitrários, e optar por métricas, como pontuação AUCPR ou Brier, que forneçam uma imagem mais precisa - veja o excelente tópico CV.SE: Por que a precisão não é a melhor medida para avaliar modelos de classificação? para mais). Da mesma forma, poderíamos potencialmente empregar uma abordagem sensível ao custo, atribuindo diferentes custos de classificação incorreta (por exemplo, ver Masnadi-Shirazi & Vasconcelos (2011) Custo-Sensitive Boostingpara uma visão geral e alterações propostas nos algoritmos de otimização conhecidos ou para uma aplicação interessante interessante com uma abordagem mais simples, verifique o relatório de desafio de Higgs Boson para o algoritmo XGBoost; Chen & He (2015) A descoberta do bóson de Higgs com árvores reforçadas fornece mais detalhes).
Também vale a pena notar que, se nós empregamos um classificador probabilístico (como GBMs) que pode / deve procurar activamente para calibrar as probabilidades devolvidos (por exemplo, ver Zadrozny & Elkan (2002) Transformar pontuação classificador em estimativas multiclasse probabilidade precisos ou Kull et al. ( 2017) Calibração beta: uma melhoria bem fundamentada e facilmente implementada na calibração logística para classificadores binários ) para potencialmente aumentar o desempenho de nossos alunos. Especialmente ao trabalhar com dados desequilibrados, capturando adequadamente as alterações de tendência, pode ser mais informativo do que simplesmente rotular os dados. Nessa medida, alguns podem argumentar que abordagens sensíveis aos custos não são tão benéficas no final (por exemplo, ver Nikolaou et al. (2016)Algoritmos de aumento sensíveis a custos: realmente precisamos deles? ) Para reiterar o ponto original, os algoritmos de aumento não são inerentemente ruins para dados desequilibrados e, em certos casos, podem oferecer uma opção muito competitiva.
fonte