O aumento de gradiente é apropriado para dados com baixas taxas de eventos como 1%?

14

Estou tentando aumentar o gradiente em um conjunto de dados com taxa de eventos de cerca de 1% usando o Enterprise miner, mas está falhando em produzir qualquer saída. Minha pergunta é: como é uma abordagem baseada em árvore de decisão, é correto usar o aumento de gradiente com um evento tão baixo?

user2542275
fonte
3
Você está lidando com um conjunto de dados desequilibrado. Impulsionar é realmente uma boa maneira de lidar com isso. Para obter detalhes, consulte stats.stackexchange.com/questions/157940/…
DaL
Mas para mim, a regressão logística está dando melhores resultados do que a floresta aleatória ou o aumento de gradiente. Eu queria melhorar o desempenho do meu modelo, experimentando as árvores potencializadas.
precisa saber é o seguinte
O impulso é baseado em classificadores fracos. Teoricamente, qualquer classificador fraco que seja um pouco melhor que aleatório o fará. Na prática, algoritmos diferentes são mais adequados para alguns conjuntos de dados, portanto o classificador fraco que você escolhe é importante. Você pode especificar mais sobre os algoritmos que você usou, seus resultados e o conjunto de dados?
Dal
Está bem. Sobre o conjunto de dados: Tamanho da amostra> 4m, taxa de eventos = 1,2%. O número de preditores com valor de p significativo <0,05 é 150. A regressão logística com as variáveis ​​mais significativas deu elevação de 3 a 20% da população. A rede neural aumentou cerca de 2,8. O aumento de gradiente não produziu nenhuma saída, até que eu usei amostragem estratificada com pesos anteriores inversos. Mas o desempenho é ruim.
user2542275
Como seu conjunto de dados é bastante grande, você deve ter amostras suficientes de sua classe minoritária, portanto, o problema é devido ao desequilíbrio relativo. Você tem alguns recursos, mas não muito, mas, na verdade, a árvore de decisão é menos adequada para esses conjuntos de dados. Sugiro que você crie um conjunto de dados balanceado e veja o desempenho dos seus algoritmos. Você poderá aplicar o algoritmo no conjunto de dados original da maneira que descrevi no primeiro comentário.
Dal

Respostas:

7

(Para dar uma resposta curta a isso :)

É bom usar um algoritmo de máquina de aumento de gradiente ao lidar com um conjunto de dados desequilibrado. Ao lidar com um conjunto de dados fortemente desequilibrado, é muito mais relevante questionar a adequação da métrica usada. Devemos potencialmente evitar métricas, como Precisão ou Rechamada, baseadas em limites arbitrários, e optar por métricas, como pontuação AUCPR ou Brier, que forneçam uma imagem mais precisa - veja o excelente tópico CV.SE: Por que a precisão não é a melhor medida para avaliar modelos de classificação? para mais). Da mesma forma, poderíamos potencialmente empregar uma abordagem sensível ao custo, atribuindo diferentes custos de classificação incorreta (por exemplo, ver Masnadi-Shirazi & Vasconcelos (2011) Custo-Sensitive Boostingpara uma visão geral e alterações propostas nos algoritmos de otimização conhecidos ou para uma aplicação interessante interessante com uma abordagem mais simples, verifique o relatório de desafio de Higgs Boson para o algoritmo XGBoost; Chen & He (2015) A descoberta do bóson de Higgs com árvores reforçadas fornece mais detalhes).

Também vale a pena notar que, se nós empregamos um classificador probabilístico (como GBMs) que pode / deve procurar activamente para calibrar as probabilidades devolvidos (por exemplo, ver Zadrozny & Elkan (2002) Transformar pontuação classificador em estimativas multiclasse probabilidade precisos ou Kull et al. ( 2017) Calibração beta: uma melhoria bem fundamentada e facilmente implementada na calibração logística para classificadores binários ) para potencialmente aumentar o desempenho de nossos alunos. Especialmente ao trabalhar com dados desequilibrados, capturando adequadamente as alterações de tendência, pode ser mais informativo do que simplesmente rotular os dados. Nessa medida, alguns podem argumentar que abordagens sensíveis aos custos não são tão benéficas no final (por exemplo, ver Nikolaou et al. (2016)Algoritmos de aumento sensíveis a custos: realmente precisamos deles? ) Para reiterar o ponto original, os algoritmos de aumento não são inerentemente ruins para dados desequilibrados e, em certos casos, podem oferecer uma opção muito competitiva.

usεr11852
fonte
Acredito que a pontuação de Brier é equivalente à medida de Precisão, por isso terá as mesmas limitações que a Precisão ao avaliar modelos de eventos raros.
RobertF
A pontuação Brier não é equivalente a Precisão. Observe que usamos a probabilidade prevista para o cálculo da pontuação Brier, enquanto que para o cálculo da precisão usamos rótulos com base no limiar rígido das probabilidades previstas.
usεr11852
Obrigado por esclarecer - usar a probabilidade estimada em vez de 0/1 para a classe prevista faz mais sentido.
RobertF
Legal. Estou feliz que resolvemos isso! :)
usεr11852