Eu estava lendo o material relacionado ao XGBoost. Parece que esse método não requer escala variável, pois é baseado em árvores e pode capturar interações complexas de padrões de não linearidade. E ele pode lidar com variáveis numéricas e categóricas e também parece que variáveis redundantes não afetam muito esse método.
Geralmente, na modelagem preditiva, você pode fazer uma seleção entre todos os recursos que possui e também pode criar alguns novos recursos a partir do conjunto de recursos que possui. Portanto, selecionar um subconjunto de recursos significa que você acha que há alguma redundância em seu conjunto de recursos; criar alguns novos recursos do conjunto de recursos atual significa que você faz algumas transformações funcionais nos recursos atuais. Então, esses dois pontos devem ser abordados no XGBoost. Então, isso significa que, para usar o XGBoost, você só precisa escolher esses parâmetros de sintonia sabiamente? Qual é o valor de fazer engenharia de recursos usando o XGBoost?
fonte
Respostas:
Vamos definir a primeira engenharia de recursos:
O XGBoost faz (1) para você. O XGBoost não faz (2) / (3) por você.
Então você ainda precisa fazer a engenharia de recursos. Somente um modelo de aprendizado profundo pode substituir a extração de recursos para você.
fonte
fonte
Desempenho talvez?
(Observe que não usamos o XGBoost, mas outra biblioteca de aumento de gradiente - embora o desempenho do XGBoost provavelmente também dependa da dimensionalidade dos dados de alguma forma.)
Temos um conjunto de dados em que cada item consiste em 3 sinais, cada um com 6.000 amostras - ou seja, 18k de recursos. O uso desses recursos leva diretamente idades (dias), então fizemos uma engenharia manual de recursos para reduzir o número de recursos para cerca de 200. Agora, o treinamento (incluindo o ajuste de parâmetros) é uma questão de algumas horas.
Para comparação: há pouco tempo, também começamos a treinar ConvNets com os mesmos dados e os 18k recursos completos (sem engenharia de recursos). Eles atingem a mesma precisão que os modelos de aumento de gradiente após apenas 2 horas de treinamento.
fonte
Esta é provavelmente a melhor resposta para sua pergunta dos caras que usam muito o xgboost e o empilhamento: http://blog.kaggle.com/2017/03/17/outbrain-click-prediction-competition-winners-interview-2nd -place-team-brain-afk-darragh-marios-mathias-alexey /
fonte