No tutorial do XGBoost, acho que quando cada árvore cresce, todas as variáveis são verificadas para serem selecionadas para dividir os nós, e aquela com a divisão de ganho máximo será escolhida. Portanto, minha pergunta é: e se eu adicionar algumas variáveis de ruído ao conjunto de dados, essas variáveis de ruído influenciam a seleção de variáveis (para cada árvore que cresce)? Minha lógica é que, como essas variáveis de ruído NÃO fornecem divisão máxima de ganho, nunca seriam selecionadas, portanto, não influenciam o crescimento da árvore.
Se a resposta for sim, então é verdade que "quanto mais variáveis, melhor para o XGBoost"? Não vamos considerar o tempo de treinamento.
Além disso, se a resposta for afirmativa, é verdade que "não precisamos filtrar variáveis não importantes do modelo".
Obrigado!
fonte