O XGBoost pode lidar com dados ausentes na fase de previsão

Recentemente, analisei o algoritmo XGBoost e notei que esse algoritmo pode manipular dados ausentes (sem exigir imputação) na fase de treinamento. Eu queria saber se o XGboost pode lidar com dados ausentes (sem exigir imputação) quando é usado para prever novas observações ou é necessário imputá-los.

Desde já, obrigado.

machine-learning missing-data data-imputation xgboost Ricardo UES
fonte

Respostas:

O xgboost decide no momento do treinamento se os valores ausentes vão para o nó direito ou esquerdo. Ele escolhe qual minimizar a perda. Se não houver valores ausentes no momento do treinamento, o padrão é enviar novas perdas para o nó direito.

Se houver sinal na distribuição de suas perdas, isso é essencialmente adequado ao modelo.

Cuidado se seus dados de pontuação têm seus valores ausentes distribuídos de maneira diferente dos dados de treinamento. O manuseio ausente do xgboost é conveniente, mas não protege contra mascaramentos.

Fonte: esta resposta

Dex Groves
fonte