XGBoost может обрабатывать недостающие данные на этапе прогнозирования

12

Недавно я рассмотрел алгоритм XGBoost и заметил, что этот алгоритм может обрабатывать недостающие данные (не требуя вменения) на этапе обучения. Мне было интересно, может ли XGboost обрабатывать недостающие данные (не требуя вменения), когда он используется для прогнозирования новых наблюдений или необходимо вменять недостающие данные.

Заранее спасибо.

Рикардо ЕЭС
источник

Ответы:

14

Во время обучения xgboost решает, попадать ли пропущенные значения в правый или левый узел. Он выбирает, какой минимизировать потери. Если во время обучения отсутствуют пропущенные значения, по умолчанию отправляются любые новые пропуски в нужный узел.

Если в распределении ваших пропусков есть сигнал, то это в основном соответствует модели.

Будьте осторожны, если ваши оценочные данные имеют пропущенные значения, отличающиеся от ваших тренировочных данных. Отсутствующая обработка в xgboost удобна, но не защищает от маскировки.

Источник: этот ответ

Декс Гровс
источник