Из руководства по XGBoost я думаю, что когда каждое дерево растет, все переменные сканируются для выбора для разделения узлов, и будет выбрана та, которая имеет максимальное разделение усиления. Поэтому мой вопрос заключается в том, что, если я добавлю некоторые шумовые переменные в набор данных, будут ли эти шумовые переменные влиять на выбор переменных (для каждого растущего дерева)? Моя логика заключается в том, что поскольку эти шумовые переменные НЕ дают максимального разброса усиления, они никогда не будут выбраны, поэтому они не влияют на рост дерева.
Если ответ «да», то правда ли, что «чем больше переменных, тем лучше для XGBoost»? Давайте не будем рассматривать время обучения.
Кроме того, если ответ «да», то верно ли, что «нам не нужно отфильтровывать не важные переменные из модели».
Спасибо!
источник