Вопросы с тегом «xgboost»

По вопросам, связанным с алгоритмом eXtreme Gradient Boosting.

41
GBM против XGBOOST? Ключевые отличия?

Я пытаюсь понять ключевые различия между GBM и XGBOOST. Я пытался найти его в Google, но не смог найти хороших ответов, объясняющих различия между двумя алгоритмами и почему xgboost почти всегда работает лучше, чем GBM. Что делает XGBOOST таким...

37
Как интерпретировать вывод значения XGBoost?

Я запустил модель xgboost. Я точно не знаю, как интерпретировать вывод xgb.importance. В чем смысл усиления, покрытия и частоты и как мы их интерпретируем? Кроме того, что означает Split, RealCover и RealCover%? У меня есть некоторые дополнительные параметры здесь Есть ли другие параметры, которые...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

27
Гипертюнинг параметров XGBoost

XGBoost проделал большую работу, когда речь идет о работе как с категориальными, так и с непрерывно зависимыми переменными. Но как выбрать оптимизированные параметры для проблемы XGBoost? Вот как я применил параметры для недавней проблемы Kaggle: param <- list( objective = "reg:linear", booster...

25
Зачем нам XGBoost и Random Forest?

Я не был ясен в паре концепций: XGBoost превращает слабых учеников в сильных учеников. В чем преимущество этого? Объединить много слабых учеников вместо одного дерева? Random Forest использует различные образцы из дерева для создания дерева. В чем преимущество этого метода вместо использования...

25
LightGBM против XGBoost

Я пытаюсь понять, что лучше (точнее, особенно в задачах классификации) Я искал статьи, сравнивающие LightGBM и XGBoost, но нашел только две: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - что касается только скорости, но не точности....

23
XGBoost сам обрабатывает мультиколлинеарность?

В настоящее время я использую XGBoost для набора данных с 21 функцией (выбранной из списка из 150 функций), а затем горячо закодировал их, чтобы получить ~ 98 функций. Некоторые из этих 98 функций несколько избыточны, например: переменная (функция) также отображается как и...

20
Несбалансированные мультиклассовые данные с XGBoost

У меня есть 3 класса с этим распределением: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 И я использую xgboostдля классификации. Я знаю, что есть параметр с именем scale_pos_weight. Но как это обрабатывается для случая «мультикласса», и как я могу правильно установить...

14
Pandas Dataframe для DMatrix

Я пытаюсь запустить xgboost в scikit learn. И я использую только Pandas для загрузки данных в dataframe. Как я должен использовать панд DF с xgboost. Меня смущает процедура DMatrix, необходимая для запуска алгоритма...

14
Как подходят попарно ранжирования моделей в xgBoost?

Насколько я знаю, обучать обучение моделей ранга, вам нужно иметь три вещи в наборе данных: ярлык или релевантность идентификатор группы или запроса характерный вектор Например, набор данных Microsoft Learning to Rank использует этот формат (метка, идентификатор группы и функции). 1 qid:10...

14
Деревья решений: листовое (лучшее-первое) и горизонтальное дерево

Выпуск 1: Меня смущает описание LightGBM относительно способа расширения дерева. Они заявляют: Большинство алгоритмов обучения дерева решений растут по дереву по уровню (глубине), как показано на следующем рисунке: Вопросы 1 : Какие «большинство» алгоритмов реализованы таким образом? Насколько я...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

12
Важность признаков с категоричными признаками высокой кардинальности для регрессии (числовая переменная отклонения)

Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для...

12
Нужна помощь в понимании приблизительного предложения точек разделения xgboost

фон: в xgboost в итерационным подгоняет дерево ф т по всему п примерам , которые сводят к минимуму следующей цели:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] где сначала порядок и производные второго порядка над нашей...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
XGboost - выбор по модели

Я использую XGboost, чтобы предсказать целевую переменную 2 классов по страховым претензиям. У меня есть модель (обучение с перекрестной проверкой, настройка гиперпараметров и т. Д.), Я запускаю другой набор данных. Мой вопрос: Есть ли способ узнать, почему данное утверждение было затронуто одним...

10
Gradient Boosting Tree: «чем больше переменная, тем лучше»?

Из руководства по XGBoost я думаю, что когда каждое дерево растет, все переменные сканируются для выбора для разделения узлов, и будет выбрана та, которая имеет максимальное разделение усиления. Поэтому мой вопрос заключается в том, что, если я добавлю некоторые шумовые переменные в набор данных,...