Вопросы с тегом «boosting»

20
AdaBoost менее или более склонен к переоснащению?

Я читал различные (казалось бы) противоречивые утверждения, независимо от того, являются ли AdaBoost (или другие методы повышения) менее или более склонными к переобучению по сравнению с другими методами обучения. Есть ли веские причины верить тому или иному? Если это зависит, от чего это зависит?...

19
Является ли пень решения линейной моделью?

Пень решений - это дерево решений с одним разделением. Его также можно записать как кусочную функцию. Например, предположим, что xxx является вектором, а x1x1x_1 является первым компонентом xxx , в настройке регрессии может быть принят некоторый пень решения...

19
Калибровка мультиклассового повышенного классификатора

Я прочитал статью Александра Никулеску-Мизила и Рича Каруаны « Получение калиброванных вероятностей от повышения » и обсуждение в этой теме. Тем не менее, у меня все еще возникают проблемы с пониманием и реализацией логистики или масштабирования Платта, чтобы откалибровать вывод моего...

19
Повышение: почему скорость обучения называется параметром регуляризации?

Параметр скорости обучения ( ) в Gradient Boosting сокращает вклад каждой новой базовой модели - обычно мелкого дерева - который добавляется в серию. Было показано, что резко повышается точность набора тестов, что понятно, так как при меньших шагах минимум функции потерь может быть достигнут более...

19
Интервал прогнозирования на основе перекрестной проверки (CV)

В учебниках и лекциях на YouTube я много узнал об итерационных моделях, таких как бустинг, но я никогда не видел ничего о получении интервала прогнозирования. Перекрестная проверка используется для следующего: Выбор модели : попробуйте разные модели и выберите ту, которая подходит лучше всего. В...

17
Повышение И Упаковка Деревьев (XGBoost, LightGBM)

Есть много постов в блогах, видео на YouTube и т. Д. Об идеях создания мешков или повышения деревьев. Мое общее понимание таково, что псевдокод для каждого из них: Bagging: Возьмите N случайных выборок x% выборок и y% функций Установите вашу модель (например, дерево решений) на каждый из N...

17
Классификация с градиентным ускорением: как сохранить прогноз в [0,1]

Вопрос Я изо всех сил пытаюсь понять, как прогнозирование сохраняется в интервале [0,1][0,1][0,1] при выполнении бинарной классификации с градиентным повышением. Предположим , что мы работаем над бинарной проблемы классификации, и наша целевая функция является потеря журнала,...

17
Когда я не должен использовать ансамблевой классификатор?

В общем, в проблеме классификации, где цель состоит в том, чтобы точно предсказать членство в классах вне выборки, когда я не должен использовать ансамблевый классификатор? Этот вопрос тесно связан с тем, почему не всегда использовать ансамблевое обучение? , Этот вопрос спрашивает, почему мы не...

16
При каких условиях машины повышения градиента превосходят случайные леса?

Может ли машина повышения градиента Фридмана достичь лучшей производительности, чем «Случайный лес» Бреймана ? Если да, то в каких условиях или какой набор данных может сделать gbm...

16
Страдает ли классификация GBM несбалансированными размерами классов?

Я имею дело с контролируемой проблемой бинарной классификации. Я хотел бы использовать пакет GBM для классификации людей как незараженных / зараженных. У меня в 15 раз больше незараженных, чем у инфицированных. Мне было интересно, страдают ли модели GBM в случае несбалансированных размеров классов?...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

14
Когда можно использовать AdaBoost?

Как я слышал о классификаторе AdaBoost, который неоднократно упоминался на работе, я хотел лучше понять, как он работает и когда его можно использовать. Я прочитал несколько статей и учебных пособий, которые я нашел в Google, но есть некоторые аспекты классификатора, которые я до сих пор не могу...

14
Какие алгоритмы упаковки являются достойными преемниками Random Forest?

Я бы сказал, что для повышения алгоритмов они развивались довольно хорошо. В начале 1995 года был представлен AdaBoost, затем через некоторое время это была Gradient Boosting Machine (GBM). Недавно, около 2015 года, был представлен XGBoost, который точен, справляется с переоснащением и стал...

14
Подходит ли повышение градиента для данных с низкой частотой событий, таких как 1%?

Я пытаюсь повысить градиент для набора данных с частотой событий около 1%, используя Enterprise miner, но он не дает никакого вывода. Мой вопрос таков: поскольку это подход, основанный на дереве решений, правильно ли использовать градиентное усиление при таком низком...

14
R: Что я вижу на графиках частичной зависимости gbm и RandomForest?

На самом деле, я думал, что понял, что можно показать на графике частичной зависимости, но на очень простом гипотетическом примере я немного озадачился. В следующем фрагменте кода я генерирую три независимые переменные ( a , b , c ) и одну зависимую переменную ( y ), где c показывает тесную...

13
Случайный лес и усиление являются параметрическими или непараметрическими?

Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...). Брейман критикует...

13
Улучшенные деревья решений в python? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так, чтобы он был по теме перекрестной проверки. Закрыто 5 месяцев назад . Есть ли хорошая библиотека Python для обучения расширенных деревьев...

13
Лучшие практики для кодирования категориальных функций для деревьев решений?

При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому...

13
Почему бы не всегда использовать ансамблевое обучение?

Мне кажется, что ансамблевое обучение всегда даст лучшую прогностическую эффективность, чем с одной гипотезой обучения. Итак, почему бы нам не использовать их все время? Я думаю, возможно, из-за вычислительных ограничений? (даже тогда мы используем слабые предикторы, поэтому я не...