При каких условиях машины повышения градиента превосходят случайные леса?

16

Может ли машина повышения градиента Фридмана достичь лучшей производительности, чем «Случайный лес» Бреймана ? Если да, то в каких условиях или какой набор данных может сделать gbm лучше?

user22062
источник
6
Нет никакого способа сказать априори; Вы должны попробовать это.
Bayerj
ну, на практике Boosting почти всегда опережает RF ... Хотя я не знаю точно, почему, лично я не встречал ни одного случая, когда RF опережал Boosting.
Антуан
@ Обучение с использованием немеченых данных и / или шума меток - один из особенно страшных вариантов повышения.
Марк Клазен
Что ж, RF и Boosting в основном используются для контролируемых задач обучения, даже если иногда верно, что RF можно использовать для кластеризации. Adaboost не очень устойчив к неправильной маркировке из-за функции экспоненциальных потерь, на которую сильно влияет шум, но в общем случае Stochastic Gradient Boosting (например, с многочленным отклонением) является более устойчивым.
Антуан
@MarcClaesen не могли бы вы взглянуть на этот вопрос, пожалуйста?
Антуан

Ответы:

9

Ниже приводится объяснение того, почему Boosting обычно превосходит Random Forest на практике, но мне было бы очень интересно узнать, какие другие факторы могут объяснить преимущество Boosting по сравнению с RF в определенных настройках.

error=bias+variance

С другой стороны, Boosting уменьшает смещение (добавляя каждое новое дерево в последовательность так, чтобы было пропущено то, что было пропущено предыдущим деревом), но также и дисперсию (путем объединения многих моделей).

Таким образом, Boosting уменьшает ошибку на обоих фронтах, тогда как RF может уменьшить ошибку только за счет уменьшения дисперсии. Конечно, как я уже сказал, могут быть и другие объяснения лучшей производительности Boosting, наблюдаемой на практике. Например, на странице 591 вышеупомянутой книги сказано, что Boosting превосходит RF по проблеме вложенной сферы, потому что в этом конкретном случае истинная граница решения является аддитивной . (?) Они также сообщают, что Boosting работает лучше, чем RF для спама и данных о жилье в Калифорнии.

Еще одно упоминание, которое показало, что Boosting превосходит RF, - это Caruana и Niculescu-Mizil 2006 . К сожалению, они сообщают о результатах, но не пытаются объяснить, что их вызывает. Они сравнили два классификатора (и многие другие) по 11 задачам двоичной классификации для 8 различных показателей производительности.

Antoine
источник
7

Как сказал Байердж, узнать априори невозможно!

Случайные леса относительно легко откалибровать: параметры по умолчанию большинства реализаций (R или Python, например) достигают отличных результатов.

С другой стороны, GBM сложно настроить (слишком большое количество деревьев приводит к переобучению, максимальная глубина критична, скорость обучения и количество деревьев действуют вместе ...) и дольше обучаются (многопоточные реализации малочисленны) , Слабая настройка может привести к снижению производительности.

Однако, исходя из моего опыта, если вы проводите достаточно времени на GBM, вы, вероятно, достигнете лучшей производительности, чем случайный лес.

Редактировать. Почему GBM превосходят Случайные Леса? Ответ Антуана гораздо более строгий, это просто интуитивное объяснение. У них есть более критические параметры. Как и в случайных лесах, вы можете откалибровать количество деревьев имколичество переменных, на которых растут деревья. Но вы также можете откалибровать скорость обучения и максимальную глубину. Поскольку вы наблюдаете больше моделей, чем случайный лес, вы с большей вероятностью найдете что-то лучшее.

RUser4512
источник
1
A loosely performed tuning may lead to dramatic performance?Остерегайтесь неправильного толкования, потому что по-английски dramaticозначает очень хороший, исключительный, феноменальный и т. Д.! Я думаю, это противоположно тому, что вы хотели сказать ... Кроме того, у вас есть какое-либо объяснение, почему тщательно настроенные GBM превосходят RF? Это в основном вопрос ...
Антуан