Есть ли стратегия выбора количества деревьев в GBM? В частности, ntrees
аргумент в R
«S gbm
функции.
Я не понимаю, почему вы не должны устанавливать ntrees
максимально разумное значение. Я заметил, что большее количество деревьев явно уменьшает изменчивость результатов от нескольких GBM. Я не думаю, что большое количество деревьев приведет к переоснащению.
есть идеи?
источник
Это рабочее GUID для форсированных регрессионных деревьев из Elith и др .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full Очень полезно!
Вы должны хотя бы использовать 1000 деревьев. Насколько я понял, вы должны использовать комбинацию скорости обучения, сложности дерева и количества деревьев, которая достигает минимальной прогностической ошибки. Меньшие значения скорости обучения приводят к большему риску обучения для того же количества итераций, в то время как каждая итерация снижает риск обучения. Если количество деревьев достаточно велико, риск можно сделать сколь угодно малым (см .: Hastie et al., 2001, «Элементы статистического обучения, сбора данных, вывода и прогнозирования» ).
источник
Как обычно в некоторых алгоритмах машинного обучения, Boosting подвергается компромиссной дисперсии в отношении количества деревьев. Грубо говоря, этот компромисс говорит вам о том, что: (i) слабые модели, как правило, имеют высокое смещение и низкую дисперсию: они слишком жесткие, чтобы фиксировать изменчивость в наборе обучающих данных, поэтому также не будут хорошо работать в тестовом наборе (высокий тест ошибка) (ii) очень сильные модели, как правило, имеют низкое смещение и высокую дисперсию: они слишком гибкие и подходят для тренировочного набора, поэтому в тестовом наборе (так как точки данных отличаются от обучающего набора) они также не будут работать хорошо (высокая ошибка теста)
Концепция повышения деревьев состоит в том, чтобы начать с мелких деревьев (слабых моделей) и продолжать добавлять более мелкие деревья, которые пытаются исправить слабости предыдущих деревьев. При выполнении этого процесса ошибка теста имеет тенденцию к снижению (поскольку общая модель становится более гибкой / мощной). Однако, если вы добавите слишком много этих деревьев, вы начнете перегонять тренировочные данные и, следовательно, увеличится ошибка теста. Перекрестная проверка помогает найти нужное место
источник