Методы ансамбля (такие как случайные леса) требуют некоторого элемента вариации в наборах данных, на которых выращиваются отдельные базовые классификаторы (в противном случае случайные леса могли бы получить лес из деревьев, которые слишком похожи). Поскольку деревья решений очень чувствительны к наблюдениям в обучающем наборе, варьирование наблюдений (с использованием начальной загрузки) было, я полагаю, естественным подходом к получению требуемого разнообразия. Очевидная альтернатива - варьировать используемые функции, например, обучать каждое дерево на подмножестве исходных объектов. Использование примеров начальной загрузки также позволяет нам оценить частоту появления ошибок (OOB) и значение переменной.
2, по сути, является еще одним способом введения случайности в лес. Это также оказывает влияние на уменьшение корреляции между деревьями (с помощью низкого значения mtry), при этом компромисс (потенциально) ухудшает предсказательную силу. Использование слишком большого значения mtry приведет к тому, что деревья станут все более похожими друг на друга (и в крайнем случае вы получите мешки)
Я считаю, что причина не обрезки в большей степени из-за того, что это не нужно, чем что-либо еще. С одним деревом решений вы обычно сокращаете его, так как оно очень восприимчиво к переоснащению. Однако, используя образцы начальной загрузки и выращивая много деревьев, в случайных лесах можно вырастить деревья, которые являются индивидуально сильными, но не особенно связаны друг с другом. По сути, отдельные деревья являются подходящими, но при условии, что их ошибки не коррелированы, лес должен быть достаточно точным.
Причина, по которой он работает хорошо, аналогична теореме Кондорсе присяжных (и логике таких методов, как повышение). По сути, у вас много слабых учеников, которым нужно лишь немного повысить эффективность, чем случайное угадывание. Если это правда, вы можете продолжать добавлять слабых учеников, и в пределе вы получите идеальные прогнозы от вашего ансамбля. Очевидно, что это ограничено из-за ошибок корреляции учеников, что препятствует улучшению работы ансамбля.