Основным вариантом использования для упаковки в пакеты является уменьшение дисперсии моделей с низким смещением путем их объединения. Это было изучено эмпирически в историческом документе Бауэра и Кохави « Эмпирическое сравнение алгоритмов классификации голосования: пакетирование, повышение и варианты » . Обычно это работает как рекламируется.
Однако, вопреки распространенному мнению, мешки не гарантируют уменьшения дисперсии . Более свежее и (на мой взгляд) лучшее объяснение состоит в том, что мешки снижают влияние точек кредитного плеча. Точки воздействия - это те, которые непропорционально влияют на результирующую модель, такие как регрессия наименьших квадратов. Редко, но возможно, что рычаги воздействия положительно влияют на получающиеся модели, и в этом случае упаковка в мешки снижает производительность. Взгляните на « Bagging выравнивает влияние » от Grandvalet .
Итак, наконец, чтобы ответить на ваш вопрос: эффект мешков в значительной степени зависит от точек кредитного плеча. Существует несколько теоретических гарантий, за исключением того, что пакетирование линейно увеличивает время вычислений с точки зрения размера пакета! Тем не менее, это все еще широко используемый и очень мощный метод. Например, при обучении с использованием шума меток мешки могут давать более надежные классификаторы .
Рао и Тибширани дали Байесовскую интерпретацию в « Методе внешней загрузки для усреднения и отбора моделей » :
В этом смысле распределение начальной загрузки представляет (приблизительное) непараметрическое, неинформативное апостериорное распределение для нашего параметра. Но это начальное распределение получается безболезненно - без необходимости формально определять априор и без выборки из апостериорного распределения. Следовательно, мы могли бы думать о распределении бутстрапа как о байесовском апостериорном.