Каковы теоретические гарантии упаковки

17

Я (примерно) слышал, что:

пакетирование - это метод, позволяющий уменьшить дисперсию алгоритма предиктор / оценщик / обучение.

Однако я никогда не видел формального математического доказательства этого утверждения. Кто-нибудь знает, почему это математически верно? Это просто кажется настолько широко признанным / известным фактом, что я ожидал бы прямой ссылки на это. Я был бы удивлен, если нет. Кроме того, кто-нибудь знает, как это влияет на предвзятость?

Существуют ли какие-либо другие теоретические гарантии подходов, которые кто-то знает и считает важными и хочет ими поделиться?

Чарли Паркер
источник

Ответы:

21

Основным вариантом использования для упаковки в пакеты является уменьшение дисперсии моделей с низким смещением путем их объединения. Это было изучено эмпирически в историческом документе Бауэра и Кохави « Эмпирическое сравнение алгоритмов классификации голосования: пакетирование, повышение и варианты » . Обычно это работает как рекламируется.

Однако, вопреки распространенному мнению, мешки не гарантируют уменьшения дисперсии . Более свежее и (на мой взгляд) лучшее объяснение состоит в том, что мешки снижают влияние точек кредитного плеча. Точки воздействия - это те, которые непропорционально влияют на результирующую модель, такие как регрессия наименьших квадратов. Редко, но возможно, что рычаги воздействия положительно влияют на получающиеся модели, и в этом случае упаковка в мешки снижает производительность. Взгляните на « Bagging выравнивает влияние » от Grandvalet .

Итак, наконец, чтобы ответить на ваш вопрос: эффект мешков в значительной степени зависит от точек кредитного плеча. Существует несколько теоретических гарантий, за исключением того, что пакетирование линейно увеличивает время вычислений с точки зрения размера пакета! Тем не менее, это все еще широко используемый и очень мощный метод. Например, при обучении с использованием шума меток мешки могут давать более надежные классификаторы .

Рао и Тибширани дали Байесовскую интерпретацию в « Методе внешней загрузки для усреднения и отбора моделей » :

В этом смысле распределение начальной загрузки представляет (приблизительное) непараметрическое, неинформативное апостериорное распределение для нашего параметра. Но это начальное распределение получается безболезненно - без необходимости формально определять априор и без выборки из апостериорного распределения. Следовательно, мы могли бы думать о распределении бутстрапа как о байесовском апостериорном.

Марк Клазен
источник
1
Как объяснение «точек воздействия» применимо к деревьям, которые часто рекомендуются для упаковки в мешки? Хотя ясно, что точки высокого плеча для линейной регрессии, что это за деревья?
DavidR
нашел другую ссылку на этот вопрос: quora.com/… что ты думаешь? это противоречит тому факту, что вы сказали, что это не уменьшает дисперсию теоретически?
Чарли Паркер
Я видел, что в Википедии написано, что пакетирование (так называемая агрегация начальной загрузки) снижает дисперсию. Если для этого нет теоретических доказательств, значит ли это, что статья ошибочна?
Чарли Паркер
В большинстве случаев, мешки имеют меньшую дисперсию, но это не фактический механизм. Grandvalet показал примеры, где он увеличивает дисперсию, и проиллюстрировал, что механизм более тесно связан с выравниванием влияния точек данных, которые сильно влияют на модель, таких как регрессия отклонений по методу наименьших квадратов, которая в большинстве случаев уменьшает дисперсию.
Марк Клазен