AdaBoost менее или более склонен к переоснащению?

20

Я читал различные (казалось бы) противоречивые утверждения, независимо от того, являются ли AdaBoost (или другие методы повышения) менее или более склонными к переобучению по сравнению с другими методами обучения.

Есть ли веские причины верить тому или иному? Если это зависит, от чего это зависит? По каким причинам AdaBoost менее / более склонен к переоснащению?

blubb
источник
1
Моя интуиция заключается в том, что она более склонна к переоснащению, чем случайный лес. Тем не менее, алгоритм разработан, чтобы избежать переоснащения, и, как правило, это не проблема. У меня нет ссылок, caretподтверждающих это, но вы можете использовать пакет для перекрестной проверки adaboost, и я обнаружил, что он обычно хорошо обобщает.
Зак

Ответы:

17

Как вы говорите, об этом много говорилось, и есть довольно тяжелая теория, которая, как я понимаю, никогда не была полностью понятна. По моему практическому опыту AdaBoost достаточно устойчив к переоснащению, а LPBoost (усиление линейного программирования) тем более (потому что целевая функция требует разреженной комбинации слабых учеников, что является формой контроля производительности). Основные факторы, которые влияют на это:

  • Сила «слабых» учеников: если вы используете очень простых слабых учеников, таких как пни решений (деревья решений 1-го уровня), то алгоритмы гораздо менее подвержены переобучению. Всякий раз, когда я пытался использовать более сложных слабых учеников (таких как деревья решений или даже гиперплоскости), я обнаруживал, что переоснащение происходит намного быстрее

  • Уровень шума в данных: AdaBoost особенно склонен к перегрузке на зашумленных наборах данных. В этом случае предпочтительными являются регуляризованные формы (RegBoost, AdaBoostReg, LPBoost, QPBoost).

  • Размерность данных: мы знаем, что в целом мы испытываем переобучение в многомерных пространствах («проклятие размерности»), и AdaBoost также может пострадать в этом отношении, поскольку это просто линейная комбинация классификаторов, которые сами страдают из проблемы. Трудно определить, насколько он подвержен влиянию других классификаторов.

К

TDC
источник
9

Я согласен с большинством пунктов, упомянутых в комментарии ТДК. Однако я должен добавить и исправить несколько вещей.

  • Как показано в L2Boost Питером Бюльманом, по мере того, как число слабых учеников (циклов повышения) увеличивается, смещение сходится экспоненциально быстро, в то время как дисперсия увеличивается за счет геометрически убывающих величин, что означает: она подходит гораздо медленнее, чем большинство других методов.
  • В комментарии Зака ​​было ошибочно упомянуто, что он лучше случайного леса с точки зрения переобогащения. Это совершенно неправильно. На самом деле, согласно теории (посмотрите на оригинальную статью о случайных лесах Бреймана), Random Forest абсолютно не защищен от переобучения, если его слабые классификаторы не соответствуют данным.
  • В отличие от того, что упомянуто в комментарии tdc, большинство методов повышения чувствительности очень чувствительны к шуму маркировки и могут легко переопределиться при наличии шума маркировки.
  • В наборах данных, где коэффициенты ошибок по Байесу далеки от 0 (т. Е. Функции недостаточно различимы), методы повышения также могут легко переопределяться. Потому что они пытаются уменьшить ошибку обучения до нуля, в то время как в действительности даже оптимальный классификатор, то есть байесовский классификатор, может достигать, скажем, 40% ошибок.
  • наконец, и это не было опубликовано нигде, где (насколько мне известно) существует своего рода переоснащение, при котором ошибка обобщения не увеличивается с увеличением циклов повышения, но также не уменьшается. Это означает, что алгоритм застрял в локальной оптимуме. В этой ситуации ошибка обучения постоянно уменьшается, а ошибка теста остается практически постоянной. До сих пор мы никогда не рассматривали это явление как признак переоснащения, но я считаю, что это признак переобучения, и, используя более сложных слабых учеников, (странно!) Мы можем фактически пойти против этого (Этот последний пункт следует рассматривать с осторожностью : D)
TNM
источник
1
К этому ответу стоит добавить, что я мог испытать последний вид переоснащения сегодня, как с AdaBoost, так и с Random Forest. При перекрестной проверке погрешность, выходящая за рамки, сходится к константе с только 20 базовыми оценками, а затем отклоняется вокруг этой константы с высокой дисперсией. Мое подозрение было точно таким же: жадные алгоритмы застряли в каком-то локальном оптимуме. Это не подтверждение того, что произошло, но приятно знать, что у кого-то еще была такая же мысль.
Shadowtalker
@ssdecontrol Можете ли вы поделиться тем, что вы сделали? Я хочу воспроизвести результаты, чтобы лучше понять
Саураб Агарвал
@saurabhagarwal Я думаю, что работал над проектом Kaggle Titanic
shadowtalker