Не путайте обработку предикторов (с помощью базовых учеников, например, пней) и обработку функции потерь в бустинге. Хотя AdaBoost можно рассматривать как поиск комбинаций базовых учащихся для минимизации ошибки ошибочной классификации, цитируемый вами документ «Аддитивная логистическая регрессия» показывает, что он также может быть сформулирован для минимизации функции экспоненциальных потерь. Это понимание открыло подход повышения к широкому классу проблем машинного обучения, которые минимизируют дифференцируемые функции потерь посредством повышения градиента . Остатки, которые подходят на каждом шаге, являются псевдо-остатками, рассчитанными из градиента функции потерь. Даже если предикторы моделируются как двоичные пни, выходные данные модели, таким образом, не должны быть двоичным выбором.
Как гласит другой ответ, линейные базовые ученики могут не работать для повышения, но линейные базовые ученики не требуются для «усиленной регрессии» ни в стандартном, ни в логистическом смысле. Решительно нелинейные пни могут быть объединены в качестве учеников с медленной базой, чтобы минимизировать соответствующие функции потерь. Она по-прежнему называется «усиленная регрессия», хотя она далека от стандартной модели регрессии, линейной по коэффициентам предикторов. Функция потерь может быть функционально одинаковой для линейных моделей и моделей «усиленной регрессии» с пнями или деревьями в качестве предикторов. Глава 8 ISLR проясняет это.
Поэтому, если вы хотите логистическую регрессию, эквивалентную усиленной регрессии, сфокусируйтесь на функции потерь, а не на базовых учениках. Вот что делает подход LogitBoost в статье, которую вы цитируете: минимизировать потерю журнала, а не экспоненциальную потерю, неявную в adaboost. Страница AdaBoost Википедии описывает эту разницу.
Многие участники этого сайта утверждают, что прогнозирование на основе логарифмических шансов / вероятностей является наиболее предпочтительным по сравнению со строгим прогнозом классификации да / нет, так как первый в более общем случае допускает различные компромиссы между дополнительными затратами ложноположительных и ложноотрицательных прогнозов. , Как показывает ответ на ваш связанный вопрос , можно получить оценочные вероятности из строгого классификатора, полученного из AdaBoost, но LogitBoost вполне может дать лучшую производительность.
Реализации повышения градиента для классификации могут предоставить информацию об основных вероятностях. Например, эта страница о повышении градиента показывает, как sklearn
код позволяет выбирать между потерей отклонения для логистической регрессии и экспоненциальной потерей для AdaBoost, а также документирует функции для прогнозирования вероятностей из модели с повышением градиента.
На самом деле у нас очень похожий вопрос здесь о случае регрессии. И у нас был очень хороший ответ от @Matthew Drury
Повышение градиента для линейной регрессии - почему это не работает?
Линейная модель (например, логистическая регрессия) не подходит для повышения. Причина в том, что если вы добавляете две линейные модели вместе, то получается другая линейная модель. С другой стороны, добавление двух пней или деревьев решений будет иметь более сложную и интересную модель (больше не дерево).
Подробности можно найти в этом посте. В этой ссылке я выяснил, почему добавление двух линейных моделей не интересно. И я показываю эффект повышения на итерации решения решения за итерацией.
Как линейный базовый ученик работает над повышением? И как это работает в библиотеке xgboost?
Обратите внимание, что дерево решений / пень не является «линейной моделью», подобной логистической регрессии.
Смотрите этот пост для деталей
Является ли пень решения линейной моделью?
источник