Я нашел много статей, в которых говорится, что методы повышения чувствительны к выбросам, но нет статей, объясняющих почему.
По моему опыту, выбросы плохи для любого алгоритма машинного обучения, но почему методы повышения выделяются как особенно чувствительные?
Как бы оценили следующие алгоритмы с точки зрения чувствительности к выбросам: буст-дерево, случайный лес, нейронная сеть, SVM и простые методы регрессии, такие как логистическая регрессия?
Ответы:
Выбросы могут быть плохими для повышения, потому что повышение строит каждое дерево на остатках / ошибках предыдущих деревьев. Выбросы будут иметь гораздо большие остатки, чем не выбросы, поэтому усиление градиента сфокусирует непропорциональное количество внимания на этих точках.
источник
Указанные вами алгоритмы предназначены для классификации, поэтому я предполагаю, что вы имеете в виду не выбросы в целевой переменной, а выбросы входных переменных. Методы Boosted Tree должны быть достаточно устойчивы к выбросам во входных объектах, поскольку базовые учащиеся являются разбиениями дерева. Например, если разделение равно
x > 3
5, и 5 000 000 обрабатываются одинаково. Это может или не может быть хорошей вещью, но это другой вопрос.Если бы вместо этого вы говорили о регрессии и выбросах в целевой переменной, то чувствительность методов повышенного дерева будет зависеть от используемой функции стоимости. Конечно, квадратичная ошибка чувствительна к выбросам, потому что разность возводится в квадрат, и это сильно повлияет на следующее дерево, так как бустинг пытается соответствовать (градиенту) потерь. Однако есть более надежные функции ошибок, которые можно использовать для методов ускоренного дерева, таких как Huber loss и Absolute Loss.
источник
При повышении мы пытаемся выбрать набор данных, по которому результаты алгоритма были плохими, вместо случайного выбора подмножества данных. Эти сложные примеры очень важны для изучения, поэтому, если в наборе данных много выбросов, и алгоритм не работает с ними лучше, чем при изучении этих сложных примеров, алгоритм попытается выбрать подмножества с этими примерами.
источник