почему метод повышения чувствительности к выбросам

12

Я нашел много статей, в которых говорится, что методы повышения чувствительны к выбросам, но нет статей, объясняющих почему.

По моему опыту, выбросы плохи для любого алгоритма машинного обучения, но почему методы повышения выделяются как особенно чувствительные?

Как бы оценили следующие алгоритмы с точки зрения чувствительности к выбросам: буст-дерево, случайный лес, нейронная сеть, SVM и простые методы регрессии, такие как логистическая регрессия?

lserlohn
источник
1
Я отредактировал, чтобы попытаться уточнить (также, если вы ставите пробелы в начале строки, stackexchange будет рассматривать это как код). К вашему второму параграфу, повышение это что? Возможно, вам придется определить чувствительность.
Джереми Майлз
1
Кроме того, выбросы и шум не одно и то же.
Джереми Майлз
Я бы не пометил этот вопрос как решенный. Неясно, действительно ли ускорение страдает от выбросов больше, чем другие методы, или нет. Кажется, принятый ответ был принят в основном из-за предвзятости подтверждения.
rinspy
Можете ли вы поделиться некоторыми из этих статей, пожалуйста?
acnalb

Ответы:

11

Выбросы могут быть плохими для повышения, потому что повышение строит каждое дерево на остатках / ошибках предыдущих деревьев. Выбросы будут иметь гораздо большие остатки, чем не выбросы, поэтому усиление градиента сфокусирует непропорциональное количество внимания на этих точках.

Райан Зотти
источник
2
Будет лучше, если вы сможете дать больше математических деталей в ОП!
Метариат
5
@Matemattica Я не согласен, что добавление математических деталей обеспечит дополнительную ясность здесь. Это был бы просто символ для градиентов деревьев и скорость обучения последующих деревьев.
Райан Зотти
1
@RyanZotti: Я согласен с Метариатом. Более формальная запись разрешила бы некоторую путаницу. Например, в предложении «Выбросы будут иметь гораздо большие остатки, чем не выбросы», вы имеете в виду остатки относительно чего? Предполагаемая модель или истинная? Если первое, это не так в целом, а если второе, то это не имеет значения.
user603
1

Указанные вами алгоритмы предназначены для классификации, поэтому я предполагаю, что вы имеете в виду не выбросы в целевой переменной, а выбросы входных переменных. Методы Boosted Tree должны быть достаточно устойчивы к выбросам во входных объектах, поскольку базовые учащиеся являются разбиениями дерева. Например, если разделение равно x > 35, и 5 000 000 обрабатываются одинаково. Это может или не может быть хорошей вещью, но это другой вопрос.

Если бы вместо этого вы говорили о регрессии и выбросах в целевой переменной, то чувствительность методов повышенного дерева будет зависеть от используемой функции стоимости. Конечно, квадратичная ошибка чувствительна к выбросам, потому что разность возводится в квадрат, и это сильно повлияет на следующее дерево, так как бустинг пытается соответствовать (градиенту) потерь. Однако есть более надежные функции ошибок, которые можно использовать для методов ускоренного дерева, таких как Huber loss и Absolute Loss.

ZakJ
источник
0

При повышении мы пытаемся выбрать набор данных, по которому результаты алгоритма были плохими, вместо случайного выбора подмножества данных. Эти сложные примеры очень важны для изучения, поэтому, если в наборе данных много выбросов, и алгоритм не работает с ними лучше, чем при изучении этих сложных примеров, алгоритм попытается выбрать подмножества с этими примерами.

Waleed Sial
источник