Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML).
Тем не менее, две части интуиции говорят мне иначе:
Всякий раз, когда построено дерево решений, все точки должны быть классифицированы. Это означает, что даже выбросы будут классифицированы, и, следовательно, будут влиять на деревья решений, где они были выбраны во время повышения.
Начальная загрузка является частью того, как RandomForest выполняет подвыборку. Самозагрузка восприимчива к выбросам.
Есть ли способ примирить мою интуицию о ее чувствительности к выбросам с источниками, которые не согласны?
min_samples_leaf_node
есть1
, то оно может быть подвержено выбросам.Ответы:
Ваша интуиция верна. Этот ответ просто иллюстрирует это на примере.
Это действительно распространенное заблуждение, что CART / RF так или иначе устойчивы к выбросам.
Чтобы проиллюстрировать отсутствие устойчивости RF к наличию единичных выбросов, мы можем (слегка) изменить код, использованный в ответе Сорена Хавелунда Веллинга выше, чтобы показать, что одного «y-выброса» достаточно, чтобы полностью повлиять на подобранную модель RF. Например, если мы вычислим среднюю ошибку прогноза незагрязненных наблюдений как функцию расстояния между выбросами и остальными данными, мы можем увидеть (изображение ниже), что вводится один выброс (путем замены одного из исходных наблюдений). по произвольному значению в 'y'-пространстве) достаточно, чтобы оттянуть предсказания РЧ-модели как можно дальше от значений, которые они имели бы, если бы вычисляли по исходным (незагрязненным) данным:
Как далеко? В приведенном выше примере единственный выброс изменил подгонку настолько, что средняя ошибка прогноза (для незагрязненных) наблюдений теперь на 1-2 порядка больше, чем она была бы, если бы модель была подобрана для незагрязненных данных.
Так что это неправда, что один выброс не может повлиять на соответствие RF.
Кроме того, как я отмечаю в другом месте , с выбросами гораздо сложнее иметь дело, когда их потенциально несколько (хотя они не должны составлять значительную долю данных, чтобы их влияние проявилось). Конечно, загрязненные данные могут содержать более одного выброса; Чтобы измерить влияние нескольких выбросов на соответствие RF, сравните график слева, полученный из РФ на незагрязненных данных, с графиком справа, полученным путем произвольного смещения 5% значений ответов (код находится под ответом) ,
Наконец, в контексте регрессии важно указать, что выбросы могут выделяться из объема данных как в плане проектирования, так и в пространстве ответов (1). В конкретном контексте РФ выбросы конструкции будут влиять на оценку гиперпараметров. Однако этот второй эффект более очевиден, когда число измерений велико.
То, что мы наблюдаем здесь, является частным случаем более общего результата. Чрезвычайная чувствительность к выбросам многомерных методов подбора данных, основанных на выпуклых функциях потерь, была открыта много раз. См. (2) для иллюстрации в конкретном контексте методов ML.
Редактировать.
где и являются появляющимися дочерними узлами, зависящими от выбора ( и являются неявными функциями от ), а обозначает долю данных, которая попадает в левый дочерний узел а - это доля данных в . Затем можно придать устойчивости пространства «у» деревьям регрессии (и, следовательно, RF), заменив функционал дисперсии, использованный в исходном определении, надежной альтернативой. По сути, это подход, используемый в (4), где дисперсия заменяется надежным М-оценщиком масштаба.t R s ∗ t L t R s p L t L p R = 1 - p L t RTL Tр s* TL Tр s пL TL пр= 1 - рL Tр
источник
p
иs
в формуле?выброс 1a: этот выброс имеет одно или несколько значений экстремальных признаков и расположен далеко от любого другого образца. Выброс будет влиять на начальные расщепления деревьев, как и любой другой образец, поэтому не оказывает сильного влияния. Он будет иметь низкую близость к любому другому образцу и будет определять структуру модели только в удаленной части пространства объектов. Во время прогнозирования большинство новых выборок, скорее всего, не будут похожи на этот выброс, и редко окажутся в одном и том же терминальном узле. Кроме того, деревья решений рассматривают особенности, как если бы они были порядковыми (ранжирование). Значение либо меньше, либо равно, либо больше, чем точка останова, поэтому не имеет значения, является ли значение признака экстремальным выбросом.
выброс 1b: для классификации один отдельный образец может рассматриваться как выброс, если он встроен в середину множества образцов другого класса. Ранее я описал, как эта RF-модель по умолчанию будет зависеть от этого образца нечетного класса, но только очень близко к нему.
выброс 2: этот выброс имеет экстремальное целевое значение, возможно, во много раз превышающее любые другие значения, но значения признаков являются нормальными. У фракции .631 деревьев будет конечный узел с этим образцом. Структура модели будет затронута локально близко к выбросу. Обратите внимание, что структура модели затрагивается в основном параллельно оси объекта, потому что узлы разделены по-разному.
РЕДАКТИРОВАТЬ: комментарий к пользователю603
Да, для экстремальных выбросов в целевом масштабе следует рассмотреть возможность преобразования целевого масштаба перед запуском RF. Я добавил ниже функцию robustModel (), которая настраивает randomForest. Другим решением было бы войти преобразование перед тренировкой.
источник
y[1]=200
то увидите, что он в одиночку вызывает скачок ошибки прогнозирования для незагрязненных наблюдений в 20 раз!Это не сам алгоритм Случайного леса, который устойчив к выбросам, а базовый учащийся, на котором он основан: дерево решений . Деревья решений выделяют нетипичные наблюдения на маленькие листья (т. Е. На небольшие подпространства исходного пространства). Кроме того, деревья решений являются локальными моделями. В отличие от линейной регрессии, где одно и то же уравнение выполняется для всего пространства, очень простая модель подгоняется локально для каждого подпространства (т. Е. Для каждого листа).
Поэтому, например, для регрессии экстремальные значения не влияют на всю модель, поскольку они усредняются локально. Таким образом, соответствие другим значениям не влияет.
На самом деле, это желательное свойство переносится на другие древовидные структуры, такие как дендограммы. Например, иерархическая кластеризация давно используется для очистки данных, поскольку она автоматически изолирует аберрантные наблюдения в небольшие кластеры. Смотри, например, Loureiro et al. (2004). Обнаружение выбросов с использованием методов кластеризации: приложение для очистки данных .
Таким образом, в двух словах, RF наследует свою нечувствительность к выбросам от рекурсивного разделения и подбора локальной модели .
Обратите внимание, что деревья решений имеют низкое смещение, но модели с высокой дисперсией: их структура подвержена изменениям при небольшой модификации обучающего набора (удаление или добавление нескольких наблюдений). Но это не следует путать с чувствительностью к выбросам, это другое дело.
источник
labeled
илиunlabeled
данные? И как эта кластеризация будет достигнута на разнородных данных, которые содержат как категориальные, так и числовые характеристики?