Какова слабая сторона деревьев решений?

34

Деревья решений кажутся очень понятным методом машинного обучения. После создания он может быть легко проверен человеком, что является большим преимуществом в некоторых приложениях.

Каковы практические слабые стороны деревьев решений?

Лукаш Лью
источник

Ответы:

37

Вот пара, о которой я могу думать:

  • Они могут быть чрезвычайно чувствительны к небольшим изменениям в данных: небольшое изменение может привести к радикально другому дереву.
  • Они могут легко переодеться. Это может быть отменено методами валидации и сокращения, но это серая область.
  • У них могут быть проблемы вне выборочного прогнозирования (это связано с тем, что они не являются гладкими).

Некоторые из них связаны с проблемой мультиколлинеарности : когда две переменные объясняют одно и то же, дерево решений будет жадно выбирать лучший, тогда как многие другие методы будут использовать их оба. Методы ансамбля, такие как случайные леса, могут в некоторой степени отрицать это, но вы теряете легкость понимания.

Однако самой большой проблемой, по крайней мере, с моей точки зрения, является отсутствие принципиальной вероятностной структуры. Многие другие методы имеют такие вещи, как доверительные интервалы, апостериорные распределения и т. Д., Которые дают нам некоторое представление о том, насколько хороша модель. Дерево решений, в конечном счете, представляет собой специальную эвристику, которая все еще может быть очень полезной (они отлично подходят для поиска источников ошибок при обработке данных), но есть опасность, что люди будут воспринимать результат как «правильную» модель (из моей опыт, это часто случается в маркетинге).

Саймон Бирн
источник
2
С точки зрения ML деревья можно тестировать так же, как и любой другой классификатор (например, CV). Тем не менее, это скорее показывает, что произошло сильное наложение ;-) Также RF избегает мультиколлинеарности не потому, что это ансамбль, а потому, что его деревья неоптимальны.
2
Для вероятностной структуры деревьев решений см. DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ), основанный на статье «Wallace CS & Patrick JD,« Деревья решений для кодирования », Машинное обучение 11, 1993, с. 7-22 ".
Emakalic
2
Кроме того, не возможно ли получить CI (для прогнозов) с помощью начальной загрузки?
Тал Галили
@Simon Byrne, у меня есть вопрос относительно вашего комментария: «Однако самой большой проблемой, по крайней мере, с моей точки зрения, является отсутствие принципиальной вероятностной структуры». Прости мое невежество, но не могли бы вы указать мне на некоторые практические принципиальные вероятностные рамки (особенно в контексте классификации). Я очень заинтересован в этом ограничении деревьев решений.
Амелио Васкес-Рейна
2
@AmV, одним из примеров будет логистическая регрессия: мы можем использовать тот факт, что каждое наблюдение происходит от биномиального значения, чтобы получить доверительные / достоверные интервалы и проверить предположения модели.
Саймон Бирн
23

Одним из недостатков является то, что все термины должны взаимодействовать. То есть вы не можете иметь две объясняющие переменные, которые ведут себя независимо. Каждая переменная в дереве вынуждена взаимодействовать с каждой переменной дальше по дереву. Это крайне неэффективно, если есть переменные, которые не имеют или имеют слабые взаимодействия.

Роб Хиндман
источник
Мне интересно, если это практическое ограничение, хотя - для переменной, которая слабо влияет на классификацию, моя интуиция заключается в том, что дерево, скорее всего, не разделится на эту переменную (т. е. оно не будет узлом), что, в свою очередь, означает он невидим для классификации дерева решений.
Дуг
Я говорю о слабых взаимодействиях, а не о слабом влиянии на классификацию. Взаимодействие - это отношение между двумя переменными предиктора.
Роб Хиндман
2
Это может быть неэффективно, но древовидная структура может справиться с этим.
Вот почему я сказал неэффективно, а не предвзято или неправильно. Если у вас много данных, это не имеет большого значения. Но если вы подгоните дерево к нескольким сотням наблюдений, то предполагаемые взаимодействия могут значительно снизить точность предсказания.
Роб Хиндман
2
Согласен; Я просто хотел выделить это. Тем не менее, я думаю, что снижение точности прогнозирования может быть устранено с помощью надлежащей подготовки; в филогенетике подобная проблема (жадность) уменьшается за счет сканирования Монте-Карло возможного древовидного пространства, чтобы найти максимально правдоподобные - я не знаю, есть ли подобный подход в статистике, вероятно, никто не был обеспокоен этой проблемой до такого степени.
12

Мой ответ направлен на CART (реализации C 4.5 / C 5), хотя я не думаю, что они ограничены. Я предполагаю, что именно это имеет в виду ФП - обычно это то, что кто-то имеет в виду, когда говорит «Дерево решений».

Ограничения деревьев решений :


Low-Performance

Под «производительностью» я подразумеваю не разрешение, а скорость исполнения . Причина, по которой он плох, заключается в том, что вам нужно «перерисовывать дерево» каждый раз, когда вы хотите обновить свою модель CART - данные, классифицированные по уже обученному дереву, которые затем вы хотите добавить в дерево (т. Е. Использовать в качестве пункт обучающих данных) требует, чтобы вы начинали с обучающих экземпляров, которые не могут быть добавлены постепенно, как это можно сделать для большинства других контролируемых алгоритмов обучения. Возможно, лучший способ заявить об этом - то, что деревья решений не могут быть обучены в режиме онлайн, а только в пакетном режиме. Очевидно, вы не заметите это ограничение, если не обновите свой классификатор, но тогда я ожидаю, что вы увидите снижение разрешения.

Это важно, потому что, например, для многослойного персептрона, когда он обучен, он может начать классифицировать данные; эти данные также можно использовать для «настройки» уже обученного классификатора, хотя в деревьях решений вам необходимо переобучаться всему набору данных (исходные данные, используемые в обучении, а также любые новые экземпляры).


Плохое разрешение данных со сложными отношениями между переменными

Деревья решений классифицируют путем пошаговой оценки точки данных неизвестного класса, один узел за раз, начиная с корневого узла и заканчивая терминальным узлом. И на каждом узле возможны только две возможности (слева направо), поэтому существуют переменные отношения, которые деревья решений просто не могут выучить.


Практически ограничен классификацией

Деревья решений работают лучше всего, когда их обучают назначать точку данных классу, предпочтительно одному из нескольких возможных классов. Я не верю, что мне когда-либо удавалось использовать дерево решений в режиме регрессии (т. Е. Непрерывный выпуск, такой как цена или ожидаемый доход за всю жизнь). Это не формальное или неотъемлемое ограничение, а практическое. В большинстве случаев деревья решений используются для прогнозирования факторов или дискретных результатов.


Плохое разрешение с постоянными переменными ожидания

Опять же, в принципе, нормально иметь независимые переменные, такие как «время загрузки» или «количество дней с момента предыдущей онлайн-покупки» - просто измените критерий разделения на дисперсию (обычно это информационная энтропия или нечистота Джини для дискретных переменных), но в моем случае Опыт Деревья решений редко работают хорошо в этом случае. Исключение составляют случаи типа «возраст учащегося», который выглядит непрерывным, но на практике диапазон значений довольно мал (особенно, если они указаны как целые числа).

Дуг
источник
1
+1 за хороший призыв к ракурсу исполнения, который обычно не дает достаточно игры. Я видел, что деревья решений сталкивались с проблемами производительности на нескольких программных платформах, предназначенных для больших наборов данных (таких как SQL Server), по крайней мере по сравнению с другими методами интеллектуального анализа данных. Это помимо всей проблемы переподготовки, которую вы затронули. Кажется, он ухудшается в тех случаях, когда происходит переоснащение (хотя это можно сказать и о многих других алгоритмах майнинга).
SQLServerSteve
10

Здесь есть хорошие ответы, но я удивлен, что одна вещь не была подчеркнута. CART не делает никаких предположений о распределении данных, в частности, переменной ответа. В противоположность этому , МНК (для непрерывных переменных отклика) и логистической регрессии (для определенных категориальных переменных отклика), например, действительно делают сильные предположения; в частности, регрессия OLS предполагает, что ответ условно нормально распределен, а логистика предполагает, что ответ является биномиальным или полиномиальным.

Отсутствие таких предположений у CART - обоюдоострый меч. Когда эти предположения не обоснованы, это дает подходу относительное преимущество. С другой стороны, когда эти предположения верны, из данных можно извлечь больше информации, принимая во внимание эти факты. То есть стандартные методы регрессии могут быть более информативными, чем CART, если предположения верны.

Gung - Восстановить Монику
источник