Почти каждый пример дерева решений, с которым я сталкивался, является двоичным деревом. Это в значительной степени универсально? Поддерживает ли большинство стандартных алгоритмов (C4.5, CART и т. Д.) Только двоичные деревья? Из того, что я понял , CHAID не ограничивается бинарными деревьями, но это, похоже, исключение.
Двухстороннее разделение, сопровождаемое другим двусторонним разделением на одном из детей, не то же самое, что одиночное трехстороннее разделение. Это может быть академическим моментом, но я пытаюсь убедиться, что понимаю наиболее распространенные варианты использования.
источник
Я не уверен, что вы имеете в виду здесь. Любое многогранное разделение может быть представлено как серия двусторонних разделений. Для трехстороннего разделения вы можете разделить на A, B и C, сначала разделив A и B против C, а затем разделив A на B.
Данный алгоритм может не выбирать эту конкретную последовательность (особенно если, как и большинство алгоритмов, он жадный), но он, безусловно, может. И если какие-либо рандомизированные или поэтапные процедуры выполняются, как в случайных лесах или повышенных деревьях, шансы найти правильную последовательность расщеплений возрастают. Как отмечали другие, многоходовые разбиения вычислительно дорогостоящи, поэтому, учитывая эти альтернативы, большинство исследователей, похоже, выбрали двоичные разбиения.
Надеюсь это поможет
источник
Что касается использования дерева решений и расщепления (двоичного или другого), я знаю только о CHAID, который имеет недвоичные расщепления, но, вероятно, есть и другие. Для меня основное использование недвоичного разбиения - это упражнения по извлечению данных, в которых я смотрю, как оптимально создать номинальную переменную со многими уровнями. Серия бинарных разбиений не так полезна, как группировка, выполняемая CHAID.
источник
Пожалуйста, прочитайте это
источник