На самом деле я пишу реализацию Случайных Лесов, но я считаю, что вопрос специфичен для деревьев решений (независимо от RF).
Таким образом, контекст заключается в том, что я создаю узел в дереве решений, и предсказание и целевые переменные являются непрерывными. Узел имеет пороговое значение для разделения данных на два набора, и я создаю новый прогноз для каждого поднабора на основе среднего целевого значения в каждом наборе. Это правильный подход?
Причина, по которой я спрашиваю, заключается в том, что при прогнозировании бинарных переменных я считаю, что типичный (правильный?) Подход заключается в разделении данных на 0 и 1 подмножеств без усреднения по строкам данных в каждом подмножестве. Последующие расщепления будут делиться на более мелкозернистые подмножества, и взятие среднего значения при каждом расщеплении приводит к последующим расщеплениям (опускается вниз по дереву решений), работающим с непрерывными переменными, а не с двоичными переменными (потому что мы работаем со значениями остаточной ошибки вместо исходных цели).
Дополнительный вопрос: Является ли различие между двумя подходами (двоичным и непрерывным) существенным или они действительно дадут идентичные результаты для полного дерева решений?
источник
Ответы:
Одна потенциальная проблема с деревьями заключается в том, что они плохо вписываются в хвосты. Подумайте о терминальном узле, который фиксирует низкий диапазон обучающего набора. Он будет предсказывать, используя среднее значение этих тренировочных заданных значений, что всегда будет недооценивать результат (так как это среднее значение).
Вы можете попробовать модели деревьев [1]. Они будут соответствовать линейным моделям в терминальных узлах и (я думаю) будут работать лучше, чем деревья регрессии. Еще лучше использовать более развитую версию под названием Cubist, которая сочетает в себе различные подходы ([1] и [2] ниже).
Эти модели также по-разному обрабатывают непрерывные и дискретные предикторы. Они могут выполнять многофакторное разбиение для категориальных переменных. Критерий расщепления очень похож на деревья CART.
Деревья моделей можно найти в R в пакете RWeka (называемом «M5P»), а Cubist в пакете Cubist. Конечно, вы также можете использовать Weka, и Cubist имеет версию C, доступную на веб-сайте RuleQuest.
[1] Quinlan, J. (1992). Обучение с непрерывными занятиями. Материалы 5-й Австралийской совместной конференции по искусственному интеллекту, 343–348.
[2] Quinlan, J. (1993). Сочетание обучения на основе экземпляров и моделей. Материалы десятой Международной конференции по машинному обучению, 236–243.
источник