Как следует реализовывать разбиения дерева решений при прогнозировании непрерывных переменных?

На самом деле я пишу реализацию Случайных Лесов, но я считаю, что вопрос специфичен для деревьев решений (независимо от RF).

Таким образом, контекст заключается в том, что я создаю узел в дереве решений, и предсказание и целевые переменные являются непрерывными. Узел имеет пороговое значение для разделения данных на два набора, и я создаю новый прогноз для каждого поднабора на основе среднего целевого значения в каждом наборе. Это правильный подход?

Причина, по которой я спрашиваю, заключается в том, что при прогнозировании бинарных переменных я считаю, что типичный (правильный?) Подход заключается в разделении данных на 0 и 1 подмножеств без усреднения по строкам данных в каждом подмножестве. Последующие расщепления будут делиться на более мелкозернистые подмножества, и взятие среднего значения при каждом расщеплении приводит к последующим расщеплениям (опускается вниз по дереву решений), работающим с непрерывными переменными, а не с двоичными переменными (потому что мы работаем со значениями остаточной ошибки вместо исходных цели).

Дополнительный вопрос: Является ли различие между двумя подходами (двоичным и непрерывным) существенным или они действительно дадут идентичные результаты для полного дерева решений?

algorithms cart random-forest redcalx
источник

Разделение на непрерывную переменную обязательно приведет к тому, что полученная «модель» не будет соответствовать данным. Если у вас есть один непрерывный X и один непрерывный Y, рассмотрите возможность использования непараметрического лёсса сглаживания.

Фрэнк Харрелл

Проблема, над которой я сейчас работаю, имеет много переменных-предикторов (смесь непрерывных и двоичных) и одну целевую переменную. Поэтому я считаю, что РФ - разумный подход.

Redcalx

Скорее всего так. Но случайный лес - это смесь деревьев (это не дерево решений), поэтому он аппроксимирует непрерывные отношения, делая множественные расщепления и фактически используя усадку. Поэтому я не думаю, что ваш первоначальный вопрос применим, если я его понимаю.

Фрэнк Харрелл

Я испытываю желание сказать , что ваше описание непрерывного случая является правильным (то есть стандартным способом делать вещи), но ваше описание переменными случае бинарном не совпадает вообще с моим пониманием того , как случайные лесов (или решением деревья) работают, поэтому я волнуюсь, что один из нас в замешательстве.

Джоран

@joran. Да, если установить для прогнозов значение 0 или 1, вы потеряете возможность вносить тонкие корректировки в прогнозы (между 0 и 1), которые могут снизить ошибку (например, среднеквадратичную ошибку прогноза). Таким образом, я подозреваю, что этот подход будет хуже. Я попробовал это сделать, и большинство попыток построить дерево решений не смогли найти ни одного разбиения, улучшающего ошибки.

Redcalx

Одна потенциальная проблема с деревьями заключается в том, что они плохо вписываются в хвосты. Подумайте о терминальном узле, который фиксирует низкий диапазон обучающего набора. Он будет предсказывать, используя среднее значение этих тренировочных заданных значений, что всегда будет недооценивать результат (так как это среднее значение).

Вы можете попробовать модели деревьев [1]. Они будут соответствовать линейным моделям в терминальных узлах и (я думаю) будут работать лучше, чем деревья регрессии. Еще лучше использовать более развитую версию под названием Cubist, которая сочетает в себе различные подходы ([1] и [2] ниже).

Эти модели также по-разному обрабатывают непрерывные и дискретные предикторы. Они могут выполнять многофакторное разбиение для категориальных переменных. Критерий расщепления очень похож на деревья CART.

Деревья моделей можно найти в R в пакете RWeka (называемом «M5P»), а Cubist в пакете Cubist. Конечно, вы также можете использовать Weka, и Cubist имеет версию C, доступную на веб-сайте RuleQuest.

[1] Quinlan, J. (1992). Обучение с непрерывными занятиями. Материалы 5-й Австралийской совместной конференции по искусственному интеллекту, 343–348.

[2] Quinlan, J. (1993). Сочетание обучения на основе экземпляров и моделей. Материалы десятой Международной конференции по машинному обучению, 236–243.

topepo
источник

Не могли бы вы просто иметь более глубокие деревья, чтобы минимизировать плохое прилегание к хвостам?

Джейс

Как следует реализовывать разбиения дерева решений при прогнозировании непрерывных переменных?

Ответы: