Когда речь идет о деревьях решений, может ли прогнозируемое значение лежать вне диапазона обучающих данных?
Например, если диапазон набора обучающих данных целевой переменной составляет 0-100, когда я генерирую свою модель и применяю ее к чему-то другому, могут ли мои значения быть -5? или 150?
Учитывая, что я понимаю регрессию дерева решений, это то, что это все еще основано на правилах - прогрессия влево / вправо и что в нижней части дерева в обучающем наборе он никогда не сможет увидеть значение за пределами определенного диапазона, он никогда не сможет предсказать это?
regression
predictive-models
random-forest
cart
user3788557
источник
источник
Ответы:
Вы совершенно правы: классические деревья решений не могут предсказать значения за пределами исторически наблюдаемого диапазона. Они не будут экстраполировать.
То же относится и к случайным лесам.
Теоретически, вы иногда видите дискуссии о несколько более сложных архитектурах (ботаниках?), Где листья дерева не дают единственного значения , но содержат простую регрессию , например, регрессию зависимой переменной на конкретную числовую независимую переменную. Навигация по дереву дала бы вам набор правил, по которому числовая IV должна регрессировать в каком случае. В таком случае эту регрессию «нижнего уровня» можно экстраполировать, чтобы получить еще не наблюдаемые значения.
Тем не менее, я не думаю, что стандартные библиотеки машинного обучения предлагают эту несколько более сложную структуру (я недавно искал это в CRAN Task Views для R), хотя в этом не должно быть ничего сложного. Возможно, вы сможете реализовать свое собственное дерево, содержащее регрессии в листьях.
источник
mobForest
partykit
Также проверьте кубист в пакете карета. Он строит линейные регрессии в терминальных узлах и может экстраполировать прогнозы выше и ниже диапазона значений отклика в обучающих данных. Терминальные узлы также могут быть усреднены на основе ближайших соседей, которые представлены в виде гиперпараметра, поэтому он может обеспечить чрезвычайно точные перекрестные проверки.
источник