Является ли случайный лес для регрессии «истинной» регрессией?

18

Случайные леса используются для регрессии. Однако, насколько я понимаю, они назначают среднее целевое значение на каждом листе. Так как в каждом дереве есть только ограниченные листья, есть только определенные значения, которые цель может получить из нашей регрессионной модели. Таким образом, разве это не просто «дискретная» регрессия (например, ступенчатая функция) и не похожая на «непрерывная» линейная регрессия?

Я правильно понимаю? Если да, то какое преимущество дает случайный лес в регрессии?

user110565
источник

Ответы:

23

Это правильно - случайные леса дискретизируют непрерывные переменные, поскольку они основаны на деревьях решений, которые функционируют посредством рекурсивного двоичного разделения. Но с достаточным количеством данных и достаточным разбиением ступенчатая функция с множеством небольших шагов может приближаться к гладкой функции. Так что это не должно быть проблемой. Если вы действительно хотите получить плавный ответ от одного предиктора, вы рассчитываете частичное влияние какой-либо конкретной переменной и подбираете для нее гладкую функцию (это не влияет на саму модель, которая будет сохранять этот пошаговый символ).

Случайные леса предлагают довольно много преимуществ по сравнению со стандартными методами регрессии для некоторых приложений. Чтобы упомянуть только три:

  1. Они позволяют использовать произвольно много предикторов (возможно больше предикторов, чем точек данных)
  2. Они могут аппроксимировать сложные нелинейные формы без априорной спецификации
  3. Они могут фиксировать сложные взаимодействия между прогнозами без априорной спецификации.

Что касается того, является ли это «истинной» регрессией, это несколько семантически. В конце концов, кусочная регрессия тоже является регрессией, но также не является гладкой. Как и любая регрессия с категориальным предиктором, как указано в комментариях ниже.

mkt - восстановить монику
источник
7
Кроме того, регрессия только с категориальными признаками также не будет гладкой.
Тим
3
Может ли регрессия с хотя бы одной категориальной характеристикой быть гладкой?
Дейв
4

Это дискретно, но тогда любой вывод в виде числа с плавающей запятой с фиксированным числом битов будет дискретным. Если дерево имеет 100 листьев, то оно может дать 100 разных чисел. Если у вас есть 100 различных деревьев по 100 листьев в каждом, то ваш случайный лес теоретически может иметь 100 ^ 100 различных значений, что может дать 200 (десятичных) цифр точности или ~ 600 битов. Конечно, будет некоторое совпадение, так что вы на самом деле не увидите 100 ^ 100 разных значений. Распределение имеет тенденцию становиться более дискретным, чем больше вы доходите до крайностей; каждое дерево будет иметь некоторый минимальный лист (лист, который дает выходной сигнал, который меньше или равен всем другим листьям), и как только вы получите минимальный лист от каждого дерева, вы не сможете получить еще меньше. Таким образом, будет минимальная общая стоимость леса, и когда вы отклоняетесь от этого значения, вы начнете с того, что все деревья, кроме нескольких, будут на минимальном листе, с небольшими отклонениями от увеличения минимального значения в дискретных скачках. Но снижение надежности в крайних случаях является свойством регрессий в целом, а не только случайных лесов.

Acccumulation
источник
Листья могут хранить любое значение из данных обучения (поэтому при правильных данных обучения 100 деревьев из 100 листьев могут хранить до 10000 различных значений). Но возвращаемое значение является средним значением выбранного листа для каждого дерева. Таким образом, количество битов точности этого значения одинаково, если у вас есть 2 или 100 деревьев.
Даррен Кук
3

Ответ будет зависеть от вашего определения регрессии, см. Определение и определение модели регрессии . Но обычное определение (или часть определения) состоит в том, что регрессия моделирует условное ожидание . И дерево регрессии действительно можно рассматривать как оценку условного ожидания.

В узлах листа вы прогнозируете среднее из выборочных наблюдений, достигающих этого листа, а среднее арифметическое является оценкой ожидания. Паттерн ветвления в дереве представляет обусловленность.

Къетил б Халворсен
источник