Случайные леса используются для регрессии. Однако, насколько я понимаю, они назначают среднее целевое значение на каждом листе. Так как в каждом дереве есть только ограниченные листья, есть только определенные значения, которые цель может получить из нашей регрессионной модели. Таким образом, разве это не просто «дискретная» регрессия (например, ступенчатая функция) и не похожая на «непрерывная» линейная регрессия?
Я правильно понимаю? Если да, то какое преимущество дает случайный лес в регрессии?
regression
random-forest
cart
user110565
источник
источник
Ответы:
Это правильно - случайные леса дискретизируют непрерывные переменные, поскольку они основаны на деревьях решений, которые функционируют посредством рекурсивного двоичного разделения. Но с достаточным количеством данных и достаточным разбиением ступенчатая функция с множеством небольших шагов может приближаться к гладкой функции. Так что это не должно быть проблемой. Если вы действительно хотите получить плавный ответ от одного предиктора, вы рассчитываете частичное влияние какой-либо конкретной переменной и подбираете для нее гладкую функцию (это не влияет на саму модель, которая будет сохранять этот пошаговый символ).
Случайные леса предлагают довольно много преимуществ по сравнению со стандартными методами регрессии для некоторых приложений. Чтобы упомянуть только три:
Что касается того, является ли это «истинной» регрессией, это несколько семантически. В конце концов, кусочная регрессия тоже является регрессией, но также не является гладкой. Как и любая регрессия с категориальным предиктором, как указано в комментариях ниже.
источник
Это дискретно, но тогда любой вывод в виде числа с плавающей запятой с фиксированным числом битов будет дискретным. Если дерево имеет 100 листьев, то оно может дать 100 разных чисел. Если у вас есть 100 различных деревьев по 100 листьев в каждом, то ваш случайный лес теоретически может иметь 100 ^ 100 различных значений, что может дать 200 (десятичных) цифр точности или ~ 600 битов. Конечно, будет некоторое совпадение, так что вы на самом деле не увидите 100 ^ 100 разных значений. Распределение имеет тенденцию становиться более дискретным, чем больше вы доходите до крайностей; каждое дерево будет иметь некоторый минимальный лист (лист, который дает выходной сигнал, который меньше или равен всем другим листьям), и как только вы получите минимальный лист от каждого дерева, вы не сможете получить еще меньше. Таким образом, будет минимальная общая стоимость леса, и когда вы отклоняетесь от этого значения, вы начнете с того, что все деревья, кроме нескольких, будут на минимальном листе, с небольшими отклонениями от увеличения минимального значения в дискретных скачках. Но снижение надежности в крайних случаях является свойством регрессий в целом, а не только случайных лесов.
источник
Ответ будет зависеть от вашего определения регрессии, см. Определение и определение модели регрессии . Но обычное определение (или часть определения) состоит в том, что регрессия моделирует условное ожидание . И дерево регрессии действительно можно рассматривать как оценку условного ожидания.
В узлах листа вы прогнозируете среднее из выборочных наблюдений, достигающих этого листа, а среднее арифметическое является оценкой ожидания. Паттерн ветвления в дереве представляет обусловленность.
источник