Предположим, у меня есть гладкая функция типа . У меня есть тренировочный набор и, конечно, я не знаю f, хотя я могу оценить f где угодно.
Могут ли деревья регрессии найти гладкую модель функции (следовательно, незначительное изменение входных данных должно дать лишь незначительное изменение выходных данных)?
Из того, что я прочитал в лекции 10: Деревья регрессии, мне кажется, что деревья регрессии в основном помещают значения функций в контейнеры:
Для деревьев классической регрессии модель в каждой ячейке является просто постоянной оценкой Y.
Как пишут «классика», я думаю, есть вариант, когда клетки делают что-то более интересное?
источник
В классических деревьях регрессии у вас есть одно значение в листе, но в листе вы можете иметь модель линейной регрессии, отметьте этот тикет.
Вы также можете использовать множество деревьев (Random Forest или Gradient Boosting Machines), чтобы иметь непрерывное выходное значение.
источник
Если вы немного расширите вопрос, включив в него общие методы повышения градиента (в отличие от особого случая ускоренных деревьев регрессии), тогда ответ будет положительным. Повышение градиента было успешно использовано в качестве альтернативы для выбора переменных. Хороший пример - пакет mboost . Ключ в том, что класс базовых учащихся, используемых для повышения, состоит из непрерывных моделей для начала. Этот учебник описывает типичные классы базовых учащихся следующим образом:
Обратите внимание, что это особенно упоминает вейвлеты. Деревья и вейвлеты ранее были успешно объединены в вейвлеты на основе деревьев.
источник