Могут ли деревья регрессии предсказывать непрерывно?

11

Предположим, у меня есть гладкая функция типа е(Икс,Y)знак равноИкс2+Y2 . У меня есть тренировочный набор и, конечно, я не знаю f, хотя я могу оценить f где угодно.D{((Икс,Y),е(Икс,Y))|(Икс,Y)р2}ее

Могут ли деревья регрессии найти гладкую модель функции (следовательно, незначительное изменение входных данных должно дать лишь незначительное изменение выходных данных)?

Из того, что я прочитал в лекции 10: Деревья регрессии, мне кажется, что деревья регрессии в основном помещают значения функций в контейнеры:

Для деревьев классической регрессии модель в каждой ячейке является просто постоянной оценкой Y.

Как пишут «классика», я думаю, есть вариант, когда клетки делают что-то более интересное?

Мартин Тома
источник

Ответы:

2

Деревья регрессии, в частности, повышение градиента (по существу, много деревьев), имеют тенденцию очень хорошо работать при непрерывных предсказаниях, часто превосходя модели, которые действительно непрерывны, как линейная регрессия, когда. Это особенно верно, когда есть переменные взаимодействия и когда у вас достаточно большой набор данных (более 10000 записей), чтобы переобучение было менее вероятным. Если вашей основной целью является просто предсказательная сила, то не имеет значения, является ли модель непрерывной на 100% или псевдонепрерывной. Если сделать ваши деревья регрессии более непрерывными за счет предсказательной силы выборки, то вы можете просто увеличить глубину дерева или добавить больше деревьев.

Райан Зотти
источник
1
Согласен. Мои повышенные деревья почти всегда превосходят очень тщательно разработанные и оптимизированные GLM. Конечно, вы теряете интерпретируемость, когда получаете предсказательную силу.
prooffreader
0

В классических деревьях регрессии у вас есть одно значение в листе, но в листе вы можете иметь модель линейной регрессии, отметьте этот тикет.

Вы также можете использовать множество деревьев (Random Forest или Gradient Boosting Machines), чтобы иметь непрерывное выходное значение.

pplonski
источник
0

Если вы немного расширите вопрос, включив в него общие методы повышения градиента (в отличие от особого случая ускоренных деревьев регрессии), тогда ответ будет положительным. Повышение градиента было успешно использовано в качестве альтернативы для выбора переменных. Хороший пример - пакет mboost . Ключ в том, что класс базовых учащихся, используемых для повышения, состоит из непрерывных моделей для начала. Этот учебник описывает типичные классы базовых учащихся следующим образом:

Обычно используемые модели базового обучения можно разделить на три категории: линейные модели, гладкие модели и деревья решений. Существует также ряд других моделей, таких как марковские случайные поля (Dietterich et al., 2004) или вейвлеты (Viola and Jones, 2001), но их применение возникает для относительно конкретных практических задач.

Обратите внимание, что это особенно упоминает вейвлеты. Деревья и вейвлеты ранее были успешно объединены в вейвлеты на основе деревьев.

user3605620
источник
Каковы постоянные базовые ученики в повышении градиента? Если ответ - деревья решений, не могли бы вы объяснить, как они непрерывны?
Мартин Тома
Я обновил свой ответ. Ключ должен использовать непрерывные древовидные предикторы.
user3605620