Случайный лес представляет собой совокупность деревьев решений , сформированных случайным образом выбирая только определенные функции для построения каждого дерева с (а иногда и расфасовке тренировочную данные). По-видимому, они хорошо учатся и обобщают. Кто-нибудь делал выборку MCMC пространства дерева решений или сравнивал их со случайными лесами? Я знаю, что в вычислительном отношении может быть дороже запустить MCMC и сохранить все выбранные деревья, но меня интересуют теоретические особенности этой модели, а не вычислительные затраты. Я имею в виду что-то вроде этого:
- Построить случайное дерево решений (вероятно, это будет ужасно)
- Вычислите вероятность дерева с помощью чего-то вроде или, возможно, добавьте термин .
- Выберите случайный шаг, чтобы изменить дерево, и выберите в зависимости от вероятности .
- Каждые N шагов сохраняем копию текущего дерева
- Вернитесь к 3 для некоторых больших N * M раз
- Используйте коллекцию M сохраненных деревьев, чтобы сделать прогноз
Даст ли это производительность, аналогичную случайным лесам? Обратите внимание, что здесь мы не выбрасываем хорошие данные или функции на любом этапе, в отличие от случайных лесов.
источник
Ответы:
Это было сделано около 13 лет назад Чепменом, Джорджем и МакКаллохом (1998, JASA) . Конечно, была огромная литература по деревьям байесовской регрессии, которая выросла из этой идеи.
источник
К сожалению, Chipman et al. в их байесовском подходе CART извлекают только наиболее вероятное дерево. Они никогда не пытались усреднить по деревьям и сравнивать производительность со случайным лесом и экстра-деревьями.
Я только что прочитал статью BART от Chipman. Если я правильно понимаю, это байесовское усреднение K выборок по коллекции m деревьев. Это интересно во многих отношениях и, кажется, работает действительно хорошо. Когда m = '1', это простое байесовское усреднение K образцов 1 дерева, приходящих сзади. Тем не менее, по этому конкретному аспекту не было сделано много испытаний. И мне все равно было бы интересно узнать, как случайный лес или экстра-деревья сравниваются с истинной байесовской моделью.
источник