Повышение градиентного дерева, предложенное Фридманом, использует деревья решений в качестве базовых учеников. Мне интересно, должны ли мы сделать базовое дерево решений настолько сложным, насколько это возможно (полностью выросло) или проще? Есть ли объяснение выбора?
Случайный лес - это еще один метод ансамбля, использующий деревья решений в качестве базовых учащихся. Исходя из моего понимания, мы обычно используем почти полностью выросшие деревья решений в каждой итерации. Я прав?
Ответы:
Обратите внимание, что в отличие от Boosting (который является последовательным), RF выращивает деревья параллельно . Таким образом
iterative
, используемый вами термин неуместен.источник
Этот вопрос рассматривается в этом очень хорошем посте. Пожалуйста, посмотрите на него и ссылки в нем. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/
Обратите внимание, что в статье говорится о калибровке, и ссылки на другой (хороший) пост в блоге об этом. Тем не менее, я обнаружил, что статья « Получение калиброванных вероятностей от повышения» дает вам лучшее понимание того, что такое калибровка в контексте повышенных классификаторов и каковы стандартные методы ее выполнения.
И, наконец, отсутствует один аспект (немного более теоретический). И RF, и GBM являются методами ансамбля, что означает, что вы строите классификатор из большого количества меньших классификаторов. Теперь принципиальное отличие заключается в используемом методе:
источник