Я хотел бы создать случайный лес, используя следующий процесс:
- Построить дерево на случайных выборках данных и объектов, используя прирост информации для определения разбиений
- Завершить листовой узел, если он превышает предопределенную глубину, ИЛИ любое разделение приведет к тому, что число листьев будет меньше, чем предопределенный минимум
- Вместо того, чтобы назначать метку класса для каждого дерева, назначьте пропорцию классов в узле листа
- Прекратите строить деревья после того, как предварительно определенное число было построено
Это нарушает традиционный случайный лесной процесс двумя способами. Во-первых, он использует обрезанные деревья, которые назначают пропорции, а не метки классов. И, во-вторых, критерием остановки является заранее определенное количество деревьев, а не некоторая оценка ошибки вне пакета.
У меня вопрос такой:
Для вышеупомянутого процесса, который выводит N деревьев, могу ли я затем подогнать модель, используя логистическую регрессию с выбором LASSO? У кого-нибудь есть опыт подбора классификатора Random Forest и постобработки с помощью логистики LASSO?
В структуре ISLE упоминается использование LASSO в качестве этапа последующей обработки для проблем регрессии, но не для проблем классификации. Кроме того, я не получаю никаких полезных результатов, когда гуглю "Случайный лесной лассо".
источник
Ответы:
Это звучит как повышение градиентного дерева. Идея повышения состоит в том, чтобы найти лучшую линейную комбинацию из класса моделей. Если мы подгоняем дерево к данным, мы пытаемся найти дерево, которое лучше всего объясняет переменную результата. Если вместо этого мы используем бустинг, мы пытаемся найти лучшую линейную комбинацию деревьев.
Однако, используя повышение, мы немного более эффективны, поскольку у нас нет коллекции случайных деревьев, но мы пытаемся создавать новые деревья, которые работают на примерах, которые мы пока не можем предсказать.
Более подробно об этом я бы предложил прочитать главу 10 «Элементы статистического обучения»: http://statweb.stanford.edu/~tibs/ElemStatLearn/
Хотя это не полный ответ на ваш вопрос, я надеюсь, что это поможет.
источник