Он-лайн случайные леса, добавив больше деревьев решений

Случайный лес (RF) создается ансамблем деревьев решений (DT). Благодаря использованию пакетов каждый DT обучается в отдельном подмножестве данных. Следовательно, есть ли способ реализовать случайный лес в режиме онлайн, добавив больше решений для новых данных?

Например, у нас есть 10K образцов и обучаем 10 DT. Затем мы получаем 1K выборок, и вместо того, чтобы снова тренировать полный RF, мы добавляем новый DT. Прогноз теперь делается по среднему байесовскому значению 10 + 1 DT.

Кроме того, если мы сохраним все предыдущие данные, новые DT могут быть обучены главным образом новым данным, где вероятность выбора выборки взвешивается в зависимости от того, сколько раз уже было выбрано.

random-forest online-learning tashuhka
источник

Ответы:

Недавно появилась статья на эту тему (« Случайные случайные леса» ), пришедшая из компьютерного зрения. Вот реализация и презентация: онлайн случайные леса за 10 минут

Эмре
источник

Реализация, о которой вы упомянули, следует стратегии выращивания деревьев, например, лесам Мондрии ( arxiv.org/abs/1406.2673 ). Следовательно, количество деревьев постоянно, а количество расщеплений увеличивается. Мой вопрос сосредоточен на увеличении количества деревьев для новых образцов, при этом оставаясь нетронутыми ранее обученные деревья.

Ташухка

Как это ? Разве вы не хотите сбрасывать деревья в случае необходимости?

Эмре

Спасибо. Это больше похоже на то, что я ищу. В этом случае используйте RF для выбора функции изменяющихся во времени сигналов. Тем не менее, конкретная реализация и валидность метода довольно неясны, вы знаете, если они что-то опубликовали (Google не помог)?

Ташухка

Вычисление важности объектов в потоках данных с помощью дрейфа понятий с использованием случайного онлайн-леса

Эмре,

Спасибо за ссылку! Я вижу, что они фактически обновляют все предыдущие деревья, используя стратегию выращивания деревьев, и я заинтересован в создании новых DT с новыми данными, не затрагивая старые деревья.

Ташухка