Случайный лес (RF) создается ансамблем деревьев решений (DT). Благодаря использованию пакетов каждый DT обучается в отдельном подмножестве данных. Следовательно, есть ли способ реализовать случайный лес в режиме онлайн, добавив больше решений для новых данных?
Например, у нас есть 10K образцов и обучаем 10 DT. Затем мы получаем 1K выборок, и вместо того, чтобы снова тренировать полный RF, мы добавляем новый DT. Прогноз теперь делается по среднему байесовскому значению 10 + 1 DT.
Кроме того, если мы сохраним все предыдущие данные, новые DT могут быть обучены главным образом новым данным, где вероятность выбора выборки взвешивается в зависимости от того, сколько раз уже было выбрано.
источник