Я использую случайный лес на многомерных сгруппированных данных (50 числовых входных переменных), которые имеют иерархическую структуру. Данные были собраны с 6 повторениями в 30 положениях 70 различных объектов, что привело к 12600 точкам данных, которые не являются независимыми.
Кажется, что случайный лес перегружает данные, так как ошибка oob намного меньше ошибки, которую мы получаем, когда пропускаем данные из одного объекта во время обучения, а затем прогнозируем результат опущенного объекта с обученным случайным лесом. Кроме того, я коррелировал остатки.
Я думаю, что переоснащение вызвано тем, что случайный лес ожидает независимых данных. Можно ли рассказать случайному лесу об иерархической структуре данных? Или есть другой мощный метод ансамбля или сжатия, который может обрабатывать многомерные сгруппированные данные с сильной структурой взаимодействия?
Любой намек, как я могу сделать лучше?
источник
Ответы:
Очень поздно на вечеринку, но я думаю, что это может быть связано с тем, что я сделал несколько лет назад. Эта работа была опубликована здесь:
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379
и о работе с переменной корреляцией в ансамбле деревьев решений. Вы должны взглянуть на библиографию, которая указывает на многие предложения по решению этого типа проблем (что является распространенным в «генетической» области).
Исходный код доступен здесь (но больше не поддерживается).
источник
Перенастройка случайного леса может быть вызвана разными причинами, и это сильно зависит от параметров RF. Из вашего поста не ясно, как вы настроили свой RF.
Вот несколько советов, которые могут помочь:
Увеличить количество деревьев
Настройте максимальную глубину деревьев. Этот параметр сильно зависит от проблемы. Использование меньших деревьев может помочь с проблемой переоснащения.
источник