Требуется ли перекрестная проверка для моделирования со случайными лесами?

10

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во время обучения модели, является достаточным показателем эффективности тестового набора. Даже Тревор Хасти в своих сравнительно недавних беседах говорит, что «Случайные леса обеспечивают бесплатную перекрестную проверку». Интуитивно, это имеет смысл для меня, если тренироваться и пытаться улучшить модель на основе RF на одном наборе данных.

Каково ваше мнение по этому поводу?

нейрон
источник
3
это не затрагивает основную часть вопроса - но вы все равно, вероятно, захотите перекрестную проверку вторичных параметров (таких как глубина деревьев и т. д.)
Wouter
Вы можете использовать RF или сравнить его с другими подходами с точки зрения производительности на обучающем наборе, или использовать независимый / подмножество данных для проверки производительности. Это вопрос вашей гипотезы: пытаетесь ли вы обобщить результаты для большей популяции или просто классифицировать имеющиеся данные, а не собственность РФ.
Катя

Ответы:

3

Ошибка OOB рассчитывается для каждого наблюдения с использованием только деревьев, которые не имели этого конкретного наблюдения в своей выборке начальной загрузки; увидеть этот связанный вопрос . Это очень приблизительно эквивалентно двукратной перекрестной проверке, так как вероятность того, что конкретное наблюдение находится в конкретной выборке начальной загрузки, составляет .1-(1-1N)N1-е-10.6

Как указывает @Wouter, вы, вероятно, захотите выполнить перекрестную проверку для настройки параметров, но в качестве оценки ошибки набора тестов ошибка OOB должна быть в порядке.

Эйнар
источник