Я знаю, что выполнение настройки гиперпараметра вне перекрестной проверки может привести к смещенно высоким оценкам внешней достоверности, потому что набор данных, который вы используете для измерения производительности, тот же, который вы использовали для настройки функций.
Мне интересно, насколько это плохо . Я могу понять, как это было бы очень плохо для выбора функции, так как это дает вам огромное количество параметров для настройки. Но что, если вы используете что-то вроде LASSO (который имеет только один параметр, степень регуляризации) или случайный лес без выбора объектов (который может иметь несколько параметров, но ничего более драматичного, чем добавление / удаление шумовых функций)?
Насколько сильно вы можете ожидать от этих сценариев оценки ошибок обучения в этих сценариях?
Буду признателен за любую информацию по этому вопросу - тематические исследования, документы, анекданные и т. Д. Спасибо!
РЕДАКТИРОВАТЬ: Чтобы уточнить, я не говорю об оценке производительности модели на данных обучения (то есть, не использовать перекрестную проверку вообще). Под «настройкой гиперпараметра вне перекрестной проверки» я подразумеваю использование перекрестной проверки только для оценки производительности каждой отдельной модели, но не включая внешний, второй цикл перекрестной проверки, чтобы исправить переобучение в процедуре настройки гиперпараметра (в отличие от переоснащение во время тренировочной процедуры). Смотрите, например, ответ здесь .
Любой сложный алгоритм обучения, такой как SVM, нейронные сети, случайный лес, ... может достичь 100% точности обучения, если вы позволите им (например, через слабую / без регуляризации), в результате, с абсолютно ужасной производительностью обобщения.
Короче говоря, вы можете легко получить идеальный классификатор в своем тренировочном наборе, который ничему не научился на независимом тестовом наборе. Вот как это плохо.
источник