Вариант 1 является правильным. Вы можете добавить набор данных проверки для обновления параметров вашей модели.
Это ответ. Теперь давайте обсудим это. То, что вы сделали, было вашим вариантом 1. выше, яснее, если вы делали перекрестную проверку начальной загрузки k-кратным способом (и вы должны были это сделать - это не ясно из вашего вопроса).
При пятикратной перекрестной проверке вы делите имеющиеся у вас данные на 5 случайных наборов одинакового размера. Давайте назовем их A, B, C, D и E. Затем вы изучите параметры вашей модели (самой модели) в 4 наборах, скажем, A, B, C и D, и протестируете ее или подтвердите в пятая модель Э. (это вы сделали). Но затем вы выбираете другой набор в качестве теста / проверки (скажем, D) и учитесь, используя другие 4 (A, B, C и E). Проверьте это на D, повторите.
Ошибка вашей прогностической модели - это средняя ошибка 5 тестов, и вы немного понимаете, как прогностическая ошибка зависит от комплектов обучения и тестирования. В лучшем случае все 5 показателей ошибки похожи, и вы можете быть уверены, что ваша модель будет работать на этом уровне в будущем.
А какая модель ?? Для каждого набора обучающих наборов у вас будет свой параметр для модели. При обучении с A, B, C, D генерируется набор параметров P1, при обучении с A, B, C, E набор параметров P2 до P5. Ни одна из них не ваша модель.
То, что вы тестировали, - это ожидаемая ошибка процедуры построения моделей , процедура, которой вы следовали, когда набор обучения был A, B, C, D и когда это был A, B, C, E и так далее. Это процедура, которая генерирует модель с этой ожидаемой ошибкой.
Так, какова окончательная модель? Это применение процедуры ко всем имеющимся у вас данным (A, B, C, D и E). Новая модель с набором параметров P0, которую вы никогда не генерировали раньше, у вас нет данных для ее проверки (поскольку вы «использовали» все данные при определении параметров P0), и все же у вас есть разумные ожидания, что она будет работать в будущем. данные, как и другие модели (P1, P2 ...), построенные с использованием той же процедуры.
Что если вы не выполняли перекрестную проверку или начальную загрузку (начальную загрузку объяснить сложнее - я оставлю это вне обсуждения)? Что делать, если вы выполнили только одно разделение обучения / проверки и одну меру ошибки. Тогда аргумент 2. может быть несколько верным, но у вас есть большая проблема - у вас есть только один показатель ошибки модели, и вы не знаете, насколько эта ошибка зависит от данных, использованных для ее проверки. Возможно, к счастью, ваш 20-процентный набор проверки был особенно легко предсказать. Не сделав многократных измерений ошибки, будет очень рискованно предполагать, что ожидаемая частота ошибок вашей прогнозной модели останется неизменной для будущих данных.
Какой «больший риск»? Предполагать, что эта ошибка останется в основном той же самой для будущих данных, или предположить, что добавление дополнительных данных для изучения вашей модели каким-то образом «испортит» модель и увеличит частоту ее ошибок в будущем? Я не знаю, как на это ответить, но я бы с подозрением отнесся к моделям, которые ухудшаются с большим количеством данных ....