Я читал о проверке K-Fold, и я хочу убедиться, что я понимаю, как это работает.
Я знаю, что для метода удержания данные делятся на три набора, и набор тестов используется только в самом конце для оценки производительности модели, в то время как набор проверки используется для настройки гиперпараметров и т. Д.
В методе k-сгибаем ли мы до сих пор сохраняем тестовый набор для самого конца и используем только оставшиеся данные для обучения и настройки гиперпараметра, т.е. мы разбиваем оставшиеся данные на k сгибов, а затем используем среднюю точность после обучения с каждым сгибом (или какой-либо метрикой производительности, которую мы выбираем для настройки наших гиперпараметров)? Или мы вообще не используем отдельный набор тестов, а просто разбиваем весь набор данных на k сгибов (если это так, я предполагаю, что мы просто считаем среднюю точность по k сгибам нашей конечной точностью)?
источник
Ответы:
Да. Как правило, набор тестов никогда не должен использоваться для изменения вашей модели (например, ее гиперпараметров).
Тем не менее, перекрестная проверка может иногда использоваться для целей, отличных от настройки гиперпараметра, например, для определения того, в какой степени разделение поезда / теста влияет на результаты.
источник
Вообще-то да. В основном, мы говорим о компромиссе смещения. Если вы используете данные для построения своей модели (данные обучения и проверки), итерируете по разным гиперпараметрам и пытаетесь максимизировать усредненную метрику производительности, ваша модель может быть не такой хорошей, как указано.
Однако, особенно в небольших наборах данных, дополнительное разделение может привести к еще меньшему обучающему набору и привести к плохой модели.
источник
В идеале, валидация (для выбора модели) и финальный тест не должны смешиваться. Однако, если ваше значение k высокое или оно не учитывается, использование результатов теста для выбора модели менее опасно. В этом сценарии, если вы пишете академическую статью, не делайте этого (если вы не удосужились объяснить) - это означает, что у вас всегда есть отдельный набор тестов. Если вы строите практический проект, это нормально.
источник