Я переосмыслил ответ, который дал на вопрос пару недель назад
Удерживающая перекрестная проверка дает один набор тестов, который можно многократно использовать для демонстрации. Похоже, мы все согласны с тем, что это во многих отношениях является отрицательной чертой, поскольку один протяженный набор может оказаться непредставительным из-за случайности. Более того, вы можете в конечном итоге перенастроить данные теста таким же образом, как и тренировочные данные.
Тем не менее, мне кажется, что статический характер удерживаемой выборки является лучшим приближением к «получению большего количества данных», чем CV-кратное CV, и позволяет избежать проблемы усреднения по сгибам. Однако я не могу придумать какой-либо статистической основы для этого чувства, которое у меня есть. Есть ли какая-то логика в моей интуиции?
Например, что я имею в виду для предстоящего проекта, это сначала использовать удерживающую проверку для построения и тестирования модели, а затем в качестве шага проверки повторно вывести набор удерживаний несколько раз, чтобы показать, что мои оценки ошибки предсказания ( на тестовом наборе) устойчивы к ошибке выборки в тестовом наборе. Это плохая идея по какой-либо причине? Этот вопрос задавался ранее, но так и не получил ответа.
источник