Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного соответствия?
источник
Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного соответствия?
Не за что. Тем не менее, перекрестная проверка помогает вам оценить, насколько ваш метод переопределяется.
Например, если R-квадрат ваших тренировочных данных для регрессии равен 0,50, а R-квадрат для перекрестной проверки равен 0,48, у вас практически нет переобучения и вы чувствуете себя хорошо. С другой стороны, если кросс-валидированный R-квадрат здесь равен всего 0,3, то значительная часть производительности вашей модели обусловлена переоснащением, а не истинными отношениями. В таком случае вы можете либо принять более низкую производительность, либо попробовать разные стратегии моделирования с меньшим переоснащением.
Перекрестная проверка - это хороший, но не идеальный метод минимизации избыточного соответствия.
Перекрестная проверка не будет хорошо работать с внешними данными, если данные, которые у вас есть, не соответствуют данным, которые вы будете пытаться предсказать!
Вот две конкретные ситуации, когда перекрестная проверка имеет недостатки:
источник
Также я могу порекомендовать эти видео из Стэнфордского курса по статистическому обучению. Эти видео довольно подробно рассказывают о том, как эффективно использовать перекрестную оценку.
Перекрестная проверка и начальная загрузка (14:01)
K-кратная перекрестная проверка (13:33)
Перекрестная проверка: правильные и неправильные пути (10:07)
источник