Достаточно ли перекрестной проверки для предотвращения переоснащения?

17

Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного соответствия?

mamatv
источник

Ответы:

20

Не за что. Тем не менее, перекрестная проверка помогает вам оценить, насколько ваш метод переопределяется.

Например, если R-квадрат ваших тренировочных данных для регрессии равен 0,50, а R-квадрат для перекрестной проверки равен 0,48, у вас практически нет переобучения и вы чувствуете себя хорошо. С другой стороны, если кросс-валидированный R-квадрат здесь равен всего 0,3, то значительная часть производительности вашей модели обусловлена ​​переоснащением, а не истинными отношениями. В таком случае вы можете либо принять более низкую производительность, либо попробовать разные стратегии моделирования с меньшим переоснащением.

Майкл М
источник
8
Я думаю, что этот ответ является правильным по духу, но я не согласен с характеристикой чрезмерного соответствия во втором абзаце. Я не верю, что перетекание происходит, когда ошибка поезда - ошибка теста> некоторая граница, вместо этого я бы охарактеризовал перегонку как ситуацию, когда увеличение сложности модели слегка приводит к увеличению ошибки удержания. Требование, чтобы ваши ошибки в поездах и тестах были сопоставимы, часто приводят к очень плохим моделям.
Мэтью Друри
7

Перекрестная проверка - это хороший, но не идеальный метод минимизации избыточного соответствия.

Перекрестная проверка не будет хорошо работать с внешними данными, если данные, которые у вас есть, не соответствуют данным, которые вы будете пытаться предсказать!

Вот две конкретные ситуации, когда перекрестная проверка имеет недостатки:

  • Вы используете прошлое, чтобы предсказать будущее: часто предполагается, что прошлые наблюдения будут происходить из той же совокупности, что и в будущих наблюдениях. Перекрестная проверка на наборе данных из прошлого не защитит от этого.
  • В данных, которые вы собираете, присутствует систематическая ошибка: данные, которые вы наблюдаете, систематически отличаются от данных, которые вы не наблюдали. Например, мы знаем о предвзятости респондентов у тех, кто решил пройти опрос.
TrynnaDoStat
источник
3
То, что ваш набор данных не является плохим представителем истинного населения, обычно считается отдельной проблемой чрезмерного соответствия. Конечно, правильно, что перекрестная проверка не решает их.
Клифф AB
2

Также я могу порекомендовать эти видео из Стэнфордского курса по статистическому обучению. Эти видео довольно подробно рассказывают о том, как эффективно использовать перекрестную оценку.

Перекрестная проверка и начальная загрузка (14:01)

K-кратная перекрестная проверка (13:33)

Перекрестная проверка: правильные и неправильные пути (10:07)

Мортен Бунес Густавсен
источник