Как бы вы описали перекрестную проверку для кого-либо, не имеющего опыта анализа данных?
cross-validation
Шейн
источник
источник
Ответы:
Рассмотрим следующую ситуацию:
В приведенном выше примере у меня есть два параметра (т. Е. Время отправления из дома и маршрут до станции), и мне нужно выбрать эти параметры так, чтобы я достиг станции к 8.15.
Чтобы решить вышеупомянутую проблему, я могу опробовать различные наборы «параметров» (т. Е. Различную комбинацию времени отправления и маршрута) по понедельникам, средам и пятницам, чтобы увидеть, какая комбинация является «лучшей». Идея состоит в том, что, как только я определил лучшую комбинацию, я могу использовать ее каждый день, чтобы достичь своей цели.
Проблема переоснащения
Проблема с вышеупомянутым подходом состоит в том, что я могу переодеться, что по существу означает, что лучшая комбинация, которую я идентифицирую, может в некотором смысле быть уникальной для понедельника, среды и пятницы, и эта комбинация может не работать для вт и чт Перегрузка может произойти, если в моем поиске лучшей комбинации времени и маршрутов я использую какой-то аспект дорожной ситуации на Пн / Ср / Пт, который не встречается на Вт и Чт.
Одно из решений для переоснащения: перекрестная проверка
Перекрестная проверка является одним из решений для переоснащения. Идея состоит в том, что, как только мы определили нашу лучшую комбинацию параметров (в нашем случае время и маршрут), мы тестируем производительность этого набора параметров в другом контексте. Поэтому мы можем захотеть протестировать и вт и чт, чтобы убедиться, что наш выбор работает и в те дни.
Расширяя аналогию со статистикой
В статистике у нас похожая проблема. Мы часто используем ограниченный набор данных для оценки неизвестных параметров, которые мы не знаем. Если мы переопределим, тогда наши оценки параметров будут работать очень хорошо для существующих данных, но не так хорошо, когда мы используем их в другом контексте. Таким образом, перекрестная проверка помогает избежать вышеуказанной проблемы переоснащения, доказывая нам некоторую уверенность в том, что оценки параметров не являются уникальными для данных, которые мы использовали для их оценки.
Конечно, перекрестная проверка не идеальна. Возвращаясь к нашему примеру с метрополитеном, может случиться так, что даже после перекрестной проверки наш лучший выбор параметров может не сработать в течение одного месяца из-за различных проблем (например, строительство, изменение объема трафика во времени и т. Д.).
источник
Я думаю, что это лучше всего описать следующей картинкой (в данном случае показана перекрестная проверка в k-кратном размере):
Перекрестная проверка - это метод, используемый для защиты от переобучения в прогностической модели, особенно в случае, когда объем данных может быть ограничен. При перекрестной проверке вы делаете фиксированное количество сгибов (или секций) данных, запускаете анализ для каждого сгиба и затем усредняете общую оценку ошибки.
источник
«Старайтесь не изучать данные тренировок наизусть, убедившись, что обученная модель хорошо работает на независимых данных».
источник
Допустим, вы исследуете какой-то процесс; Вы собрали некоторые данные, описывающие это, и создали модель (статистическую или ML, не имеет значения). Но теперь, как судить, если это нормально? Вероятно, он подозрительно хорошо подходит для данных, на которых он построен, поэтому никто не поверит, что ваша модель настолько великолепна, что вы думаете.
Первая идея состоит в том, чтобы отделить подмножество ваших данных и использовать его для проверки построения модели вашим методом на остальных данных. Теперь результат определенно свободен от переоснащения, тем не менее (особенно для небольших наборов) вы могли (не) быть удачливыми и рисовать (меньше) более простые случаи для тестирования, делая его (сложнее) легче предсказать ... Также ваша точность / Оценка ошибки / достоверности бесполезна для сравнения / оптимизации модели, поскольку вы, вероятно, ничего не знаете о ее распределении.
В случае сомнений используйте грубую силу, поэтому просто скопируйте вышеописанный процесс, соберите несколько оценок точности / ошибки / достоверности и усредните их - и вы получите перекрестную проверку. Среди более точных оценок вы также получите гистограмму, так что вы сможете приблизить распределение или выполнить некоторые непараметрические тесты.
И это все; детали расщепления тестового поезда являются причиной различных типов CV, но, за исключением редких случаев и небольших различий в прочности, они довольно эквивалентны. Действительно, это огромное преимущество, потому что делает его пуленепробиваемым и справедливым методом; это очень трудно обмануть.
источник
Поскольку у вас нет доступа к тестовым данным на момент обучения, и вы хотите, чтобы ваша модель хорошо работала с невидимыми тестовыми данными, вы «притворяетесь», что имеете доступ к некоторым тестовым данным, многократно отбирая небольшую часть ваши тренировочные данные, удерживайте этот набор во время обучения модели, а затем рассматривайте удержанный набор как прокси для тестовых данных (и выбирайте параметры модели, которые дают наилучшую производительность на удерживаемых данных). Вы надеетесь, что путем случайной выборки различных подмножеств из обучающих данных вы можете сделать их похожими на тестовые данные (в смысле среднего поведения), и, следовательно, изученные параметры модели также будут хорошими для тестовых данных (т. Е. Вашей модели). хорошо обобщает для невидимых данных).
источник