Я знаю, что для того, чтобы получить доступ к характеристикам классификатора, мне нужно разделить данные на обучающие / тестовые наборы. Но читая это :
При оценке различных настроек («гиперпараметров») для оценщиков, таких как настройки C, которые должны быть установлены вручную для SVM, все еще существует риск перенастройки на тестовом наборе, поскольку параметры можно настраивать до тех пор, пока оценщик не будет работать оптимально. Таким образом, знания о наборе тестов могут «просочиться» в модель, а метрики оценки больше не сообщают о производительности обобщения. Чтобы решить эту проблему, еще одна часть набора данных может быть выделена в виде так называемого «набора проверки»: обучение продолжается на обучающем наборе, после чего выполняется оценка на наборе проверки и когда эксперимент кажется успешным , окончательная оценка может быть сделана на тестовом наборе.
Я вижу, что введен еще один (третий) набор проверки, что оправдано переоснащением набора тестов во время настройки гиперпараметров.
Проблема в том, что я не могу понять, как может появиться это переоснащение, и поэтому не могу понять обоснованность третьего набора.
источник
Ответы:
Даже если вы тренируете модели исключительно на основе данных обучения, вы оптимизируете гиперпараметры (например, для SVM) на основе набора тестов. Таким образом, ваша оценка производительности может быть оптимистичной, потому что вы, по сути, сообщаете о наилучших результатах. Как уже упоминали некоторые на этом сайте, оптимизация - корень всего зла в статистике .С
Оценки эффективности всегда должны быть сделаны на полностью независимых данных. Если вы оптимизируете какой-либо аспект на основе тестовых данных, тогда ваши тестовые данные больше не являются независимыми, и вам потребуется набор для проверки.
Другой способ справиться с этим - через вложенную перекрестную проверку , состоящую из двух процедур перекрестной проверки, обернутых вокруг друг друга. Внутренняя перекрестная проверка используется при настройке (для оценки производительности заданного набора гиперпараметров, которая оптимизируется), а внешняя перекрестная проверка оценивает эффективность обобщения всего конвейера машинного обучения (т. Е. Оптимизации гиперпараметров + обучение окончательной модели). ).
источник
Я думаю, что проще всего так думать. Существует две вещи, для которых используется перекрестная проверка: настройка гиперпараметров модели / алгоритма и оценка производительности модели / алгоритма.
Рассмотрим первое использование как часть фактического обучения алгоритма. Например, перекрестная проверка для определения силы регуляризации для GLM является частью установления окончательного результата GLM. Такое использование обычно называется внутренней перекрестной проверкой . Поскольку (гипер) параметры все еще устанавливаются, потеря набора настроек не является большой мерой фактической производительности алгоритмов.
Второе использование перекрестной проверки заключается в использовании данных, которые были изъяты из всего процесса, который создал модель, для проверки ее прогностической силы. Этот процесс называется внешней перекрестной проверкой .
Обратите внимание, что внутренняя проверка могла быть частью процесса, который создал модель, поэтому во многих случаях необходима как внутренняя, так и внешняя перекрестная проверка.
источник
При построении модели вы тренируете свои модели на тренировочном образце . Обратите внимание, что вы можете обучать разные модели (т.е. разные техники, такие как SVM, LDA, Random Forest, ... или одну и ту же технику с разными значениями параметров настройки или смесью).
Среди всех различных моделей , которые вы обученными, вы должны выбрать один , и поэтому вы использовать образец проверки , чтобы найти один с наименьшей погрешностью на испытательном образце.
Для этой «окончательной» модели нам все еще нужно оценить ошибку, и поэтому мы используем тестовый образец .
источник
Перекрестная проверка не полностью преодолевает проблему переоснащения при выборе модели, она лишь уменьшает ее. Ошибка перекрестной проверки зависит от набора данных, который вы используете. Чем меньше набор данных, тем выше будет ошибка перекрестной проверки.
Кроме того, если у вас есть высокая степень свободы при выборе модели, существует опасность того, что модель будет работать плохо, так как критерий перекрестной проверки оказывается переобученным.
Таким образом, когда данные делятся на 2 набора, то есть наборы обучения и тестирования, разделение выполняется статически. Таким образом, есть шанс переобучить тренировочный набор. Тем не менее, наборы перекрестной проверки создаются с помощью различных методов , таких как перекрестная проверка по k-кратному критерию, проверка на отсутствие перекрестного контроля (LOOCV) и т. Д., Что помогает избежать точного вознаграждения за подбор за 2 набора. и, таким образом, вероятность переоснащения уменьшается.
Вот некоторые ресурсы, которые помогут вам лучше понять.
Таким образом, перекрестная проверка поможет вам, когда у вас есть больший набор данных, чем меньший.
источник