Перекрестная проверка, включая обучение, валидацию и тестирование. Зачем нам нужны три подмножества?

29

У меня есть вопрос, касающийся процесса перекрестной проверки. Я нахожусь в середине курса машинного обучения на Cursera. Одна из тем - о перекрестной проверке. Мне было немного трудно следовать. Я знаю, почему нам нужно CV, потому что мы хотим, чтобы наши модели хорошо работали с будущими (неизвестными) данными, а CV предотвращает переоснащение. Однако сам процесс сбивает с толку.

Я понял, что я разбил данные на 3 подмножества: обучение, проверка и тестирование. Обучать и проверять, чтобы найти оптимальную сложность модели. Что я не понимаю, так это третье подмножество. Я понимаю, что беру ряд функций для модели, обучаю ее и проверяю ее в подмножестве проверки и ищу функцию минимальных затрат при изменении структуры. Когда я нашел его, я тестирую модель на подмножестве тестов. Если я уже нашел функцию минимальной стоимости в подмножестве проверки, зачем мне снова проверять ее в подмножестве проверки ???

Может ли кто-нибудь уточнить это для меня?

Спасибо

Celdor
источник
Вы найдете статью и обсуждение в [1] не относящиеся к вашему вопросу. По памяти упоминаются три подмножества: первое для формулирования модели, второе для оценки ее параметров и третье для проверки ее с помощью прогнозирования. [1] Chatfield, C. Модель неопределенности, интеллектуального анализа данных и статистический вывод (с обсуждением) Журнал Королевского статистического общества. Серия A (Статистика в обществе), 1995, 158, 419-466
Спящий режим
Ура! Тема за этой ссылкой также является хорошим источником для понимания этого :)
Celdor

Ответы:

39
  • Тренировочный набор используется для выбора оптимальных параметров для данной модели. Обратите внимание, что оценка некоторого заданного набора параметров с использованием набора обучения должна дать вам непредвзятую оценку вашей функции стоимости - это акт выбора параметров, которые оптимизируют оценку вашей функции стоимости на основе набора обучения, который смещает оценку, которую они предоставляют , Были выбраны параметры, которые лучше всего работают на тренировочном наборе; следовательно, кажущаяся эффективность этих параметров, оцененная на тренировочном наборе, будет чрезмерно оптимистичной.
  • Обучившись с использованием обучающего набора, проверочный набор используется для выбора лучшей модели. Опять же, обратите внимание, что оценка любой данной модели с использованием набора проверки должна дать вам репрезентативную оценку функции стоимости - это акт выбора модели, которая лучше всего работает на наборе проверки, который смещает оценку, которую они предоставляют. Была выбрана модель, которая лучше всего работает с набором валидации; следовательно, кажущаяся производительность этой модели, оцениваемая по набору валидации, будет чрезмерно оптимистичной.
  • После обучен каждой модели , используя учебный набор, и выбрали лучшую модель с помощью проверки набора, то набор тестов говорит вам , насколько хорошо ваш окончательный выбор модели. Это дает вам объективную оценку фактической производительности, которую вы получите во время выполнения, что важно знать по многим причинам. Вы не можете использовать обучающий набор для этого, потому что параметры смещены к нему. И вы не можете использовать набор проверки для этого, потому что сама модель смещена к ним. Отсюда необходимость в третьем наборе.
похлопывание
источник
Я вижу это сейчас. Спасибо. Я не думал о том, что мне понадобится еще одно подмножество, чтобы найти объективную производительность с точки зрения структуры модели. Ура :) Это очень хорошее объяснение.
Селдор
Значит ли это, что окончательный набор тестов не играет никакой роли ни в оптимизации модели, ни в выборе лучшей модели?
Анмол Сингх Джагги
1
Нет. Фактически его следует использовать только для оценки ожидаемых результатов. Так что, если вам не нравится результат производительности на тестовом наборе, тогда вам действительно следует избегать необходимости настраивать вашу модель для оптимизации результатов теста, поскольку ваша модель будет смещена еще раз.
Ицен де Бур
13

Если я уже нашел функцию минимальной стоимости в подмножестве проверки, зачем мне нужно проверять ее снова в подмножестве проверки

Из-за случайной ошибки: Обычно у вас есть только конечное число случаев.

Оптимизация производительности валидации (внутреннего теста) означает, что вы можете использовать этот внутренний тестовый набор. Внутренний набор тестов способствует оценке окончательной модели и, таким образом, не зависит от модели.

Это означает, что вам нужно иметь другой (внешний) набор тестов, который не зависит от всей процедуры моделирования (включая все процессы предварительной обработки и оптимизации на основе данных или выбора модели), если вы хотите оценить свойства обобщения.

Я рекомендую вам сделать симуляцию и сравнить три различные оценки ошибок, которые вы можете иметь

  • resubstitution: прогнозирование поезда набор
    МЕРЫ Совершенство-о-приступе
  • набор внутренних тестов (в вашей номенклатуре: валидация): качество, которое, по мнению оптимизатора, достигнуто
  • внешний тестовый набор: ошибка обобщения, независимая от обучения модели.

В симуляции вы можете легко сравнить их с правильным, большим, независимо сгенерированным набором тестов. Если установка правильная, внешний тест должен быть беспристрастным (по сравнению с суррогатной моделью, которую он оценивает, а не по «окончательной» модели, построенной на всем наборе данных). Внутренний тест обычно смещен оптимистично, а повторное замещение еще более смещено оптимистично.

В моей области внутренний тест легко недооценил бы ошибку обобщения в 2 - 5 раз (намного больше для агрессивных схем оптимизации).


Примечание: номенклатура множеств не является универсальной. В моей области (аналитическая химия) валидация обычно означает подтверждение эффективности последней процедуры - таким образом, больше того, что делает ваш «тестовый» набор, чем то, что делает ваш «тестовый» набор.

Поэтому я предпочитаю говорить о внутренних и внешних наборах тестов или о наборе тестов оптимизации (= внутреннем наборе тестов), и тогда набор валидации будет означать внешний набор тестов.

cbeleites поддерживает Монику
источник
2

При обучении модели необходимо выбирать мета-параметры для модели (например, параметр регуляризации) или даже выбирать из нескольких моделей. В этом случае подмножество проверки используется для выбора параметра, но подмножество проверки для окончательной оценки прогноза.

Ораз
источник