Как узнать, что модель начала переоснащаться?

12

Я надеюсь, что следующие выдержки дадут представление о том, каким будет мой вопрос. Это из http://neuralnetworksanddeeplearning.com/chap3.html

Затем обучение постепенно замедляется. Наконец, примерно в эпоху 280 точность классификации почти перестает улучшаться. Более поздние эпохи просто видят небольшие стохастические флуктуации вблизи значения точности в эпоху 280. Сравните это с более ранним графиком, где стоимость, связанная с данными обучения, продолжает плавно снижаться. Если мы просто посмотрим на эту стоимость, похоже, что наша модель все еще становится «лучше». Но результаты теста показывают, что улучшение - иллюзия. Точно так же, как модель, которой не понравился Ферми, то, что наша сеть узнает после эпохи 280, больше не обобщает данные испытаний. И поэтому это не полезно учиться. Мы говорим, что сеть переоснащается или перетренируется после эпохи 280.

Мы обучаем нейронную сеть, и стоимость (по данным обучения) снижается до эпохи 400, но точность классификации становится статичной (за исключением нескольких стохастических колебаний) после эпохи 280, поэтому мы приходим к выводу, что модель перегружается данными обучения после эпохи 280.

Мы видим, что стоимость данных испытаний улучшается примерно до 15-й эпохи, но после этого она фактически начинает ухудшаться, хотя стоимость данных обучения продолжает улучшаться. Это еще один признак того, что наша модель переоснащается. Однако возникает загадка: следует ли рассматривать эпоху 15 или эпоху 280 как точку, в которой переоснащение начинает доминировать в обучении? С практической точки зрения, что нас действительно волнует, так это повышение точности классификации данных испытаний, в то время как стоимость данных испытаний составляет не более, чем показатель точности классификации. И поэтому имеет смысл рассматривать эпоху 280 как точку, за которой переобучение доминирует в обучении в нашей нейронной сети.

В отличие от точности классификации данных испытаний по сравнению с затратами на обучение, которые мы ранее выполняли, мы теперь сопоставляем стоимость данных испытаний с затратами на обучение.

Затем в книге объясняется, почему 280 - это правильная эпоха, когда началось переоснащение. Вот с чем у меня проблема. Я не могу обернуть голову вокруг этого.

Мы просим модель минимизировать стоимость, и, следовательно, стоимость является метрикой, которую она использует как показатель собственной силы для правильной классификации. Если мы рассматриваем 280 как правильную эпоху, когда началось переоснащение, разве мы не создали необъективную модель, которая хотя и является лучшим классификатором для конкретных тестовых данных, но тем не менее принимает решения с низкой достоверностью и, следовательно, более склонна отклоняться? из результатов, показанных на данных испытаний?

Нитин Сивах
источник
Модель не знает о тестовом наборе. Он выступает в качестве прокси для невидимых данных. Поэтому, если он исходит из репрезентативного дистрибутива, вы можете использовать его, чтобы определить, когда происходит переобучение. Если вы хотите, вы можете создать еще один набор и посмотреть, выполняется ли это предположение.
Эмре
Что вы подразумеваете под «принятием решений с низким уровнем доверия»?
Кузнечик
@Grasshopper позвольте нам сказать, что модель пытается предсказать один из 4 классов {A, B, C, D}. Метки тестовых данных (по порядку): (A, B, C, D). Теперь в одном случае модель выбрасывает вероятности как (я буду обозначать прогнозы вместе) ((0,28, 0,24, 0,24, 0,24) (A), (0,24,0.28,0.24,0.24) (B), (0,24,0.24, 0,28,0,24) (C), (0,24,0.24,0.24,0.28) (D)), а в другом модель бросает ((1,0,0,0) (A), (0,1,0,0) (B), (0,24,0,26,0,25,0,25) (B), (0,0,0,1) (D)). То, что я имею в виду под низкой уверенностью, является первым примером обратите внимание, что точность классификации в первом случае составляет 100%, но стоимость выше
Нитин Сивах
@ Grasshopper В двух словах. Первый экземпляр модели создается после 280 эпох (см. Заданный вопрос), а второй экземпляр модели создается после 15 эпох. Теперь в книге говорится, что эпоха 280 началась как переоснащение. Мне трудно это проглотить. любая помощь или мысли, которые вы можете предоставить, очень ценятся.
Нитин Сивах

Ответы:

6

Допустим, мы хотим предсказать, получит ли студент собеседование на основе ее резюме.

Теперь предположим, что мы обучаем модель из набора данных из 10 000 резюме и их результатов.

Затем мы опробуем модель на исходном наборе данных, и она прогнозирует результаты с точностью 99%… вау!

Но сейчас приходят плохие новости.

Когда мы запускаем модель на новом («невидимом») наборе данных резюме, мы получаем точность только 50%… э-э-э!

Наша модель не очень хорошо обобщает наши данные обучения для невидимых данных.

Это известно как переоснащение, и это общая проблема в машинном обучении и науке о данных.

Переобучения V / S Underfitting

Мы можем лучше понять переоснащение, взглянув на противоположную проблему - недостаточно.

Недостаточное оснащение возникает, когда модель слишком проста - информируется слишком малым количеством функций или слишком много упорядочена - что делает ее негибкой при изучении набора данных.

Простые учащиеся, как правило, имеют меньшую дисперсию в своих предсказаниях, но больше склонны к неправильным результатам (см. Компромисс между отклонениями).

С другой стороны, сложные ученики имеют тенденцию иметь больше различий в своих предсказаниях.

Как смещение, так и дисперсия являются формами ошибки прогнозирования в машинном обучении.

Как правило, мы можем уменьшить ошибку от смещения, но в результате можем увеличить ошибку от отклонения или наоборот.

Этот компромисс между слишком простым (с большим смещением) и слишком сложным (с высокой дисперсией) является ключевым понятием в статистике и машинном обучении и влияет на все контролируемые алгоритмы обучения.

дилип балинени
источник
2

То, что я узнал трудный путь, чтобы построить кривые обучения, я знаю, что это не так весело, как писать машинный код обучения в-себе, но имеет фундаментальное значение для визуально понять, что происходит.

Правило определения большого пальца, что переобучение происходит, когда ваша точность поезда продолжает улучшать, а ваша точность проверки прекращает улучшение (или даже начинает получать хуже).

Простейшее решение, чтобы избежать чрезмерного фитинг рано остановки (стоп обучение, как только вещи выглядят плохо), конечно, является самым простым решением приходится платить: это не самое лучшее решение. Регуляризация и отсев хорошие инструменты для борьбы с переобучение, но это совсем другое дело :)

Надеюсь, поможет

Хуан Антонио Гомес Мориано
источник
2

Как указывает источник, который вы цитируете, «стоимость данных испытаний - не более, чем показатель точности классификации». Вы можете спросить, почему мы должны использовать прокси, почему бы не использовать точность напрямую? Ответ заключается в том, что вам нужно минимизировать функцию стоимости по отношению к весам и смещениям. Поэтому он должен быть дифференцируемой функцией от весов и уклонов. Точность не является дифференцируемой функцией и поэтому не может использоваться напрямую. Но поскольку в конечном итоге вы заботитесь о точности, как вы сами показали выше (... обратите внимание, что точность классификации в первом случае составляет 100%, а стоимость выше ...), вы определяете переоснащение на основе точности теста поставил.

Давид Маковоз
источник
0

Чтобы понять, что означает переоснащение и как оно влияет на точность модели, вам необходимо понять компромисс с отклонениями.

Подгонка, а также переоснащение - это две разные проблемы, которые напрямую связаны с проблемами смещения. Всегда важно понимать связь между тремя различными факторами и как эти факторы связаны с проблемами отклонения (переоснащение-подгонка):

1 - размер модели. Количество параметров

2- объем данных, доступных для обучения. Количество тренировочных образцов.

3- количество итераций. итерации обучения.

Установление прямой связи между любым из этих факторов и переоснащение проблем, не смотря на другие, всегда приведет к неправильным выводам.

Из-за понимания этих факторов и связывания темы с помощью математических уравнений, чтобы избежать переобучения и неполного подбора проблем, это трудная задача, более того, она зависит от задачи, люди используют простые методы, чтобы обнаружить и избежать переобучения. Самый простой способ - разделить данные на три части: обучение, проверка и тестирование. Тестирование не должно касаться. Используйте обучающий набор для обучения сети и проверочный набор для тестирования сети после каждой итерации или нескольких итераций. Теоретически, вы увидите, что ошибка на множестве проверок постепенно уменьшается для первых N итераций, а затем будет стабильной в течение очень небольшого числа итераций, а затем начнет увеличиваться. Когда ошибка начинает увеличиваться, ваша сеть начинает превышать данные обучения, и процесс обучения должен быть остановлен.

Примечание: значение N очень связано с тремя факторами, которые я перечислил выше. Всегда полезно иметь демонстрационный тренировочный набор и тестировать с различными моделями, данными обучения. Вы увидите, что чем больше модель - чем меньше обучающих данных, тем меньше N. Чем меньше модель - тем больше обучающих данных, тем больше N. Примечание: будьте осторожны при использовании небольших моделей, имеющих проблему недостаточной подгонки.

Башар Хаддад
источник
Вы сказали: «Теоретически, вы увидите, что ошибка в наборе валидации постепенно уменьшается для первых N итераций, а затем будет стабильной в течение очень небольшого числа итераций, а затем начнет увеличиваться». Что вы имеете в виду под ошибкой здесь. Это именно та проблема, которую я поднял в этом вопросе. Ответ 15, если я беру стоимость как меру ошибки, и 280, если я беру точность классификации как меру ошибки
Нитин Сивах
пожалуйста, обратите внимание на исправление в вышеприведенном комментарии: ответ на то, когда началось переоснащение, - это эпоха 15, если я принимаю стоимость в качестве меры ошибки, и эпоху 280, если я принимаю точность классификации в качестве меры ошибки
Нитин Сивах
Ошибка в
Башар Хаддад
и мера этой ошибки? (100 - точность классификации) или стоимость. Я понимаю ошибку на средствах проверки достоверности в связи с точностью классификации. Но это именно то, что я спрашиваю. Почему не стоимость? Пожалуйста, обратитесь к комментариям, которые я сделал в ответ на кузнечика на оригинальный вопрос
Нитин Сивах