Математическое / Алгоритмическое определение для переоснащения

18

Есть ли математическое или алгоритмическое определение переоснащения?

Часто предоставляемые определения представляют собой классический двухмерный график точек с линией, проходящей через каждую точку, и кривая потерь при проверке внезапно растет.

Но есть ли математически строгое определение?

Брайан Ко
источник

Ответы:

22

Да, есть (немного более) строгое определение:

При наличии модели с набором параметров можно сказать, что модель соответствует данным, если после определенного числа этапов обучения ошибка обучения продолжает уменьшаться, а ошибка выхода из выборки (теста) начинает увеличиваться.

введите описание изображения здесь В этом примере ошибка вне образца (тест / проверка) сначала уменьшается синхронно с ошибкой поезда, а затем начинает увеличиваться примерно к 90-й эпохе, то есть когда начинается переоснащение

Еще один способ взглянуть на это с точки зрения смещения и дисперсии. Ошибка вне образца для модели может быть разбита на две составляющие:

  • Смещение: ошибка из-за того, что ожидаемое значение от оценочной модели отличается от ожидаемого значения истинной модели.
  • Дисперсия: ошибка из-за чувствительности модели к небольшим колебаниям в наборе данных.

Переоснащение происходит, когда смещение низкое, но дисперсия высокая. Для набора данных где истинная (неизвестная) модель:X

Y=f(X)+ϵ - - неприводимый шум в наборе данных, где и , ϵE(ϵ)=0Var(ϵ)=σϵ

и расчетная модель:

Y^=f^(X) ,

тогда ошибка теста (для точки тестовых данных ) может быть записана как:xt

Err(xt)=σϵ+Bias2+Variance

со и Bias2=E[f(xt)f^(xt)]2Variance=E[f^(xt)E[f^(xt)]]2

(Строго говоря, это разложение применяется в случае регрессии, но аналогичное разложение работает для любой функции потерь, т.е. также в случае классификации).

Оба приведенных выше определения связаны со сложностью модели (измеряемой в терминах количества параметров в модели): чем выше сложность модели, тем выше вероятность ее переоснащения.

См. Главу 7 «Элементы статистического обучения» для строгой математической обработки темы.

введите описание изображения здесь Компромисс между отклонением и дисперсией (т.е. переоснащение) увеличивается с ростом сложности модели. Взято из ESL, глава 7

Скандер Х. - Восстановить Монику
источник
1
Можно ли уменьшить как ошибки обучения, так и ошибки теста, но модель все еще подходит? На мой взгляд, расхождение в обучении и тестовой ошибке демонстрирует переоснащение, но переоснащение не обязательно влечет за собой расхождение. Например, NN, который учится отличать преступников от не преступников, распознавая белый фон тюремных фотографий, переоснащается, но ошибки обучения и тестирования, вероятно, не расходятся.
yters
@ yters в этом случае, я не думаю, что был бы какой-либо способ измерить происходящее переоснащение. Все, к чему у вас есть доступ, - это данные обучения и тестирования, и если оба набора данных демонстрируют одну и ту же функцию, которой пользуется NN (белый фон), то это просто действительная функция, которой следует воспользоваться, а не обязательно переобучать. Если вам не нужна эта функция, вам придется включить ее в свои наборы данных.
Кэлвин Годфри
1
@yters Ваш пример - это то, что я считаю «социальным переоснащением»: математически модель не переоснащается, но есть некоторые внешние социальные соображения, которые приводят к тому, что предсказатель не работает хорошо. Более интересным примером являются некоторые соревнования Kaggle и различные открытые наборы данных, такие как Boston Housing, MNIST и т. Д. ... сама модель может не соответствовать (с точки зрения смещения, дисперсии и т. Д.), Но существует много знание о проблеме в сообществе в целом (результаты предыдущих групп и исследовательских работ, общедоступных ядер и т. д.), которые приводят к переоснащению.
Скандер Х. - Восстановить Монику
1
@yters (продолжение), поэтому теоретически отдельный набор данных проверки (помимо набора тестовых данных) должен оставаться в «хранилище» и не использоваться до окончательной проверки.
Скандер Х. - Восстановить Монику
1
@CalvinGodfrey вот более технический пример. Допустим, у меня есть набор данных бинарной классификации, который равномерно разделен между двумя классами, а затем добавьте шум в классификацию из довольно несбалансированного распределения Бернулли, чтобы набор данных переместился в сторону одного из классов. Я разбил набор данных на поезд и проверил, и добился высокой точности в обоих случаях из-за несбалансированного распределения. Тем не менее, точность модели не так высока в истинной классификации наборов данных, потому что модель получила искаженное распределение Бернулли.
yters