Вместимость - это неформальный термин. Это очень близко (если не синоним) к сложности модели. Это способ рассказать о том, насколько сложным может быть модель или отношение, которое может выразить модель. Можно ожидать, что модель с более высокой пропускной способностью сможет моделировать больше связей между большим количеством переменных, чем модель с более низкой пропускной способностью.
Проводя аналогию из разговорного определения емкости, вы можете думать о ней как о способности модели учиться на все большем и большем количестве данных, пока она не будет полностью «заполнена» информацией.
Существуют различные способы формализовать емкость и вычислить для нее числовое значение, но важно то, что это всего лишь некоторые возможные «операционализации» емкости (почти так же, как если бы кто-то придумал формулу для вычисления красоты, вы бы поняли, что формула - только одна ошибочная интерпретация красоты).
VC измерение является математически строгой формулировкой емкости. Однако может существовать большой разрыв между измерением VC модели и фактической способностью модели соответствовать данным. Несмотря на то, что знание VC dim дает ограничение на ошибку обобщения модели, это обычно слишком свободно, чтобы быть полезным для нейронных сетей.
Другое направление исследований, которое мы здесь видим, заключается в использовании спектральной нормы весовых матриц в нейронной сети в качестве меры емкости. Один из способов понять это состоит в том, что спектральная норма ограничивает константу Липшица сети.
Наиболее распространенным способом оценки емкости модели является подсчет количества параметров. Чем больше параметров, тем выше емкость в целом. Конечно, часто меньшая сеть учится моделировать более сложные данные лучше, чем большая сеть, поэтому эта мера также далека от идеальной.
Другой способ измерения емкости может состоять в том, чтобы обучить вашу модель случайным меткам ( Neyshabur et. Al. ) - если ваша сеть может правильно запомнить кучу входных данных наряду со случайными метками, это, по сути, показывает, что модель способна запомнить все эти Данные указывают индивидуально. Чем больше пар ввода / вывода можно «выучить», тем выше емкость.
ε