Формула Vapnik-Chervonenkis (VC) -мерности для нейронных сетей варьируется от до , с в худшем случае, где - число ребер, а это количество узлов. Количество обучающих выборок, необходимых для строгой гарантии обобщения, линейно зависит от VC-измерения.
Это означает, что для сети с миллиардами ребер, как в случае успешных моделей глубокого обучения, учебному набору данных требуются миллиарды обучающих образцов в лучшем случае, а в худшем случае - квадриллионы. Самые большие тренировочные наборы в настоящее время имеют около ста миллиардов образцов. Поскольку данных для обучения недостаточно, вряд ли модели глубокого обучения обобщают. Вместо этого они переоснащают тренировочные данные. Это означает, что модели не будут хорошо работать с данными, которые отличаются от данных обучения, что является нежелательным свойством для машинного обучения.
Учитывая неспособность глубокого обучения обобщать, в соответствии с VC мерным анализом, почему результаты глубокого обучения так раздуты? Сама высокая точность некоторых наборов данных сама по себе ничего не значит. Есть ли что-то особенное в архитектурах глубокого обучения, которые значительно уменьшают размерность VC?
Если вы не считаете, что анализ VC-измерения является уместным, пожалуйста, предоставьте доказательства / объяснения того, что глубокое обучение является обобщающим и не является чрезмерным. Т.е. у него есть хороший отзыв и точность, или просто хороший отзыв? Достичь 100% - это тривиально, как и точность 100%. Получить оба близких к 100% очень сложно.
В качестве противоположного примера, здесь есть свидетельство того, что глубокое обучение переоснащается. Модель обмундирования легко обмануть, так как она содержит детерминированный / стохастический шум. Смотрите следующее изображение для примера переоснащения.
Кроме того, посмотрите ответы на этот вопрос с более низким рейтингом, чтобы понять проблемы с моделью сверхмодели, несмотря на хорошую точность данных испытаний.
Некоторые ответили, что регуляризация решает проблему большой размерности VC. Смотрите этот вопрос для дальнейшего обсуждения.
Ответы:
«Если карта и местность не совпадают, доверьтесь местности».
Не совсем понятно, почему глубокое обучение работает так же хорошо, как и раньше, но, конечно, старые концепции теории обучения, такие как измерения VC, оказываются не очень полезными.
Этот вопрос горячо обсуждается, см., Например:
Что касается вопроса о состязательных примерах , проблема была обнаружена в:
Это далее развито в:
Существует много последующей работы.
источник
Нет, это не то, что говорит VC мерный анализ. VC мерный анализ дает некоторые достаточные условия, при которых обобщение гарантировано. Но обратное не обязательно так. Даже если вы не соответствуете этим условиям, метод ML все же может обобщать.
Другими словами: глубокое обучение работает лучше, чем анализ измерений VC, на что вы могли бы рассчитывать (лучше, чем анализ VC «предсказывает»). Это недостаток VC-анализа, а не недостаток глубокого обучения. Это не означает, что глубокое обучение имеет недостатки. Скорее, это означает, что мы не знаем, почему глубокое обучение работает - и анализ VC не может обеспечить какую-либо полезную информацию.
Высокое измерение VC не означает, что глубокое обучение можно обмануть. Высокое измерение VC вообще ничего не гарантирует о том, можно ли его одурачить в практических ситуациях. Измерение VC обеспечивает однонаправленную границу для наихудшего случая: если вы удовлетворяете этим условиям, тогда происходят хорошие вещи, но если вы не соответствуете этим условиям, мы не знаем, что произойдет (возможно, хорошие вещи все равно будут происходить, если природа ведет себя лучше, чем наихудший случай; анализ ВК не обещает, что хорошие вещи не могут / не будут происходить).
Может случиться так, что измерение VC пространства модели велико (оно включает в себя, по возможности, очень сложные шаблоны), но природа объясняется простыми шаблонами, и алгоритм ML изучает простой шаблон, присутствующий в природе (например, из-за регуляризации) - - в этом случае размерность VC будет высокой, но модель будет обобщена (для конкретного шаблона, который присутствует в природе).
Это сказало ... есть все больше свидетельств того, что глубокое обучение может быть одурачено состязательными примерами. Но будьте осторожны с цепочкой рассуждений. Выводы, которые вы делаете, не вытекают из того, с чего вы начали.
источник
Люди индустрии не заботятся о размерах ВК, хулиганах ...
На более серьезной ноте, хотя модель PAC - это элегантный способ думать об обучении (по крайней мере, на мой взгляд), и он достаточно сложен, чтобы вызвать интересные концепции и вопросы (такие как измерение VC и его связь со сложностью образца) , это имеет очень мало общего с реальными жизненными ситуациями.
Помните, что в модели PAC вы обязаны обрабатывать произвольные распределения, это означает, что ваш алгоритм должен обрабатывать состязательные распределения. Когда вы пытаетесь изучить некоторые явления в реальном мире, никто не дает вам «враждебные данные», чтобы испортить ваши результаты, поэтому требование, чтобы концептуальный класс был доступным для изучения PAC, могло бы быть слишком сильным. Иногда вы можете связать ошибку обобщения независимо от измерения VC для определенного класса распределений. Это случай границ полей, которые формулируются независимо от измерения VC. Они могут обещать низкую ошибку обобщения, если вы можете гарантировать высокий эмпирический запас (что, конечно, не может происходить для всех распределений, например, взять две близкие точки на плоскости с противоположными тегами и сфокусировать распределение на них).
Итак, оставляя в стороне модель PAC и измерение VC, я думаю, что шумиха проистекает из того факта, что они, кажется, просто работают, и преуспевают в задачах, которые ранее были невозможны (одно из последних достижений, которое приходит на ум, это AlphaGo). Я очень мало знаю о нейронных сетях, поэтому я надеюсь, что кто-то с большим опытом подойдет, но, насколько мне известно, хороших гарантий пока нет (определенно не как в модели PAC). Возможно, при правильных предположениях можно было бы формально оправдать успех нейронных сетей (я предполагаю, что есть работы по формальному обращению с нейронными сетями и «глубокому обучению», поэтому я надеюсь, что люди с большим знанием этого предмета могли бы связать некоторые статьи) ,
источник
Я не знаю, откуда ты это взял. Опытным путем обобщение рассматривается как оценка (например, точность) на невидимых данных.
Ответ, почему используются CNN, прост: CNN работают намного лучше, чем все остальное . См. ImageNet 2012, например:
Создайте классификатор, который лучше, и люди перейдут к этому.
Это не вариант. Вы можете создать классификатор, который чрезвычайно прост для простого набора данных. Обмануть его не удастся (даже неважно, что означает «легкий»), но это тоже не интересно.
источник
Ответ одним словом - «регуляризация». Наивная формула размерности VC здесь на самом деле не применяется, потому что регуляризация требует, чтобы веса не были общими. Только небольшая (бесконечно малая) пропорция весовых комбинаций имеет приемлемую потерю после регуляризации. В результате истинное измерение на много порядков меньше, поэтому обобщение может произойти с имеющимися у нас тренировочными наборами. Результаты реальной жизни подтверждают, что переоснащение обычно не происходит.
источник
Мы обращаемся к статье: Понимание глубокого обучения требует переосмысления обобщения. в
Переосмысление обобщения требует пересмотра старых идей: подходы статистической механики и сложное поведение в обучении Чарльз Х. Мартин и Майкл У. Махони
Смотрите: https://arxiv.org/pdf/1710.09553.pdf
По сути, мы утверждаем, что границы VC слишком свободны, потому что фундаментальный подход и то, как принят статистический предел, нереалистичны.
Лучший подход заключается в статистической механике, которая рассматривает класс зависимых от данных функций, принимает термодинамический предел (а не только предел больших чисел)
Кроме того, мы также указываем, как естественные разрывы в острой необходимости приводят к фазовым переходам в кривой обучения, что, по нашему мнению, наблюдается в статье Google (выше)
Что касается ограничений, см. Раздел 4.2 нашего документа
«Ясно, что если мы фиксируем размер выборки m и позволяем [размер класса функций] N → ∞, [или наоборот, фиксируем N, пусть m → ∞], мы не должны ожидать нетривиального результата, поскольку [ N] становится больше, но размер выборки является фиксированным. Таким образом, [в статистической механике] обычно рассматривается случай, когда m, N → ∞ такой, что α = m / N является фиксированной постоянной ".
То есть очень редко мы просто добавляем больше данных (m) в глубокую сеть. Мы также всегда увеличиваем размер сети (N), потому что мы знаем, что мы можем получить более подробные характеристики / информацию из данных. Вместо этого мы делаем на практике то, о чем мы спорим в статье - берем предел большого размера с фиксированным отношением m / N (вместо того, чтобы фиксировать m и увеличивать N).
Эти результаты хорошо известны в статистической механике обучения. Анализ более сложный, но результаты приводят к гораздо более богатой структуре, которая объясняет многие явления в глубоком обучении.
Кроме того, и, в частности, известно, что многие оценки из статистики становятся либо тривиальными, либо неприменимыми к негладким распределениям вероятностей или когда переменные принимают дискретные значения. В нейронных сетях нетривиальное поведение возникает из-за разрывов (в функциях активации), приводящих к фазовым переходам (которые возникают в термодинамическом пределе).
В статье, которую мы написали, делается попытка объяснить основные идеи аудитории в области компьютерных наук.
Сам Вапник понял, что его теория на самом деле не применима к нейронным сетям ... еще в 1994 году
«Распространение [измерения VC] на многослойные сети сталкивается с [многими] трудностями… существующие алгоритмы обучения не могут рассматриваться как минимизирующие эмпирический риск для всего набора функций, реализуемых сетью… [потому что это скорее всего ... поиск будет ограничен подмножеством [этих] функций ... Пропускная способность этого набора может быть намного ниже, чем пропускная способность всего набора ... [и] может изменяться в зависимости от количества наблюдений. Это может потребовать теории, которая рассматривает понятие непостоянной емкости с «активным» подмножеством функций "
Vapnik, Levin, and LeCun 1994
http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf
Хотя с теорией VC нелегко обращаться, это не проблема для статистических механизмов, и то, что они описывают, очень похоже на теорию энергетического ландшафта сворачивания белка. (которая будет темой будущей статьи)
источник
Кажется, никто не указал в приведенных выше ответах, что приведенная формула измерения VC предназначена только для однослойной нейронной сети. Я предполагаю, что измерение VC на самом деле растет экспоненциально с увеличением числа слоев L. Мои рассуждения основаны на рассмотрении глубоких нейронных сетей, в которых функция активации заменена полиномиальной. Тогда степень составленных многочленов растет экспоненциально с увеличением слоев.
источник