В недавнем сообщении в блоге Rong Ge было сказано, что:
Считается, что для многих задач, включая изучение глубинных сетей, почти все локальные минимумы имеют очень близкое значение функции к глобальному оптимуму, и, следовательно, нахождение локального минимума достаточно хорошо.
Откуда эта вера?
Ответы:
Недавняя статья «Поверхности потерь многослойных сетей» предлагает некоторые возможные объяснения этому. Из их резюме (жирный шрифт мой):
Многие влиятельные люди в глубоком обучении (Yann LeCunn и Yoshua Bengio, чтобы назвать некоторых) и некоторые исследователи, приходящие больше с математической точки зрения (Rong Ge и другие сотрудники Sanjeev Arora) обсуждали и изучали эти идеи.
В приведенной выше статье см. Рисунок 3, на котором показано явление полос / концентрации значений локальных минимумов, поскольку сети имеют больше скрытых единиц. Полоса / концентрация представляет собой некоторое эмпирическое доказательство того, что для более глубоких или более крупных моделей локальные минимумы являются «достаточно хорошими», поскольку их значения потерь примерно одинаковы. И самое главное, они имеют убыток, который ближе к глобальному минимуму, поскольку модель становится более сложной (в данном случае более широкой, но на практике более глубокой).
Кроме того, они используют модель «спинового стекла», которую они даже называют просто моделью и не обязательно указывают на истинную картину, чтобы показать, что достижение глобального минимизатора из локальных минимумов может занять экспоненциально много времени:
Исследование Rong Ge сосредоточено на прорыве седловых точек. Йошуа Бенжио и его сотрудники выдвинули довольно смелую гипотезу Седл-Пойнт:
источник здесь: Идентификация и атака на проблему седловой точки в многомерной невыпуклой оптимизации.
В некоторой степени два вышеупомянутых подхода не совсем одинаковы (гипотеза Седл-Пойнт может поставить под вопрос, что на самом деле является локальными минимумами, а что - просто плохо обусловленной седловой точкой с очень длинной областью плато?). Идея гипотезы Седл-Пойнт заключается в том, что можно разработать методы оптимизации, позволяющие прорвать седловые точки, например, «Ньютон без седлов» из статьи Bengio, чтобы потенциально ускорить сближение и, возможно, даже достичь глобального оптимума. Первая статья «Многослойная поверхность потери» на самом деле не связана с достижением глобального оптимума и на самом деле полагает, что она обладает плохими характеристиками переоснащения. Любопытно, что обе статьи используют идеи из статистической физики и моделей спинового стекла.
Но они в некотором роде связаны с тем, что обе статьи считают, что для достижения глобального минимизатора необходимо преодолеть проблему оптимизации седловых точек. Первая статья просто считает, что локальные минимумы достаточно хороши.
Справедливо задаться вопросом, могут ли методы импульса и другие новые алгоритмы оптимизации, которые могут оценить некоторые свойства кривизны 2-го порядка, избежать седловых точек. Знаменитая анимация Алек Рэдфорд здесь .
Отвечая на ваш вопрос: «откуда взялась эта вера», я лично думаю, что это происходит из-за того, что можно использовать разные случайные начальные числа для изучения разного веса, но соответствующие сети имеют схожие количественные характеристики. Например, если вы установили два разных случайных начальных числа для инициализации веса Glorot, вы, вероятно, узнаете разные веса, но если вы будете тренироваться с использованием похожих методов оптимизации, сети будут иметь одинаковую производительность. Одно распространенное фольклорное убеждение состоит в том, что оптимизационный ландшафт подобен таковому для яичной коробки, еще один хороший пост в блоге по этому вопросу: нет больше локальных минимумов? по аналогии с картонной коробкой.
Редактировать: я просто хотел прояснить, что аналогия с картонной коробкой неверна, иначе не было бы необходимости в импульсе или других более продвинутых методах оптимизации. Но известно, что SGD не работает так же хорошо, как SGD + Momentum или более современные алгоритмы оптимизации, возможно, из-за наличия седловых точек.
источник