Является ли среднеквадратическая ошибка всегда выпуклой в контексте нейронных сетей?

9

Множество ресурсов, о которых я упоминал, упоминают, что MSE великолепен, потому что он выпуклый. Но я не понимаю, как, особенно в контексте нейронных сетей.

Допустим, у нас есть следующее:

  • Икс : учебный набор данных
  • Y : цели
  • Θf Θ : набор параметров модели (модель нейронной сети с нелинейностями)еΘ

Затем:

MSE(Θ)знак равно(еΘ(Икс)-Y)2

Почему эта функция потерь всегда будет выпуклой? Это зависит от ?еΘ(Икс)

user74211
источник

Ответы:

1

Ответ вкратце: MSE сам по себе является выпуклым по своим данным и параметрам. Но в произвольной нейронной сети она не всегда выпукла из-за наличия нелинейностей в виде функций активации. Источник для моего ответа здесь .

Varsh
источник
1

выпуклость

Функция е(Икс) с является выпуклой, если для любого , и для любого , ИксΧИкс1ΧИкс2Χ0λ1

е(λИкс1+(1-λ)Икс2)λе(Икс1)+(1-λ)е(Икс2),

Можно доказать, что такой выпуклый имеет один глобальный минимум. Уникальный глобальный минимум устраняет ловушки, создаваемые локальными минимумами, которые могут возникать в алгоритмах, которые пытаются достичь сходимости по глобальному минимуму, например, минимизации функции ошибки.е(Икс)

Хотя функция ошибок может быть на 100% надежной во всех непрерывных, линейных контекстах и ​​во многих нелинейных контекстах, она не означает сходимости по глобальному минимуму для всех возможных нелинейных контекстов.

Средняя квадратическая ошибка

Дана функция описывающая поведение идеальной системы, и модель системы (где - вектор параметров, матрица, куб или гиперкуб и ), созданная рационально или путем сходимости (как в обучении нейронной сети), функция среднеквадратичной ошибки (MSE) может быть представлена ​​следующим образом.s(Икс)a(Икс,п)п1NN

е(β)знак равноN-1ΣN[a(ИксN)-s(ИксN)]2

Материал, который вы читаете, вероятно, не утверждает, что или являются выпуклыми относительно , но что является выпуклым относительно и независимо от того, что они есть. Это более позднее утверждение может быть доказано для любых непрерывных и . a(Икс,п)s(Икс)Иксе(β)a(Икс,п)s(Икс)a(Икс,п)s(Икс)

Смешанный алгоритм сходимости

Если вопрос заключается в том, могут ли быть смешаны конкретные и метод достижения который аппроксимирует пределах разумного запаса сходимости MSE, ответ - «Да». Вот почему MSE не единственная модель ошибок.a(Икс,п)s(Икс)a(Икс,п)

Резюме

Лучше всего подытожить, что следует определять или выбирать из набора моделей выпуклых погрешностей запаса, основанных на следующих знаниях.е(β)

  • Известные свойства системыs(Икс)
  • Определение аппроксимационной моделиa(Икс,п)
  • Тензор используется для генерации следующего состояния в сходящейся последовательности

Набор стандартных выпуклых моделей ошибок, безусловно, включает модель MSE из-за ее простоты и вычислительного подхода.

FauChristian
источник
Таким образом, краткий ответ - MSE относительно Theta, всегда выпуклый. Хотя Feedforard (X, Theta) может быть невыпуклым?
user74211
Ну, @ user74211, этот комментарий на самом деле не отвечает на вопрос. В частности, заданный вопрос, КАК среднеквадратическая ошибка всегда может быть выпуклой, если функция, к которой она применяется, не является. Ваш комментарий является подмножеством утверждений в вопросе, без искомого объяснения.
Фаучристиан