Здесь есть похожая тема ( функция стоимости нейронной сети невыпуклая? ), Но я не смог понять суть вопросов в ответах и мою причину повторного запроса, надеясь, что это прояснит некоторые проблемы:
Если я использую функцию суммы квадратов разницы стоимости, я в конечном итоге оптимизирую что-то в форме где - фактическое значение метки во время обучения phase и - это прогнозируемое значение метки. Поскольку это имеет квадратную форму, это должна быть выпуклая функция стоимости. Так что же может сделать его невыпуклым в NN? у у
Ответы:
действительно выпуклый в у я . Но если у я = п ( х я , θ ) не может быть выпуклым в θ , что ситуация с большинством нелинейных моделей, и мысамом деле заботятся о выпуклости в & thetas , потому что это точто мы оптимизации функции затрат над.Σя( уя- у^я)2 Y^я Y^я= ф( хя; θ ) θ θ
Например, давайте рассмотрим сеть с 1 скрытым слоем блоков и линейным выходным слоем: наша функция затрат г ( α , W ) = Σ я ( у я - α я σ ( Ш х я ) ) 2 , где х я ∈ R p и W ∈ R N × p (и я опускаю смещающие члены для простоты). Это не обязательно выпукло, если рассматривать как функцию от ( α , W )N
Вот код R, который я использовал для создания этого рисунка (хотя некоторые параметры сейчас имеют немного отличающиеся значения, чем когда я его сделал, поэтому они не будут идентичны):
источник