Как реализовать регуляризацию L2 к произвольной точке в пространстве?

11

Вот что я прочитал в книге Яна Гудфеллоу « Глубокое обучение» .

В контексте нейронных сетей «штраф за норму параметра L2 обычно известен как затухание веса. Эта стратегия регуляризации приближает веса к началу координат [...]. В более общем смысле, мы могли бы упорядочить параметры, чтобы они были вблизи любой конкретной точки в космосе ", но гораздо чаще встречается регуляризация параметров модели в направлении нуля. (Deep Learning, Goodfellow и др.)

Мне просто интересно. Я понимаю, что, просто добавляя регуляризующий термин к нашей функции стоимости и минимизируя эту общую стоимость J мы можем повлиять на параметры модели, чтобы они оставались небольшими:

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Но как реализовать версию этой стратегии регуляризации, которая приведет параметры к любой произвольной точке? (скажем, мы хотим, чтобы норма имела тенденцию к 5)

сироп, в котором дают лекарство
источник

Ответы:

14

Вы на самом деле задаете два разных вопроса.

  1. Наличие нормы, стремящейся к 5, означает, что вы хотите, чтобы веса находились вблизи поверхности гиперсферы с центром в начале координат радиуса 5. Эта регуляризация выглядит примерно так:

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

Но вы могли бы вместо этого использовать что-то вроде , я полагаю.λabs(||w||225)

  1. С другой стороны, если вы хотите стремиться к произвольной точке, вам просто нужно использовать эту точку в качестве центра .c

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22
Sycorax говорит восстановить Монику
источник
(+1) Я думаю, что плодотворным способом думать о «норме, стремящейся к пяти» может быть выбор параметра настройки в версии заданной OP (вместо изменения функции)J
user795305
(Я написал короткий ответ, чтобы прояснить, что я имею в виду под выше. Спасибо, кстати, за разъяснение различий между двумя
заданными
общая (практическая) цель при этом состоит в регуляризации в направлении некоторой известной рабочей точки, например, предыдущей модели, которую вы хотите заменить, но для которой вы хотели бы «плавного» перехода
oDDsKooL
6

НтА ш Х=0ш| |ш| | 2 2

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycorax отмечает, что аналогичным образомЭто успешное обобщение может привести нас к предложению оценки где - функция чей минимизатор удовлетворяет некоторому свойству, которое мы ищем. Действительно, Sycorax принимает , где (однозначно) минимизируется в начале координат, и, в частности, . Поэтому , по желанию. К сожалению, однако, оба варианта~ Ш λ = Arg мин ш L ( Θ , Х , у ) + Х р е п ( ш ) , р е п р е п (limλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)gg{||,()2}limλw~λ22=5gприводят к невыпуклым штрафам, что затрудняет вычисление оценки.

Приведенный выше анализ представляется наилучшим решением (возможно, вплоть до выбора , для которого я не могу предложить лучшего выбора ), если мы настаиваем на как на уникальной интерпретации слова «склонен», описанного в вопрос. Однако, предполагая, что , существует некоторая так что минимизатор задачи OP satsifes . Поэтому без необходимости менять целевую функцию. Если такой существует, то проблема вычисленияgλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λш Х | | ш Х | | 2 2argminw:w22=5L(Θ,X,y) по своей сути сложно. Действительно, нет необходимости учитывать какую-либо оценку, кроме при попытке поощрения естественных свойств .w^λw^λ22

(Чтобы добиться того, чтобы штрафованная оценщик достигла значения штрафа, которое не было достигнуто непенализованным оценщиком, мне кажется очень неестественным. Если кто-то знает о местах, где это на самом деле желательно, пожалуйста, прокомментируйте!)

user795305
источник
1
Это отличное дополнение. +1
Sycorax сообщает восстановить Монику
2

Для соответствующего можно рассматривать его как отрицательную логарифмическую вероятность, а соответствующую регуляризацию можно рассматривать как отрицательную логарифмическую вероятность для предшествующего распределения. Этот подход называется Максимум A Posteriori (MAP).JLJ

Должно быть легко увидеть примеры Sycorax в свете MAP.

Для деталей MAP вы можете посмотреть на эти заметки . По моему опыту, поиск «максимальной апостериорной регуляризации» дает хорошие результаты.

Якуб Барчук
источник