Вот что я прочитал в книге Яна Гудфеллоу « Глубокое обучение» .
В контексте нейронных сетей «штраф за норму параметра L2 обычно известен как затухание веса. Эта стратегия регуляризации приближает веса к началу координат [...]. В более общем смысле, мы могли бы упорядочить параметры, чтобы они были вблизи любой конкретной точки в космосе ", но гораздо чаще встречается регуляризация параметров модели в направлении нуля. (Deep Learning, Goodfellow и др.)
Мне просто интересно. Я понимаю, что, просто добавляя регуляризующий термин к нашей функции стоимости и минимизируя эту общую стоимость мы можем повлиять на параметры модели, чтобы они оставались небольшими:
Но как реализовать версию этой стратегии регуляризации, которая приведет параметры к любой произвольной точке? (скажем, мы хотим, чтобы норма имела тенденцию к 5)
источник
НтА→∞ ш Х=0ш↦| |ш| | 2 2
Sycorax отмечает, что аналогичным образомЭто успешное обобщение может привести нас к предложению оценки где - функция чей минимизатор удовлетворяет некоторому свойству, которое мы ищем. Действительно, Sycorax принимает , где (однозначно) минимизируется в начале координат, и, в частности, . Поэтому , по желанию. К сожалению, однако, оба варианта~ Ш λ = Arg мин ш L ( Θ , Х , у ) + Х р е п ( ш ) , р е п р е п (limλ→∞{argminwL(Θ,X,y)+λ∥w−c∥22}=c.
Приведенный выше анализ представляется наилучшим решением (возможно, вплоть до выбора , для которого я не могу предложить лучшего выбора ), если мы настаиваем на как на уникальной интерпретации слова «склонен», описанного в вопрос. Однако, предполагая, что , существует некоторая так что минимизатор задачи OP satsifes . Поэтому без необходимости менять целевую функцию. Если такой существует, то проблема вычисленияg λ→∞ ∥argminwL(Θ,X,y)∥22≥5 Λ w^Λ ∥w^Λ∥22=5
(Чтобы добиться того, чтобы штрафованная оценщик достигла значения штрафа, которое не было достигнуто непенализованным оценщиком, мне кажется очень неестественным. Если кто-то знает о местах, где это на самом деле желательно, пожалуйста, прокомментируйте!)
источник
Для соответствующего можно рассматривать его как отрицательную логарифмическую вероятность, а соответствующую регуляризацию можно рассматривать как отрицательную логарифмическую вероятность для предшествующего распределения. Этот подход называется Максимум A Posteriori (MAP).JL J
Должно быть легко увидеть примеры Sycorax в свете MAP.
Для деталей MAP вы можете посмотреть на эти заметки . По моему опыту, поиск «максимальной апостериорной регуляризации» дает хорошие результаты.
источник