Почему термин регуляризации * добавляется * к функции стоимости (вместо умножения и т. Д.)?

51

Всякий раз, когда используется регуляризация, она часто добавляется к функции стоимости, например, в следующей функции стоимости. Это имеет для меня интуитивный смысл, поскольку минимизирует Функция стоимости означает минимизацию ошибки (левый член) и минимизацию величин коэффициентов (правый термин) одновременно (или, по крайней мере, балансирование двух минимизаций).

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$

Мой вопрос: почему этот термин регуляризации $\alpha\|\theta\|_2^2$ добавлен к исходной функции стоимости, а не умножен или что-то еще, что поддерживает дух мотивации идеи регуляризации? Это потому, что если мы просто добавим термин к нему, он достаточно прост и позволит нам решить это аналитически, или есть какая-то более глубокая причина?

regularization grenmester
источник

1

Другой аргумент - через теорему о представителе,

jkabrg

2

множитель лагранжиана

Haitao Du

9

Если у вас больше независимых переменных, чем наблюдений, вы можете получить

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$ для обнуления несколькими различными способами, поэтому умножение на что-либо не даст помогите отличить полезную модель

Генри

47

У него довольно приятная интуиция в байесовских рамках. Предположим, что регуляризованная функция стоимости $J$ играет роль, аналогичную вероятности конфигурации параметра $\theta$ учетом наблюдений $X, y$ . Применяя теорему Байеса, получим:

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

Взяв лог выражения, мы получаем:

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

Теперь, скажем, является отрицательной ¹ log-posterior, . Поскольку последний член не зависит от , мы можем его опустить, не меняя минимума. У вас осталось два члена: 1) термин вероятности зависящий от и , и 2) предыдущий термин зависящий только от . Эти два термина в точности соответствуют термину данных и члену регуляризации в вашей формуле. $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

Вы можете пойти еще дальше и показать, что опубликованная вами функция потерь точно соответствует следующей модели:

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

где параметры происходят из гауссовского распределения с нулевым средним, а наблюдения имеют гауссовский шум с нулевым средним. Для более подробной информации смотрите этот ответ . $\theta$ $y$

¹ Отрицательный, поскольку вы хотите максимизировать вероятность, но минимизировать стоимость.

Ян Кукацка
источник

5

Я немного недоволен этим ответом, потому что он просто машет рукой между функцией стоимости и логарифмическим задним числом. Если стоимость не соответствует заднему бревну, а скорее самому заднему, мы пришли бы к выводу, что регуляризация должна быть умножена на нерегулярную стоимость (о чем спрашивал ОП). - Чтобы правильно обосновать этот ответ, вам нужно объяснить, почему это лог-апостериор, который мы приравниваем к стоимости. (Вы как бы делаете с «пойти еще дальше», но в этот момент вы становитесь немного волнистыми.)

RM

1

@ RM, правильная точка. Причина в том, что стандартные функции потерь, используемые в машинном обучении, соответствуют заднему бревну, а не самому заднему. Почему? Потому что они используют эмпирическую минимизацию риска; , и стандартные функции потерь обычно принимают вид где - функция потерь, которая имеет разумную интерпретацию как логарифмическая вероятность. (Я подозреваю, что вы знаете это, но я просто излагаю это для других посетителей.)

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

DW

@ RM Если у вас есть какая-то стоимость вы всегда можете просто переопределить вашу проблему в терминах . Другими словами, какой бы ни была ваша функция стоимости, она определяет распределение на основе деленное на некоторую нормализующую константу, которую вы можете игнорировать при использовании методов MCMC. Тот факт, что вы всегда можете переформулировать в терминах экспоненциального, очень важен, например, для имитации отжига, пробоотборников MCMC и т. Д.

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

18-18 г.

@RM, например, рассмотрим эту статью Jun Liu (и есть аналогичный комментарий в книге MCMC Лю), где на странице 3 внизу написано: «Let быть целевым распределением вероятности, в отношении которого проводится расследование (предположительно, все PDF-файлы могут быть записаны в этой форме) "(выделение добавлено). Таким образом, с байесовской точки зрения, где часть апостериора, определяемая моделью правдоподобия, будет этой функцией потерь, это байесовское разложение для этого ответа будет полностью общим.

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

августа

Спасибо за ответ! Я пытаюсь понять «это» в начале вашего поста: что именно вы утверждаете, обладает хорошей интуицией в байесовской структуре? основная причина, почему добавление штрафов дает хорошие оценки? или историческая (и нестатистическая) причина, почему люди используют эти аддитивные оценки? (Поскольку я пытался предложить свою фразу, я думаю, что ваш ответ касается исторической причины, а не статистической причины.)

user795305

34

Ян и Кагдас дают хорошую байесовскую причину, интерпретируя регуляризатор как предшествующий. Вот некоторые небайесовские:

Если ваша нерегулярная цель является выпуклой, и вы добавляете выпуклый регуляризатор, тогда ваша общая цель все еще будет выпуклой. Это не будет правдой, если вы умножите это, или большинство других методов объединения. Выпуклая оптимизация действительно очень хороша по сравнению с невыпуклой оптимизацией; если выпуклая формулировка работает, это лучше сделать.
Иногда это приводит к очень простой замкнутой форме, как упоминает wpof в случае регрессии гребня.
Если вы думаете о проблеме, которую «действительно» хотите решить, как о проблеме с жестким ограничением то ее двойственный Лагранж является проблемой Хотя вам не нужно использовать двойственность Лагранжа, многое понимается в этом.
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
Как упомянул Огогмад , теорема о представителе применима к случаю аддитивного штрафа: если вы хотите оптимизировать по гильбертовому пространству воспроизводящих функций ядра , то мы знаем, что решение оптимизации по всему пространству лежит в простом конечномерном подпространстве для многих потерь ; Я не знаю, будет ли это иметь место для мультипликативного регуляризатора (хотя это может). Это основа ядра SVM. $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
Если вы делаете глубокое обучение или что-то невыпуклое в любом случае: аддитивные потери дают простые аддитивные градиенты. Для простого вы дали, это становится очень простым снижением веса . Но даже для более сложных регуляризатором, скажем WGAN-GP «s потеря для обратного распространения проще вычислять градиенты, когда нужно учитывать только сумму потерь и сложный регуляризатор (рассматривая вещи отдельно), вместо того, чтобы сделать правило продукта. $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
Аддитивные потери также поддаются популярному алгоритму оптимизации ADMM и другим алгоритмам, основанным на «декомпозиции».

Ни одно из этих правил не является жестким и быстрым, и действительно иногда мультипликативный (или какой-либо другой) регуляризатор может работать лучше (как указывает Огогмад ). (На самом деле, я на днях представил статью о том, как что-то, что вы можете интерпретировать как мультипликативный регуляризатор, работает лучше, чем аддитивный регулятор WGAN-GP, описанный выше!) Но, надеюсь, это поможет объяснить, почему аддитивные регуляризаторы являются «стандартными».

Дугал
источник

2

+1. Удачи в подаче [предположительно NIPS]!

говорит амеба: восстанови Монику

13

Вы хотите минимизировать оба термина в целевой функции. Поэтому вам необходимо разделить условия. Если вы умножите условия, у вас может быть один термин большой, а другой очень низкий. Таким образом, вы все равно получите низкое значение целевой функции, но с нежелательным результатом.

В результате вы можете получить модель, в которой наиболее переменная близка к нулю, но не обладает предсказательной силой.

Целевая функция, которая является функцией, которую нужно минимизировать, может быть построена как сумма функции стоимости и членов регуляризации.

В случае, если оба не зависят друг от друга, вы получите значения, показанные на первом рисунке для цели. Видите ли, в случае суммы есть только один минимум в (0, 0). В случае с продуктом у вас есть неоднозначность. У вас есть целая гиперповерхность, равная нулю при (x = 0 или y = 0). Таким образом, алгоритм оптимизации может закончиться где угодно в зависимости от вашей инициализации. И это не может решить, какое решение лучше.

Сёрен
источник

10

Вы можете попробовать другие бинарные операции ( ) и посмотреть, как они сравниваются. $\max,\min,\times$

Проблема с и заключается в том, что если ошибка равна , то регуляризованный штраф в конечном итоге будет равен . Это позволяет модели одеваться. $\min$ $\times$ $0$ $0$

Проблема с заключается в том, что вы сводите к минимуму «более жесткие» из двух штрафов (ошибка обучения или регуляризация), но не другое. $\max$

В отличие от это просто, и это работает. $+$

Вы можете спросить, почему не другие бинарные операции? Нет аргументов, которые могли бы их исключить, так почему бы и нет?

jkabrg
источник

8

Я думаю, что у вас есть правильный вопрос. Чтобы дать вам правильный ответ, вам нужно понять вероятностный характер проблемы.

В целом проблема, которую мы пытаемся решить, заключается в следующем: учитывая данные каково распределение гипотез, объясняющих эти данные. Когда мы говорим о гипотезе, мы имеем в виду PDF (по крайней мере, в этом контексте). А распределением гипотез является PDF из PDF, т. Е. . $D$ $p(H | D)$

$p(H | D)$ представляет собой распределение по данным гипотез . Если мы сможем найти это, то сможем выбрать одну из этих гипотез, например ту, которая имеет наибольшую вероятность, или мы можем выбрать усреднение по всем из них. Несколько более простой подход - атаковать проблему с другой стороны, используя теорему Байеса. $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ является одной из гипотез, ее также называют вероятностью. - это распределение гипотез в нашей вселенной гипотез перед наблюдением данных. После того, как мы наблюдаем данные, мы обновляем наши убеждения. $p(H)$
$p(D)$ - среднее из гипотез, прежде чем мы обновили наши убеждения.

Теперь, если мы возьмем обеих сторон уравнения Байеса, мы получим: $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

Обычно сложно вычислить. Хорошо, что это не влияет на результат. Это просто нормализация константы. $p(D)$

Теперь, например, если наш набор гипотез является группой гауссианов с где мы не знаем , но предположим, что мы знаем (или, по крайней мере, предположим, что это константа), и, кроме того, сами гипотезы распределены как гауссиан с тогда подключение всего вышеперечисленного выглядит примерно так: $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

Теперь, если мы минимизируем это выражение, мы найдем гипотезу с наибольшей вероятностью. Константы не влияют на минимизацию. Это выражение в вашем вопросе.

Тот факт, что мы использовали гауссиан, не меняет того факта, что термин регуляризации является дополнительным. Он должен быть аддитивным (в логарифмическом выражении или мультипликативным по вероятностям), другого выбора нет. Что изменится, если мы будем использовать другие дистрибутивы, это компоненты дополнения. Функция затрат / потерь, которую вы предоставили, является оптимальной для определенного сценария гауссиан.

Кагдас Озгенц
источник

Привет, Кагдас, спасибо за объяснение. Я не понял преобразование последнего уравнения в RHS. Можете ли вы указать на какой-то ресурс для меня, чтобы понять эту часть более четко

Итачи

7

Ридж очень удобная формулировка. В отличие от вероятностных ответов, эти ответы не дают никакой интерпретации оценки, но вместо этого объясняют, почему гребень является старой и очевидной формулировкой.

В линейной регрессии нормальные уравнения дают $\hat{\theta} = (X^TX)^{-1} X^T y$

Но матрица иногда не обратима; один из способов , чтобы настроить его, добавляя небольшой элемент к диагональному: . $X^TX$ $X^TX + \alpha I$

Это дает решение: ; тогда не решает исходную проблему, а вместо этого проблему с гребнем. $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

wpof
источник

3

Пожалуйста, укажите ответы, на которые вы ссылаетесь. Порядок будет изменяться по мере накопления голосов, поэтому «выше» по своей сути неоднозначно.

gung - Восстановить Монику

1

Я думаю, что есть более интуитивная причина того, почему мы не можем умножить на термин регуляризации.

Давайте возьмем нашу функцию штрафа к обычной функции штрафа, умноженной на термин регуляризации, как вы предлагаете.

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

Здесь мы создаем глобальный минимум функции штрафа, где . В этом случае наша модель может привести к большим ошибкам между прогнозом и данными, но это не имеет значения, если все весовые значения параметров модели равны нулю, наша штрафная функция равна нулю . $α‖θ‖^2_2=0$ $J(θ=0)=0$

Поскольку, если наша модель не является полностью совершенной, член никогда не может быть равен нулю (вероятность того, что существует множество θ чтобы сделать нашу модель «идеальной» для реальных данных пренебрежимо мало), тогда наша модель всегда должна стремиться к решению θ = 0. $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

Это то, что он вернет, если он не застрянет где-то в локальном минимуме.

Джеймс Фултон
источник

Почему термин регуляризации * добавляется * к функции стоимости (вместо умножения и т. Д.)?

Ответы: