Всякий раз, когда используется регуляризация, она часто добавляется к функции стоимости, например, в следующей функции стоимости. Это имеет для меня интуитивный смысл, поскольку минимизирует Функция стоимости означает минимизацию ошибки (левый член) и минимизацию величин коэффициентов (правый термин) одновременно (или, по крайней мере, балансирование двух минимизаций).
Мой вопрос: почему этот термин регуляризации добавлен к исходной функции стоимости, а не умножен или что-то еще, что поддерживает дух мотивации идеи регуляризации? Это потому, что если мы просто добавим термин к нему, он достаточно прост и позволит нам решить это аналитически, или есть какая-то более глубокая причина?
regularization
grenmester
источник
источник
Ответы:
У него довольно приятная интуиция в байесовских рамках. Предположим, что регуляризованная функция стоимостиJ играет роль, аналогичную вероятности конфигурации параметра θ учетом наблюдений X,y . Применяя теорему Байеса, получим:
Взяв лог выражения, мы получаем:
Теперь, скажем, является отрицательной 1 log-posterior, . Поскольку последний член не зависит от , мы можем его опустить, не меняя минимума. У вас осталось два члена: 1) термин вероятности зависящий от и , и 2) предыдущий термин зависящий только от . Эти два термина в точности соответствуют термину данных и члену регуляризации в вашей формуле.J(θ) −logP(θ|X,y) θ logP(X,y|θ) X y logP(θ) θ
Вы можете пойти еще дальше и показать, что опубликованная вами функция потерь точно соответствует следующей модели:
где параметры происходят из гауссовского распределения с нулевым средним, а наблюдения имеют гауссовский шум с нулевым средним. Для более подробной информации смотрите этот ответ .θ y
1 Отрицательный, поскольку вы хотите максимизировать вероятность, но минимизировать стоимость.
источник
Ян и Кагдас дают хорошую байесовскую причину, интерпретируя регуляризатор как предшествующий. Вот некоторые небайесовские:
Если ваша нерегулярная цель является выпуклой, и вы добавляете выпуклый регуляризатор, тогда ваша общая цель все еще будет выпуклой. Это не будет правдой, если вы умножите это, или большинство других методов объединения. Выпуклая оптимизация действительно очень хороша по сравнению с невыпуклой оптимизацией; если выпуклая формулировка работает, это лучше сделать.
Иногда это приводит к очень простой замкнутой форме, как упоминает wpof в случае регрессии гребня.
Если вы думаете о проблеме, которую «действительно» хотите решить, как о проблеме с жестким ограничением то ее двойственный Лагранж является проблемой Хотя вам не нужно использовать двойственность Лагранжа, многое понимается в этом.
Как упомянул Огогмад , теорема о представителе применима к случаю аддитивного штрафа: если вы хотите оптимизировать по гильбертовому пространству воспроизводящих функций ядра , то мы знаем, что решение оптимизации по всему пространству лежит в простом конечномерном подпространстве для многих потерь ; Я не знаю, будет ли это иметь место для мультипликативного регуляризатора (хотя это может). Это основа ядра SVM.f H
Если вы делаете глубокое обучение или что-то невыпуклое в любом случае: аддитивные потери дают простые аддитивные градиенты. Для простого вы дали, это становится очень простым снижением веса . Но даже для более сложных регуляризатором, скажем WGAN-GP «s потеря для обратного распространения проще вычислять градиенты, когда нужно учитывать только сумму потерь и сложный регуляризатор (рассматривая вещи отдельно), вместо того, чтобы сделать правило продукта.L2
Аддитивные потери также поддаются популярному алгоритму оптимизации ADMM и другим алгоритмам, основанным на «декомпозиции».
Ни одно из этих правил не является жестким и быстрым, и действительно иногда мультипликативный (или какой-либо другой) регуляризатор может работать лучше (как указывает Огогмад ). (На самом деле, я на днях представил статью о том, как что-то, что вы можете интерпретировать как мультипликативный регуляризатор, работает лучше, чем аддитивный регулятор WGAN-GP, описанный выше!) Но, надеюсь, это поможет объяснить, почему аддитивные регуляризаторы являются «стандартными».
источник
Вы хотите минимизировать оба термина в целевой функции. Поэтому вам необходимо разделить условия. Если вы умножите условия, у вас может быть один термин большой, а другой очень низкий. Таким образом, вы все равно получите низкое значение целевой функции, но с нежелательным результатом.
В результате вы можете получить модель, в которой наиболее переменная близка к нулю, но не обладает предсказательной силой.
Целевая функция, которая является функцией, которую нужно минимизировать, может быть построена как сумма функции стоимости и членов регуляризации.
В случае, если оба не зависят друг от друга, вы получите значения, показанные на первом рисунке для цели. Видите ли, в случае суммы есть только один минимум в (0, 0). В случае с продуктом у вас есть неоднозначность. У вас есть целая гиперповерхность, равная нулю при (x = 0 или y = 0). Таким образом, алгоритм оптимизации может закончиться где угодно в зависимости от вашей инициализации. И это не может решить, какое решение лучше.
источник
Вы можете попробовать другие бинарные операции ( ) и посмотреть, как они сравниваются.max,min,×
Проблема с и заключается в том, что если ошибка равна , то регуляризованный штраф в конечном итоге будет равен . Это позволяет модели одеваться.min × 0 0
Проблема с заключается в том, что вы сводите к минимуму «более жесткие» из двух штрафов (ошибка обучения или регуляризация), но не другое.max
В отличие от это просто, и это работает.+
Вы можете спросить, почему не другие бинарные операции? Нет аргументов, которые могли бы их исключить, так почему бы и нет?
источник
Я думаю, что у вас есть правильный вопрос. Чтобы дать вам правильный ответ, вам нужно понять вероятностный характер проблемы.
В целом проблема, которую мы пытаемся решить, заключается в следующем: учитывая данные каково распределение гипотез, объясняющих эти данные. Когда мы говорим о гипотезе, мы имеем в виду PDF (по крайней мере, в этом контексте). А распределением гипотез является PDF из PDF, т. Е. .D p(H|D)
Теперь, если мы возьмем обеих сторон уравнения Байеса, мы получим:−log
Обычно сложно вычислить. Хорошо, что это не влияет на результат. Это просто нормализация константы.p(D)
Теперь, например, если наш набор гипотез является группой гауссианов с где мы не знаем , но предположим, что мы знаем (или, по крайней мере, предположим, что это константа), и, кроме того, сами гипотезы распределены как гауссиан с тогда подключение всего вышеперечисленного выглядит примерно так:p(D|H) p(y|X,θ)∼N(θX,σ) θ σ p(H)=p(θ)∼N(0,α−1I)
Теперь, если мы минимизируем это выражение, мы найдем гипотезу с наибольшей вероятностью. Константы не влияют на минимизацию. Это выражение в вашем вопросе.
Тот факт, что мы использовали гауссиан, не меняет того факта, что термин регуляризации является дополнительным. Он должен быть аддитивным (в логарифмическом выражении или мультипликативным по вероятностям), другого выбора нет. Что изменится, если мы будем использовать другие дистрибутивы, это компоненты дополнения. Функция затрат / потерь, которую вы предоставили, является оптимальной для определенного сценария гауссиан.
источник
Ридж очень удобная формулировка. В отличие от вероятностных ответов, эти ответы не дают никакой интерпретации оценки, но вместо этого объясняют, почему гребень является старой и очевидной формулировкой.
В линейной регрессии нормальные уравнения даютθ^=(XTX)−1XTy
Но матрица иногда не обратима; один из способов , чтобы настроить его, добавляя небольшой элемент к диагональному: .XTX XTX+αI
Это дает решение: ; тогда не решает исходную проблему, а вместо этого проблему с гребнем.θ~=(XTX+αI)−1XTy θ~
источник
Я думаю, что есть более интуитивная причина того, почему мы не можем умножить на термин регуляризации.
Давайте возьмем нашу функцию штрафа к обычной функции штрафа, умноженной на термин регуляризации, как вы предлагаете.
Здесь мы создаем глобальный минимум функции штрафа, где . В этом случае наша модель может привести к большим ошибкам между прогнозом и данными, но это не имеет значения, если все весовые значения параметров модели равны нулю, наша штрафная функция равна нулю .α∥θ∥22=0 J(θ=0)=0
Поскольку, если наша модель не является полностью совершенной, член никогда не может быть равен нулю (вероятность того, что существует множество θ чтобы сделать нашу модель «идеальной» для реальных данных пренебрежимо мало), тогда наша модель всегда должна стремиться к решению θ = 0.(12(y−θXT)(y−θXT)T)
Это то, что он вернет, если он не застрянет где-то в локальном минимуме.
источник