Регуляризация L2 эквивалентна гауссовскому приору

56

Я продолжаю читать это и интуитивно вижу это, но как перейти от регуляризации L2 к тому, что аналитически это - Приор Гаусса? То же самое можно сказать и о том, что L1 эквивалентен предшествующему лапласу.

Любые дальнейшие ссылки будут великолепны.

анонимное
источник

Ответы:

54

Давайте представим, что вы хотите вывести некоторый параметр из некоторых наблюдаемых пар ввода-вывода . Предположим, что выходы линейно связаны с входами через и что данные повреждены некоторым шумом :β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

где - гауссовский шум со средним значением и дисперсией . Это приводит к вероятности Гаусса:ϵ0σ2

n=1NN(yn|βxn,σ2).

Давайте упорядочим параметр , наложив гауссовский априор где - строго положительный скаляр. Следовательно, объединяя вероятность и априор мы просто имеем:βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

Давайте возьмем логарифм вышеприведенного выражения. Отбрасывая некоторые константы, мы получаем:

n=1N1σ2(ynβxn)2λβ2+const.

Если мы максимизируем приведенное выше выражение по отношению к , мы получим так называемую максимальную апостериорную оценку для или MAP-оценку для краткости. В этом выражении становится очевидным, почему гауссовский априор можно интерпретировать как член регуляризации L2.ββ


Аналогичным образом, соотношение между нормой L1 и априорной Лапласом может быть понято таким же образом. Возьмите вместо гауссовского априора, априор Лапласа объедините его с вероятностью и возьмите логарифм

Хорошим справочным материалом (возможно, немного продвинутым), в котором подробно рассматриваются обе проблемы, является документ «Адаптивная разреженность для контролируемого обучения», который в настоящее время не так легко найти в Интернете. В качестве альтернативы посмотрите на «Адаптивная разреженность с использованием Jeffreys Prior» . Другой хороший справочник - «О байесовской классификации с априорными точками Лапласа» .

ngiann
источник
1
В случае D dimensionлинейной регрессии могут betaи могут sigmaбыть явные решения? Я читаю PRML, нахожу уравнение (1.67) на странице 30 и не знаю, как его решить. По максимальной вероятности, мы решаем, betaа затем sigmaустанавливаем градиент на ноль. В регуляризованном наименьшем квадрате, так как параметр рекуляризации некоторый lambdaизвестен, мы решаем betaнепосредственно. Но если мы непосредственно решить ПДЧ, что порядок решения beta, sigma? Могут ли они иметь явное решение или мы должны использовать итеративный процесс?
stackunderflow
Вам не хватает "квадрата" на в последнем уравнении, т.е. ? λβλβ2
brian.keng
@AdamO Ограничивает количество значений, которые могут принимать коэффициенты. Если предшествующее значение находится между 1-10, например, тогда есть вероятность того, что коэффициент примет любое другое значение, то есть, [-inf to 1] и [10, + inf].
imsrgadich
1
В этом случае известен. Работает ли, когда неизвестно? Для байесовской линейной регрессии обратный гамма-коэффициент может быть использован для формирования конъюгата до дисперсии. Но я не уверен, что алгебра будет иметь такое же выражение. σ2σ2
AdamO
11

Для линейной модели с многовариантным нормальным предшествующим и многомерным нормальным правдоподобием вы получите многомерное нормальное апостериорное распределение, в котором среднее значение апостериорной (и максимальной апостериорной модели) будет именно тем, что вы получите, используя регуляризованный по Тихонову ( регуляризованные) наименьших квадратов с соответствующим параметром регуляризации. L2

Обратите внимание, что есть более фундаментальное различие в том, что байесовский апостериор является распределением вероятностей, в то время как регуляризованное по Тихонову решение методом наименьших квадратов является оценкой конкретной точки.

Это обсуждается во многих учебниках по байесовским методам для обратных задач. См., Например:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Точно так же, если у вас есть предшествующий лапласиану множитель и нормальное правдоподобие, то максимум апостериорного распределения возникает в точке, которую вы могли бы получить, решая регуляризованную задачу наименьших квадратов . L1

Брайан Борхерс
источник
9

Сначала обратите внимание, что медиана минимизирует норму L1 (смотрите здесь или здесь, чтобы узнать больше о L1 и L2)

median(x)=argminsi|xis|1

в то время как среднее значение минимизирует L2

mean(x)=argminsi|xis|2

Теперь напомним, что параметр нормальных распределений может быть оценен с использованием среднего значения выборки , тогда как оценщик MLE для параметра для распределения Лапласа равен медиане. Таким образом, использование нормального распределения эквивалентно оптимизации нормы L2, а использование распределения Лапласа - использованию оптимизации L1. На практике вы можете думать об этом, как о том, что медиана менее чувствительна к выбросам, чем среднее, и то же самое, если использовать распределение Лапласа с хвостом выше, делает вашу модель менее подверженной выбросам, чем использование нормального распределения.μμ


Херли, WJ (2009) Индуктивный подход для расчета MLE для двойного экспоненциального распределения . Журнал современных прикладных статистических методов: 8 (2), статья 25.

Тим
источник
Возможно, это не самый математически строгий ответ, приведенный здесь, но это, безусловно, самый простой и интуитивно понятный для новичка в L1 / L2 регуляризации.
SQLServerSteve
8

Для задачи регрессии с переменными (без перехвата) вы делаете OLS какk

minβ(yXβ)(yXβ)

В регуляризованной регрессии со штрафом вы делаетеLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

Мы можем эквивалентно сделать (обратите внимание на изменения знака)

maxβ(yXβ)(yXβ)λi=1k|βi|p

Это напрямую связано с байесовским принципом

posteriorlikelihood×prior

или эквивалентно (в условиях регулярности)

log(posterior)log(likelihood)+log(penalty)

Теперь нетрудно понять, какое экспоненциальное распределение семейства соответствует какому типу штрафа.

Георг М. Горг
источник
3

Чтобы поставить эквивалентность более точно:

Оптимизация весов модели для минимизации квадрата функции потери ошибок с регуляризацией L2 эквивалентна нахождению весов, которые наиболее вероятны при апостериорном распределении, оцененном по правилу Байеса, с независимыми от нуля средними гауссовыми весами до

Доказательство:

Функция потерь, как описано выше, будет

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

Обратите внимание, что для многомерного гауссовского распределения используется распределение

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

Используя правило Байеса, мы имеем

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

Где мы можем разделить многомерный гассиан на продукт, потому что ковариация кратна единичной матрице.

Возьмите отрицательную вероятность логарифма

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

Конечно, мы можем отбросить константу и умножить ее на любую величину без существенного влияния на функцию потерь. (константа ничего не делает, умножение эффективно масштабирует скорость обучения. Не влияет на расположение минимумов). Таким образом, мы можем видеть, что отрицательная логарифмическая вероятность апостериорного распределения является функцией потерь, эквивалентной регуляризованной квадратной функции потери ошибок L2.

Эта эквивалентность является общей и справедлива для любой параметризованной функции весов, а не только для линейной регрессии, как представляется выше.

nickelnine37
источник
1

Существуют две характеристики байесовского моделирования, которые необходимо подчеркнуть при обсуждении эквивалентности определенных штрафных оценок максимального правдоподобия и байесовских процедур.

  1. В байесовской структуре приоритет выбирается на основе специфики проблемы и не мотивируется вычислительной целесообразностью. Следовательно, байесовцы используют множество априоров, в том числе популярную в настоящее время подкову для редких проблем предикторов, и не нужно так сильно полагаться на априоры, которые эквивалентны штрафам L1 или L2.
  2. С полным байесовским подходом у вас есть доступ ко всем логическим процедурам, когда вы закончите. Например, вы можете определить количество доказательств для больших коэффициентов регрессии и получить достоверные интервалы для коэффициентов регрессии и общих прогнозируемых значений. В рамках часто используемых программ, выбрав наказание, вы потеряете всю логическую схему.
Фрэнк Харрелл
источник