Регуляризация L2 эквивалентна гауссовскому приору

56

Я продолжаю читать это и интуитивно вижу это, но как перейти от регуляризации L2 к тому, что аналитически это - Приор Гаусса? То же самое можно сказать и о том, что L1 эквивалентен предшествующему лапласу.

Любые дальнейшие ссылки будут великолепны.

regression references regularization анонимное
источник

54

Давайте представим, что вы хотите вывести некоторый параметр из некоторых наблюдаемых пар ввода-вывода . Предположим, что выходы линейно связаны с входами через и что данные повреждены некоторым шумом : $\beta$ $(x_1,y_1)\dots,(x_N,y_N)$ $\beta$ $\epsilon$

y_{n} = β x_{n} + ϵ,

$y_n = \beta x_n + \epsilon,$

где - гауссовский шум со средним значением и дисперсией . Это приводит к вероятности Гаусса: $\epsilon$ $0$ $\sigma^2$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2).$

Давайте упорядочим параметр , наложив гауссовский априор где - строго положительный скаляр. Следовательно, объединяя вероятность и априор мы просто имеем: $\beta$ $\mathcal{N}(\beta|0,\lambda^{-1}),$ $\lambda$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) N (β | 0, λ^{- 1}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2) \mathcal{N}(\beta|0,\lambda^{-1}).$

Давайте возьмем логарифм вышеприведенного выражения. Отбрасывая некоторые константы, мы получаем:

\sum_{n = 1}^{N} - \frac{1}{σ^{2}} (y_{n} - β x_{n})^{2} - λ β^{2} + const .

$\sum_{n=1}^N -\frac{1}{\sigma^2}(y_n-\beta x_n)^2 - \lambda \beta^2 + \mbox{const}.$

Если мы максимизируем приведенное выше выражение по отношению к , мы получим так называемую максимальную апостериорную оценку для или MAP-оценку для краткости. В этом выражении становится очевидным, почему гауссовский априор можно интерпретировать как член регуляризации L2. $\beta$ $\beta$

Аналогичным образом, соотношение между нормой L1 и априорной Лапласом может быть понято таким же образом. Возьмите вместо гауссовского априора, априор Лапласа объедините его с вероятностью и возьмите логарифм

Хорошим справочным материалом (возможно, немного продвинутым), в котором подробно рассматриваются обе проблемы, является документ «Адаптивная разреженность для контролируемого обучения», который в настоящее время не так легко найти в Интернете. В качестве альтернативы посмотрите на «Адаптивная разреженность с использованием Jeffreys Prior» . Другой хороший справочник - «О байесовской классификации с априорными точками Лапласа» .

ngiann
источник

1

В случае D dimensionлинейной регрессии могут betaи могут sigmaбыть явные решения? Я читаю PRML, нахожу уравнение (1.67) на странице 30 и не знаю, как его решить. По максимальной вероятности, мы решаем, betaа затем sigmaустанавливаем градиент на ноль. В регуляризованном наименьшем квадрате, так как параметр рекуляризации некоторый lambdaизвестен, мы решаем betaнепосредственно. Но если мы непосредственно решить ПДЧ, что порядок решения beta, sigma? Могут ли они иметь явное решение или мы должны использовать итеративный процесс?

stackunderflow

Вам не хватает "квадрата" на в последнем уравнении, т.е. ?

λ β

$\lambda \beta$

λ β^{2}

$\lambda \beta^2$

brian.keng

@AdamO Ограничивает количество значений, которые могут принимать коэффициенты. Если предшествующее значение находится между 1-10, например, тогда есть вероятность того, что коэффициент примет любое другое значение, то есть, [-inf to 1] и [10, + inf].

imsrgadich

1

В этом случае известен. Работает ли, когда неизвестно? Для байесовской линейной регрессии обратный гамма-коэффициент может быть использован для формирования конъюгата до дисперсии. Но я не уверен, что алгебра будет иметь такое же выражение.

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

AdamO

11

Для линейной модели с многовариантным нормальным предшествующим и многомерным нормальным правдоподобием вы получите многомерное нормальное апостериорное распределение, в котором среднее значение апостериорной (и максимальной апостериорной модели) будет именно тем, что вы получите, используя регуляризованный по Тихонову ( регуляризованные) наименьших квадратов с соответствующим параметром регуляризации. $L_{2}$

Обратите внимание, что есть более фундаментальное различие в том, что байесовский апостериор является распределением вероятностей, в то время как регуляризованное по Тихонову решение методом наименьших квадратов является оценкой конкретной точки.

Это обсуждается во многих учебниках по байесовским методам для обратных задач. См., Например:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Точно так же, если у вас есть предшествующий лапласиану множитель и нормальное правдоподобие, то максимум апостериорного распределения возникает в точке, которую вы могли бы получить, решая регуляризованную задачу наименьших квадратов . $L_{1}$

Брайан Борхерс
источник

9

Сначала обратите внимание, что медиана минимизирует норму L1 (смотрите здесь или здесь, чтобы узнать больше о L1 и L2)

median (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{1}

$\DeclareMathOperator*{\argmin}{arg\,min} \text{median}(x) = \argmin_s \sum_i |x_i - s|^1$

в то время как среднее значение минимизирует L2

mean (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{2}

$\text{mean}(x) = \argmin_s \sum_i |x_i - s|^2$

Теперь напомним, что параметр нормальных распределений может быть оценен с использованием среднего значения выборки , тогда как оценщик MLE для параметра для распределения Лапласа равен медиане. Таким образом, использование нормального распределения эквивалентно оптимизации нормы L2, а использование распределения Лапласа - использованию оптимизации L1. На практике вы можете думать об этом, как о том, что медиана менее чувствительна к выбросам, чем среднее, и то же самое, если использовать распределение Лапласа с хвостом выше, делает вашу модель менее подверженной выбросам, чем использование нормального распределения. $\mu$ $\mu$

Херли, WJ (2009) Индуктивный подход для расчета MLE для двойного экспоненциального распределения . Журнал современных прикладных статистических методов: 8 (2), статья 25.

Тим
источник

Возможно, это не самый математически строгий ответ, приведенный здесь, но это, безусловно, самый простой и интуитивно понятный для новичка в L1 / L2 регуляризации.

SQLServerSteve

8

Для задачи регрессии с переменными (без перехвата) вы делаете OLS как $k$

min_{β} (y - X β)^{'} (y - X β)

$\min_{\beta} (y - X \beta)' (y - X \beta)$

В регуляризованной регрессии со штрафом вы делаете $L^p$

min_{β} (y - X β)^{'} (y - X β) + λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\min_{\beta} (y - X \beta)' (y - X \beta) + \lambda \sum_{i=1}^k |\beta_i|^p$

Мы можем эквивалентно сделать (обратите внимание на изменения знака)

max_{β} - (y - X β)^{'} (y - X β) - λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\max_{\beta} -(y - X \beta)' (y - X \beta) - \lambda \sum_{i=1}^k |\beta_i|^p$

Это напрямую связано с байесовским принципом

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

$posterior \propto likelihood \times prior$

или эквивалентно (в условиях регулярности)

l o g (p o s t e r i o r) \sim l o g (l i k e l i h o o d) + l o g (p e n a l t y)

$log(posterior) \sim log(likelihood) + log(penalty)$

Теперь нетрудно понять, какое экспоненциальное распределение семейства соответствует какому типу штрафа.

Георг М. Горг
источник

3

Чтобы поставить эквивалентность более точно:

Оптимизация весов модели для минимизации квадрата функции потери ошибок с регуляризацией L2 эквивалентна нахождению весов, которые наиболее вероятны при апостериорном распределении, оцененном по правилу Байеса, с независимыми от нуля средними гауссовыми весами до

Доказательство:

Функция потерь, как описано выше, будет

L = \underset{O r i g i n a l l o s s f u n c t i o n}{\underset{⏟}{[\sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2}]}} + \underset{L_{2} l o s s}{\underset{⏟}{λ \sum_{i = 1}^{K} w_{i}^{2}}}

$L = \underbrace{\Big[ \sum_{n=1}^{N} (y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)}))^{2} \Big] }_{Original \; loss \; function} + \underbrace{\lambda \sum_{i=1}^{K} w_{i}^{2}}_{L_{2} \; loss}$

Обратите внимание, что для многомерного гауссовского распределения используется распределение

N (x; μ, Σ) = \frac{1}{(2 π)^{D / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))

$\mathcal{N}(\mathbf{x}; \mathbf{\mu}, \Sigma) = \frac{1}{(2 \pi)^{D/2}|\Sigma|^{1/2}} \exp\Big(-\frac{1}{2} (\mathbf{x} -\mathbf{\mu})^{\top} \Sigma^{-1} (\mathbf{x} -\mathbf{\mu})\Big)$

Используя правило Байеса, мы имеем

\begin{aligned} p (w | D) & = \frac{p (D | w) p (w)}{p (D)} \\ \propto p (D | w) p (w) \\ \propto [\prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] N (w; 0, σ_{w}^{2} I) \\ \propto \prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2}) \prod_{i = 1}^{K} N (w_{i}; 0, σ_{w}^{2}) \end{aligned}

$\begin{split} p(\mathbf{w}|\mathcal{D}) &= \frac{p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})}{p(\mathcal{D})}\newline &\propto p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})\newline &\propto \Big[ \prod_{n}^{N} \mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2})\Big] \; \mathcal{N}(\mathbf{w}; \mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbb{I})\newline &\propto \prod_{n}^{N} \mathcal{N}(y^{(n)};f_{\mathbf{w}}(\mathbf{x}^{(n)}) , \sigma_{y}^{2}) \prod_{i=1}^{K} \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \newline \end{split}$

Где мы можем разделить многомерный гассиан на продукт, потому что ковариация кратна единичной матрице.

Возьмите отрицательную вероятность логарифма

\begin{aligned} - \log [p (w | D)] & = - \sum_{n = 1}^{N} \log [N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] - \sum_{i = 1}^{K} \log [N (w_{i}; 0, σ_{w}^{2})] + c o n s t . \\ = \frac{1}{2 σ_{y}^{2}} \sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2} + \frac{1}{2 σ_{w}^{2}} \sum_{i = 1}^{K} w_{i}^{2} + c o n s t . \end{aligned}

$\begin{split} -\log \big[p(\mathbf{w}|\mathcal{D}) \big] &= -\sum_{n=1}^{N} \log \big[\mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2}) \big] - \sum_{i=1}^{K} \log \big[ \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \big] + const. \newline &= \frac{1}{2\sigma_{y}^{2}} \sum_{n=1}^{N} \big(y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)})\big)^{2} + \frac{1}{2\sigma_{\mathbf{w}}^{2}} \sum_{i=1}^{K} w_{i}^{2} + const. \newline \end{split}$

Конечно, мы можем отбросить константу и умножить ее на любую величину без существенного влияния на функцию потерь. (константа ничего не делает, умножение эффективно масштабирует скорость обучения. Не влияет на расположение минимумов). Таким образом, мы можем видеть, что отрицательная логарифмическая вероятность апостериорного распределения является функцией потерь, эквивалентной регуляризованной квадратной функции потери ошибок L2.

Эта эквивалентность является общей и справедлива для любой параметризованной функции весов, а не только для линейной регрессии, как представляется выше.

nickelnine37
источник

1

Существуют две характеристики байесовского моделирования, которые необходимо подчеркнуть при обсуждении эквивалентности определенных штрафных оценок максимального правдоподобия и байесовских процедур.

В байесовской структуре приоритет выбирается на основе специфики проблемы и не мотивируется вычислительной целесообразностью. Следовательно, байесовцы используют множество априоров, в том числе популярную в настоящее время подкову для редких проблем предикторов, и не нужно так сильно полагаться на априоры, которые эквивалентны штрафам L1 или L2.
С полным байесовским подходом у вас есть доступ ко всем логическим процедурам, когда вы закончите. Например, вы можете определить количество доказательств для больших коэффициентов регрессии и получить достоверные интервалы для коэффициентов регрессии и общих прогнозируемых значений. В рамках часто используемых программ, выбрав наказание, вы потеряете всю логическую схему.

Фрэнк Харрелл
источник

Регуляризация L2 эквивалентна гауссовскому приору

Ответы: