Я просматривал литературу по регуляризации, и часто вижу абзацы, которые связывают регуляризацию L2 с априорным гауссианом и L1 с Лапласом с центром в нуле.
Я знаю, как выглядят эти априорные значения, но я не понимаю, как это выражается, например, в весах в линейной модели. В L1, если я правильно понимаю, мы ожидаем разреженных решений, то есть некоторые веса будут сведены к нулю. И в L2 мы получаем малые веса, но не нулевые веса.
Но почему это происходит?
Пожалуйста, прокомментируйте, если мне нужно предоставить больше информации или уточнить мой образ мыслей.
regression
bayesian
prior
regularization
laplace-distribution
Дмитрий Смирнов
источник
источник
Ответы:
Отношение распределения Лапласа до медианы (или нормы L1) было обнаружено самим Лапласом, который обнаружил, что с помощью такого априора вы оцениваете медиану, а не среднее значение, как при нормальном распределении (см. Stingler, 1986 или Wikipedia ). Это означает, что регрессия с распределением ошибок Лапласа оценивает медиану (например, квантильную регрессию), в то время как нормальные ошибки относятся к оценке OLS.
Надежные приоры, о которых вы спрашивали, были описаны также Tibshirani (1996), который заметил, что надежная регрессия Лассо в байесовских условиях эквивалентна использованию предварительного Лапласа. Такие априорные коэффициенты центрируются вокруг нуля (с центрированными переменными) и имеют широкие хвосты - так что большинство коэффициентов регрессии, оцененных с использованием этого, в конечном итоге будут равны нулю. Это ясно, если вы внимательно посмотрите на рисунок ниже, распределение Лапласа имеет пик около нуля (есть большая масса распределения), в то время как нормальное распределение является более рассеянным вокруг нуля, поэтому ненулевые значения имеют большую вероятность. Другими возможностями для надежных априорных значений являются распределения Коши или распределения.T
Используя такие априоры, вы более склонны в конечном итоге получить множество нулевых коэффициентов, некоторые умеренного размера и несколько больших (длинный хвост), в то время как с нормальным приоритетом вы получаете более умеренные коэффициенты, которые скорее не точно равны нулю, но тоже не так далеко от нуля.
(источник изображения Tibshirani, 1996)
Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года. Кембридж, Массачусетс: издательство Belknap Press, издательство Гарвардского университета.
Тибширани Р. (1996). Регрессивная усадка и отбор с помощью лассо. Журнал Королевского статистического общества. Серия B (Методологическая), 267-288.
Гельман А., Джакулин А., Питтау Г.М. и Су Ю.С. (2008). Слабоинформативное предварительное распределение по умолчанию для логистических и других регрессионных моделей. Анналы прикладной статистики, 2 (4), 1360-1383.
Нортон, РМ (1984). Двойное экспоненциальное распределение: использование исчисления для нахождения оценки максимального правдоподобия. Американский статистик, 38 (2): 135-136.
источник
Частый взгляд 👀
В некотором смысле мы можем думать об обеих регуляризациях как о «снижении весов» ; L2 минимизирует евклидову норму весов, в то время как L1 минимизирует манхэттенскую норму. Следуя этой мысли, мы можем рассуждать, что эквипотенциалы L1 и L2 являются сферическими и ромбовидными соответственно, поэтому L1 с большей вероятностью приведет к разреженным решениям, как показано в Бишопе « Распознавание образов и машинное обучение» :
Байесовский вид 👀
Однако, чтобы понять, как априоры относятся к линейной модели , нам нужно понять байесовскую интерпретацию обычной линейной регрессии . Блог Кэтрин Бэйли отлично подходит для этого. Короче говоря, мы предполагаем нормально распределенные ошибки IID в нашей линейной модели
Как выясняется ... Оценка максимального правдоподобия идентична минимизации квадрата ошибки между прогнозируемыми и фактическими выходными значениями при допущении нормальности для ошибки.
Регуляризация как наложение априорных весов
Если бы мы поместили неоднородный априор в веса линейной регрессии, максимальная оценка апостериорной вероятности (MAP) была бы:
Теперь у нас есть еще один взгляд на то, почему размещение Лапласа перед весами с большей вероятностью вызовет разреженность: поскольку распределение Лапласа более сконцентрировано вокруг нуля , наши веса с большей вероятностью будут равны нулю.
источник