Говорят, что штрафованные регрессионные оценки, такие как LASSO и ridge, соответствуют байесовским оценкам с определенными априорными значениями. Я предполагаю (поскольку я не знаю достаточно о байесовской статистике), что для фиксированного параметра настройки существует конкретный соответствующий априор.
Теперь частый пользователь будет оптимизировать параметр настройки путем перекрестной проверки. Есть ли байесовский эквивалент этого и используется ли он вообще? Или байесовский подход эффективно фиксирует параметр настройки перед просмотром данных? (Я полагаю, что последний будет вредить прогнозирующей производительности.)
bayesian
lasso
ridge-regression
Ричард Харди
источник
источник
Ответы:
Да, это правильно. Всякий раз, когда у нас возникает проблема оптимизации, включающая максимизацию логарифмической функции правдоподобия плюс функцию штрафа для параметров, это математически эквивалентно апостериорной максимизации, где функция штрафа принимается за логарифм предыдущего ядра. † Чтобы увидеть это, предположим, что у нас есть штрафная функция w, использующая параметр настройки λ . Целевая функция в этих случаях может быть записана как:† w λ
где мы используем предшествующийπ(θ|λ)∝exp(−w(θ|λ)) . Обратите внимание, что параметр настройки в оптимизации рассматривается как фиксированный гиперпараметр в предыдущем распределении. Если вы проводите классическую оптимизацию с фиксированным параметром настройки, это эквивалентно байесовской оптимизации с фиксированным гиперпараметром. Для регрессии LASSO и Ridge штрафные функции и соответствующие априорные эквиваленты:
Первый метод штрафует коэффициенты регрессии в соответствии с их абсолютной величиной, которая эквивалентна наложению предшествующего Лапласа, расположенного в нуле. Последний метод штрафует коэффициенты регрессии в соответствии с их квадратом, который является эквивалентом наложения нормального априора, расположенного в нуле.
До тех пор, пока метод частых рассуждений может быть поставлен как задача оптимизации (а не, скажем, включая проверку гипотезы или что-то в этом роде), будет существовать байесовская аналогия, использующая эквивалентный априор. Подобно тому, как частые пользователи могут рассматривать параметр настройкиλ как неизвестный и оценивать его по данным, байесовский аналог может трактовать гиперпараметр λ как неизвестный. В полном байесовском анализе это будет включать в себя предоставление гиперпараметру собственного априора и нахождение апостериорного максимума при этом априоре, что будет аналогично максимизации следующей целевой функции:
Этот метод действительно используется в байесовском анализе в тех случаях, когда аналитику неудобно выбирать определенный гиперпараметр для своего априора, и он стремится сделать априор более размытым, рассматривая его как неизвестный и давая ему распределение. (Обратите внимание, что это просто неявный способ придания более рассеянного значения интересующему параметруθ .)
Прежде чем перейти к перекрестной проверке вK кратном порядке, сначала стоит отметить, что математически метод максимального апостериорного (MAP) является просто оптимизацией функции параметра θ и данных x . Если вы хотите разрешить неправильные априорные значения, тогда область действия включает в себя любую проблему оптимизации, связанную с функцией этих переменных. Таким образом, любой метод частых сообщений, который может быть сформулирован как отдельная задача оптимизации такого рода, имеет аналогию MAP, а любой метод частых случаев, который не может быть оформлен как отдельная оптимизация такого типа, не имеет аналогии MAP.
В приведенной выше форме модели, включающей в себя функцию штрафа с параметром настройки, для оценки параметра настройки λ обычно используется перекрестная проверка вK кратном размере . Для этого метода разбиения данных вектора х в К суб-векторы х 1 , . , , , Х К . Для каждого из суб-вектора к = 1 , . , , , K вы подгоняете модель к данным «обучения» x - k, а затем измеряете подгонку модели к данным «тестирования» x kλ x K x1,...,xK k=1,...,K x−k xk , При каждом подборе вы получаете оценку параметров модели, которая затем дает вам прогнозы данных тестирования, которые затем можно сравнить с фактическими данными тестирования, чтобы получить показатель «потерь»:
Меры потерь для каждого изK "сгибов" могут затем быть агрегированы, чтобы получить общую меру потерь для перекрестной проверки:
Затем оценивается параметр настройки путем минимизации общего показателя потерь:
Мы можем видеть, что это проблема оптимизации, и поэтому у нас теперь есть две отдельные задачи оптимизации (то есть одна, описанная в разделах выше дляθ , и одна, описанная здесь для λ ). Поскольку последняя оптимизация не включает в себя θ , мы можем объединить эти оптимизации в одну проблему с некоторыми техническими особенностями, которые я рассмотрю ниже. Для этого рассмотрим задачу оптимизации с целевой функцией:
гдеδ>0 - весовое значение на потери при настройке. При δ→∞ вес при оптимизации потерь при настройке становится бесконечным, и поэтому задача оптимизации дает оценочный параметр настройки из K кратной перекрестной проверки (в пределе). Оставшаяся часть целевой функции является стандартной целевой функцией, зависящей от этого оценочного значения параметра настройки. Теперь, к сожалению, взяв δ=∞ , мы усложняем задачу оптимизации, но если взять δ как очень большое (но все же конечное) значение, мы можем аппроксимировать комбинацию двух задач оптимизации до произвольной точности.
Из приведенного выше анализа мы видим, что можно сформировать аналогию MAP с процессом подбора моделей и перекрестной проверки сK кратным увеличением . Это не точная аналогия, но это близкая аналогия с произвольной точностью. Также важно отметить, что аналогия MAP больше не использует ту же функцию правдоподобия, что и исходная проблема, поскольку функция потерь зависит от данных и, таким образом, воспринимается как часть вероятности, а не как предыдущая. На самом деле, полная аналогия заключается в следующем:
whereL∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)) , with a fixed (and very large) hyper-parameter δ .
источник
Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has aχ2 prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.
A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.
источник