LASSO и гребень с байесовской точки зрения: как насчет параметра настройки?

17

Говорят, что штрафованные регрессионные оценки, такие как LASSO и ridge, соответствуют байесовским оценкам с определенными априорными значениями. Я предполагаю (поскольку я не знаю достаточно о байесовской статистике), что для фиксированного параметра настройки существует конкретный соответствующий априор.

Теперь частый пользователь будет оптимизировать параметр настройки путем перекрестной проверки. Есть ли байесовский эквивалент этого и используется ли он вообще? Или байесовский подход эффективно фиксирует параметр настройки перед просмотром данных? (Я полагаю, что последний будет вредить прогнозирующей производительности.)

Ричард Харди
источник
3
Я полагаю, что полностью байесовский подход будет начинаться с данного априора, а не изменять его, да. Но есть также эмпирический байесовский подход, который оптимизирует значения гиперпараметров: например, см. Stats.stackexchange.com/questions/24799 .
говорит амеба: восстанови Монику
Дополнительный вопрос (может быть частью основного Q): существуют ли какие-то предварительные значения параметра регуляризации, которые каким-то образом заменяют процесс перекрестной проверки?
kjetil b halvorsen
1
Байесовцы могут поставить априор на параметр настройки, так как он обычно соответствует параметру дисперсии. Обычно это делается для того, чтобы избежать CV, чтобы оставаться полностью байесовским. Кроме того, вы можете использовать REML для оптимизации параметра регуляризации.
парень
2
PS: для тех, кто стремится к награде, обратите внимание на мой комментарий: я хочу видеть явный ответ, который показывает априор, который вызывает оценку MAP, эквивалентную частой перекрестной проверке.
statslearner2
1
@ statslearner2 Думаю, это очень хорошо отвечает на вопрос Ричарда. Ваша награда, кажется, сфокусирована на более узком аспекте (о гиперприоре), чем вопрос Ричарда
амеба говорит, что восстановите Монику

Ответы:

18

Говорят, что штрафованные регрессионные оценки, такие как LASSO и ridge, соответствуют байесовским оценкам с определенными априорными значениями.

Да, это правильно. Всякий раз, когда у нас возникает проблема оптимизации, включающая максимизацию логарифмической функции правдоподобия плюс функцию штрафа для параметров, это математически эквивалентно апостериорной максимизации, где функция штрафа принимается за логарифм предыдущего ядра. Чтобы увидеть это, предположим, что у нас есть штрафная функция w, использующая параметр настройки λ . Целевая функция в этих случаях может быть записана как:весλ

Hx(θ|λ)=x(θ)w(θ|λ)=ln(Lx(θ)exp(w(θ|λ)))=ln(Lx(θ)π(θ|λ)Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,

где мы используем предшествующий π(θ|λ)exp(w(θ|λ)) . Обратите внимание, что параметр настройки в оптимизации рассматривается как фиксированный гиперпараметр в предыдущем распределении. Если вы проводите классическую оптимизацию с фиксированным параметром настройки, это эквивалентно байесовской оптимизации с фиксированным гиперпараметром. Для регрессии LASSO и Ridge штрафные функции и соответствующие априорные эквиваленты:

LASSO Regressionπ(θ|λ)=k=1mLaplace(0,1λ)=k=1mλ2exp(λ|θk|),Ridge Regressionπ(θ|λ)=k=1mNormal(0,12λ)=k=1mλ/πexp(λθk2).

Первый метод штрафует коэффициенты регрессии в соответствии с их абсолютной величиной, которая эквивалентна наложению предшествующего Лапласа, расположенного в нуле. Последний метод штрафует коэффициенты регрессии в соответствии с их квадратом, который является эквивалентом наложения нормального априора, расположенного в нуле.

Теперь частый пользователь будет оптимизировать параметр настройки путем перекрестной проверки. Есть ли байесовский эквивалент этого и используется ли он вообще?

До тех пор, пока метод частых рассуждений может быть поставлен как задача оптимизации (а не, скажем, включая проверку гипотезы или что-то в этом роде), будет существовать байесовская аналогия, использующая эквивалентный априор. Подобно тому, как частые пользователи могут рассматривать параметр настройки λ как неизвестный и оценивать его по данным, байесовский аналог может трактовать гиперпараметр λ как неизвестный. В полном байесовском анализе это будет включать в себя предоставление гиперпараметру собственного априора и нахождение апостериорного максимума при этом априоре, что будет аналогично максимизации следующей целевой функции:

Hx(θ,λ)=x(θ)w(θ|λ)h(λ)=ln(Lx(θ)exp(w(θ|λ))exp(h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.

Этот метод действительно используется в байесовском анализе в тех случаях, когда аналитику неудобно выбирать определенный гиперпараметр для своего априора, и он стремится сделать априор более размытым, рассматривая его как неизвестный и давая ему распределение. (Обратите внимание, что это просто неявный способ придания более рассеянного значения интересующему параметру θ .)

(Комментарий от statslearner2 ниже) Я ищу числовые эквивалентные оценки MAP. Например, для хребта с фиксированным штрафом существует гауссовский априор, который даст мне оценку MAP, точно равную оценке хребта. Теперь, для k-кратного CV-риджа, какой гиперприоритет даст мне оценку MAP, которая похожа на оценку CV-риджа?

Прежде чем перейти к перекрестной проверке в K кратном порядке, сначала стоит отметить, что математически метод максимального апостериорного (MAP) является просто оптимизацией функции параметра θ и данных x . Если вы хотите разрешить неправильные априорные значения, тогда область действия включает в себя любую проблему оптимизации, связанную с функцией этих переменных. Таким образом, любой метод частых сообщений, который может быть сформулирован как отдельная задача оптимизации такого рода, имеет аналогию MAP, а любой метод частых случаев, который не может быть оформлен как отдельная оптимизация такого типа, не имеет аналогии MAP.

В приведенной выше форме модели, включающей в себя функцию штрафа с параметром настройки, для оценки параметра настройки λ обычно используется перекрестная проверка в K кратном размере . Для этого метода разбиения данных вектора х в К суб-векторы х 1 , . , , , Х К . Для каждого из суб-вектора к = 1 , . , , , K вы подгоняете модель к данным «обучения» x - k, а затем измеряете подгонку модели к данным «тестирования» x kλxKx1,...,xKk=1,...,Kxkxk, При каждом подборе вы получаете оценку параметров модели, которая затем дает вам прогнозы данных тестирования, которые затем можно сравнить с фактическими данными тестирования, чтобы получить показатель «потерь»:

Estimatorθ^(xk,λ),Predictionsx^k(xk,λ),Testing lossLk(x^k,xk|xk,λ).

Меры потерь для каждого из K "сгибов" могут затем быть агрегированы, чтобы получить общую меру потерь для перекрестной проверки:

L(x,λ)=kLk(x^k,xk|xk,λ)

Затем оценивается параметр настройки путем минимизации общего показателя потерь:

λ^λ^(x)arg min λL(x,λ).

Мы можем видеть, что это проблема оптимизации, и поэтому у нас теперь есть две отдельные задачи оптимизации (то есть одна, описанная в разделах выше для θ , и одна, описанная здесь для λ ). Поскольку последняя оптимизация не включает в себя θ , мы можем объединить эти оптимизации в одну проблему с некоторыми техническими особенностями, которые я рассмотрю ниже. Для этого рассмотрим задачу оптимизации с целевой функцией:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ),

где δ>0 - весовое значение на потери при настройке. При δ вес при оптимизации потерь при настройке становится бесконечным, и поэтому задача оптимизации дает оценочный параметр настройки из K кратной перекрестной проверки (в пределе). Оставшаяся часть целевой функции является стандартной целевой функцией, зависящей от этого оценочного значения параметра настройки. Теперь, к сожалению, взяв δ= , мы усложняем задачу оптимизации, но если взять δ как очень большое (но все же конечное) значение, мы можем аппроксимировать комбинацию двух задач оптимизации до произвольной точности.

Из приведенного выше анализа мы видим, что можно сформировать аналогию MAP с процессом подбора моделей и перекрестной проверки с K кратным увеличением . Это не точная аналогия, но это близкая аналогия с произвольной точностью. Также важно отметить, что аналогия MAP больше не использует ту же функцию правдоподобия, что и исходная проблема, поскольку функция потерь зависит от данных и, таким образом, воспринимается как часть вероятности, а не как предыдущая. На самом деле, полная аналогия заключается в следующем:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ)=ln(Lx(θ,λ)π(θ,λ)Lx(θ,λ)π(θ,λ)dθ)+const,

where Lx(θ,λ)exp(x(θ)δL(x,λ)) and π(θ,λ)exp(w(θ|λ)), with a fixed (and very large) hyper-parameter δ.


This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.

Reinstate Monica
источник
2
Ok +1 already, but for the bounty I'm looking for these more precise answers.
statslearner2
4
1. I do not get how (since frequentists generally use classical hypothesis tests, etc., which have no Bayesian equivalent) connects to the rest of what I or you are saying; parameter tuning has nothing to do with hypothesis tests, or does it? 2. Do I understand you correctly that there is no Bayesian equivalent to frequentist regularized estimation when the tuning parameter is selected by cross validation? What about empirical Bayes that amoeba mentions in the comments to the OP?
Richard Hardy
3
3. Since regularization with cross validation seems to be quite effective for, say, prediction, doesn't point 2. suggest that the Bayesian approach is somehow inferior?
Richard Hardy
1
@Ben, thanks for your explicit answer and the subsequent clarifications. You have once again done a wonderful job! Regarding 3., yes, it was quite a jump; it certainly is not a strict logical conclusion. But looking at your points w.r.t. 2. (that a Bayesian method can approximate the frequentist penalized optimization with cross validation), I no longer think that Bayesian must be "inferior". The last quibble on my side is, could you perhaps explain how the last, complicated formula could arise in practice in the Bayesian paradigm? Is it something people would normally use or not?
Richard Hardy
2
@Ben (ctd) My problem is that I know little about Bayes. Once it gets technical, I may easily lose the perspective. So I wonder whether this complicated analogy (the last formula) is something that is just a technical possibility or rather something that people routinely use. In other words, I am interested in whether the idea behind cross validation (here in the context of penalized estimation) is resounding in the Bayesian world, whether its advantages are utilized there. Perhaps this could be a separate question, but a short description will suffice for this particular case.
Richard Hardy
6

Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has a χ2 prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.

A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.

Dimitris Rizopoulos
источник
Thank you for your answer! The linked paper is quite readable, which is nice.
Richard Hardy
2
This does not answer the question, can you elaborate to explain how does the hyper-prior relate to k-fold CV?
statslearner2