Является ли коэффициент ошибок выпуклой функцией лямбда-параметра регуляризации?

11

При выборе параметра регуляризации лямбда в Ridge или Lasso рекомендуется использовать разные значения лямбды, измерить ошибку в наборе валидации и, наконец, выбрать то значение лямбды, которое возвращает наименьшую ошибку.

Мне не понятно, если функция f (лямбда) = error является выпуклой. Может ли быть так? Т.е. эта кривая может иметь более одного локального минимума (что подразумевает, что нахождение минимума ошибки в некоторой области лямбды не исключает возможности того, что в некоторой другой области есть лямбда, возвращающая еще меньшую ошибку)

введите описание изображения здесь

Ваш совет будет оценен.

RF7
источник

Ответы:

11

В первоначальном вопросе задавался вопрос, должна ли функция ошибки быть выпуклой. Нет. Анализ, представленный ниже, предназначен для того, чтобы предоставить некоторое понимание и интуицию по этому и измененному вопросу, который спрашивает, может ли функция ошибки иметь несколько локальных минимумов.

Интуитивно понятно, что между данными и обучающим набором не должно быть математически необходимых отношений. Мы должны быть в состоянии найти данные обучения, для которых модель изначально плоха, улучшается с некоторой регуляризацией, а затем снова ухудшается. Кривая ошибки не может быть выпуклой в этом случае - по крайней мере, если мы сделаем параметр регуляризации от до .0

Обратите внимание, что выпуклость не эквивалентна наличию уникального минимума! Тем не менее, аналогичные идеи предполагают, что возможны несколько локальных минимумов: во время регуляризации сначала подобранная модель может улучшиться для некоторых данных обучения, в то время как незначительно изменяется для других данных обучения, а затем позже она улучшится для других данных обучения и т. Д. Сочетание таких обучающих данных должно давать несколько локальных минимумов. Для простоты анализа я не буду пытаться показать это.

Изменить (чтобы ответить на измененный вопрос)

Я был настолько уверен в анализе, представленном ниже, и интуиции за ним, что я решил найти пример самым грубым способом: я сгенерировал небольшие случайные наборы данных, запустил на них лассо, вычислил общую квадратичную ошибку для небольшого тренировочного набора, и построил свою кривую ошибок. Несколько попыток дали одну с двумя минимумами, которые я опишу. Векторы имеют вид для признаков x 1 и x 2 и отклика y .(x1,x2,y)x1x2y

Тренировочные данные

(1,1,0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

Тестовые данные

(1,1,0.2), (1,2,0.4)

Лассо был запущен с использованием glmnet::glmmetin R, все аргументы остались по умолчанию. Значения на оси x являются обратными величинами значений, сообщаемых этим программным обеспечением (поскольку оно параметризует свой штраф с 1 / λ ).λ1/λ

Кривая ошибки с несколькими локальными минимумами

фигура


Анализ

Давайте рассмотрим любой метод регуляризации подгонки параметров к данным x i и соответствующим ответам y i, которые имеют эти свойства, общие для регрессии Риджа и Лассо:β=(β1,,βp)xiyi

  1. (Параметризация) Метод параметризуется действительными числами , причем нерегулярная модель соответствует λ = 0 .λ[0,)λ=0

  2. (Непрерывность) Оценка параметров β непрерывно зависит от Л и предсказанные значения для любых функций непрерывно меняются в зависимости от р .β^λβ^

  3. (Усадка) Как , & beta ; → 0 .λβ^0

  4. (Конечность) Для любого вектора признаков , а & beta ; → 0 , предсказание у ( х ) = е ( х , & beta ; ) 0 .xβ^0y^(x)=f(x,β^)0

  5. (Монотонная ошибка) Функция ошибки сравнивая любое значение к значению предсказанного у , L ( у , у ) , возрастает с несоответствием | У - у | так что, с некоторым злоупотреблением нотации, мы можем выразить как L ( | у - у | ) .yy^L(y,y^)|y^y|L(|y^y|)

(Ноль в можно заменить любой константой.)(4)

Предположим , что данные таковы , что начальная (нерегуляризованное) оценка параметра β ( 0 ) не равен нулю. Давайте конструкт набор данных обучения , состоящий из одного наблюдения ( х 0 , у 0 ) , для которых F ( х 0 , β ( 0 ) ) 0 . (Если невозможно найти такой x 0 , тогда начальная модель не будет очень интересной!) Установите y 0 = f ( x 0 ,β^(0)(x0,y0)f(x0,β^(0))0x0. y0=f(x0,β^(0))/2

Допущения означают ошибки кривой имеет следующие свойства:e:λL(y0,f(x0,β^(λ))

  1. (изза выбора у 0 ).e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|)y0

  2. (потому чтокак А , , β ( А , ) 0 , откуда у ( х 0 ) 0 ).limλe(λ)=L(y0,0)=L(|y0|)λβ^(λ)0y^(x0)0

Таким образом, его граф непрерывно соединяет две одинаково высокие (и конечные) конечные точки.

На рисунке показан возможный график $ e $.

Качественно, есть три возможности:

  • Прогноз для тренировочного набора никогда не меняется. Это маловероятно - практически любой выбранный вами пример не будет иметь этого свойства.

  • Некоторые промежуточные предсказания для являются хуже , чем в начале λ = 0 или в пределе λ . Эта функция не может быть выпуклой.0<λ<λ=0λ

  • Все промежуточные прогнозы лежат между и 2 y 0 . Непрерывность подразумевает наличие хотя бы одного минимума e , вблизи которого e должно быть выпуклым. Но поскольку e ( λ ) приближается к конечной постоянной асимптотически, она не может быть выпуклой при достаточно большом λ .02y0eee(λ)λ

Вертикальная пунктирная линия на рисунке показывает, где график меняется с выпуклого (слева) на невыпуклый (справа). (Существует также область невыпуклости вблизи на этом рисунке, но это не обязательно будет иметь место в общем.)λ0

Whuber
источник
Спасибо за ваш сложный ответ. Если возможно, просмотрите вопрос, как я отредактировал, и обновите ваш ответ.
rf7
Отличный ответ (+1). На практике, я думаю, что часто не так уж и мало данных о тренировках и тестах. Изменится ли вывод этого ответа, когда будет достаточно данных для обучения и тестирования, взятых из одного (фиксированного и достаточно регулярного) распределения? В частности, при этом сценарии существует ли уникальный локальный минимум с высокой вероятностью?
user795305
@Ben Важно не количество контрольных точек: этот результат полностью зависит от распределения контрольных точек относительно распределения тренировочных точек. Поэтому вопрос «с высокой вероятностью» не будет отвечать без принятия некоторых конкретных предположений о многомерном распределении переменных регрессора. Кроме того, при наличии множества переменных этот феномен множественных локальных минимумов будет гораздо более вероятным. Я подозреваю, что случайный выбор большого набора тестов (с количеством наблюдений во много раз больше переменных) часто может иметь уникальный глобальный минимум.
whuber
1
(x,y)nnpn
0

Этот ответ конкретно касается лассо (и не относится к регрессии гребня).

Настроить

pnm

X(1)Rn×py(1)Rn

(1)β^λ=argminβRpy(1)X(1)β22+λβ1,
β^λX(2)Rm×py(2)Rm
(2)λ^=argminλR+y(2)X(2)β^λ22,
e(λ)=y(2)X(2)β^λ22β^λ^

расчет

(2)Xy

2λ2y(2)X(2)β^λ22=λ{2y(2)TX(2)λβ^λ+2β^λTX(2)TX(2)λβ^λ}=2y(2)TX(2)2λ2β^λ+2(β^λ)TX(2)TX(2)2λ2β^λ+2λβ^λTX(2)TX(2)Tλβ^λ=2{(y(2)X(2)β^λ)T2λ2β^λX(2)λβ^λ22}.
β^λλKKλβ^λ2λ2β^λλK
2λ2y(2)X(2)β^λ22=2X(2)λβ^λ22,
λ

Вывод

X(2){X(1),y(1)}X(2)λβ^λ0λ<λmaxe(λ)RKβ^λe(λ)

Наконец, из лассо-дуала мы знаем, что X(1)β^λ22λX(2)β^λ22e(λ)L(X(1))=L(X(2))

user795305
источник
1
Вы полагаетесь только на β является непрерывной кусочно - линейной функцией Хβ^λe^β^(λ)=|λ[λ]|[]y(2)=0X(2)=1e^(λ)=β^(λ)2
@whuber Хорошая мысль! Благодаря! Я скоро отредактирую этот пост.
user795305