Мы знаем, что для , оценка Лассо . (См., Например, область настройки параметров Лассо и Риджа .) В других обозначениях это означает, что . Обратите внимание, что Мы видим это визуально на следующем изображении, показывающем путь решения лассо:
Обратите внимание, что в крайней правой части графика все коэффициенты равны нулю. Это происходит в точке описанной выше.
Из этого графика мы также заметили, что в крайней левой части все коэффициенты отличны от нуля: каково значение при котором любой компонент изначально равен нулю? То есть, чему равна в зависимости от и ? Я заинтересован в закрытом виде решения. В частности, меня не интересует алгоритмическое решение, такое как, например, предположение, что LARS может найти узел посредством вычислений.& beta ; А ,
Несмотря на мои интересы, кажется, что может быть недоступен в закрытой форме, поскольку в противном случае вычислительные пакеты lasso, вероятно, воспользуются этим при определении глубины параметра настройки во время перекрестной проверки. В свете этого меня интересует все, что можно теоретически показать о и (еще) особенно интересует закрытая форма. λ m i n
источник
Ответы:
Оценка Лассо, описанная в этом вопросе, является множителем Лагранжа, эквивалентным следующей задаче оптимизации:
Эта оптимизация имеет геометрическое представление о нахождении точки контакта между многомерной сферой и многогранником (натянутым на векторы X). Поверхность многогранника представляет собой . Квадрат радиуса сферы представляет функцию и минимизируется при контакте поверхностей.грамм( β) е( β)
Изображения ниже дают графическое объяснение. Изображения использовали следующую простую задачу с векторами длины 3 (для простоты, чтобы иметь возможность сделать рисунок):
Изображения показывают:
Мы показываем три изображения:
Диапазон или для которого мы имеем первый и третий случаи, может быть легко вычислен благодаря их простому геометрическому представлению.t λ
Случай 1: только один ненулевойβi
Ненулевым является тот, для которого связанный вектор имеет наибольшее абсолютное значение ковариации с (это точка параллелотопа, ближайшая к решению OLS). Мы можем вычислить множитель Лагранжа ниже которого у нас есть по крайней мере ненулевое значение , взяв производную с (знак в зависимости от того, увеличиваем ли мы в отрицательном или положительном направлении):βi xi у λ м х & beta ; & plusmn ; & beta ; я & beta ; яy^ λmax β ±βi βi
что приводит к
что равно упомянутых в комментариях.||XTy||∞
где мы должны заметить, что это верно только для особого случая, когда верхушка многогранника касается сферы ( поэтому это не общее решение , хотя обобщение является простым).
Случай 3: все отличны от нуля.βi
В этом случае грань многогранника касается сферы. Тогда направление изменения пути лассо перпендикулярно поверхности конкретной грани.
Многогранник имеет много аспектов, с положительным и отрицательным вкладом . В случае последнего шага лассо, когда решение лассо близко к решению ols, вклады должны быть определены знаком решения OLS. Нормаль фасета можно определить, взяв градиент функции , значение суммы беты в точке , которое равно:xi xi ||β(r)||1 r
и эквивалентное изменение бета для этого направления:
который после некоторых алгебраических трюков со смещением транспонирует ( ) и распределение скобок становитсяATBT=[BA]T
мы нормализуем это направление:
Найти ниже которого все коэффициенты ненулевые. Нам нужно только рассчитать обратно из решения OLS обратно в точку, где один из коэффициентов равен нулю,λmin
и в этот момент мы оцениваем производную (как и раньше, когда вычисляем ). Мы используем это для квадратичной функции, мы имеем :λmax q′(x)=2q(1)x
Картинки
точка многогранника касается сферы, одиночный не равен нулю:βi
гребень (или разный во многих измерениях) многогранника касается сферы, многие отличны от нуля:βi
грань многогранника касается сферы, все отличны от нуля:βi
Пример кода:
примечание: эти последние три строки являются наиболее важными
Автор StackExchangeStrike
источник