Я пытаюсь понять, как алгоритм Ларса может быть изменен для генерации лассо. Хотя я понимаю LARS, я не могу видеть модификацию Лассо из статьи Tibshirani et al. В частности, я не понимаю, почему условие знака в том, что знак ненулевой координаты должен совпадать со знаком текущей корреляции. Может кто-нибудь, пожалуйста, помогите мне с этим. Я предполагаю, что ищу математическое доказательство, используя условие KKT для исходной задачи нормы L-1, то есть лассо. Спасибо большое!
12
Ответы:
Пусть (размер п × р ) обозначает набор стандартных входов, у (размера п × 1 ) с центром ответов, & beta ; (размером р × 1 ) весовые коэффициенты регрессии и Л > 0 л 1 -норм коэффициента Недостатки.X n×p y n×1 β p×1 λ>0 l1
Решение этого для всех значений дает так называемый путь регуляризации LASSO .λ>0 β∗(λ)
Для фиксированного значения коэффициента штрафования (т.е. фиксированное число активных предикторов = фиксированный шаг алгоритма LARS) можно показать, что удовлетворяет (просто запишите условие стационарности KKT, как в этом ответь )λ∗ β∗
с представляет набор активных предикторов.A
Поскольку должен быть положительным (это коэффициент штрафования), ясно, что знак (вес любого ненулевого, следовательно, активного предиктора) должен быть таким же, как у т.е. корреляция с текущим остатком регрессии.λ∗ β∗a XTa(y−Xβ∗)=XTar
источник
@ Mr._White дал интуитивно понятное объяснение основного различия между LARS и Лассо; Единственное, что я хотел бы добавить, это то, что лассо (своего рода) похоже на подход обратного выбора, выбивая термин на каждом шаге, пока существует термин, для которого существует такая («нормализованная» по ) корреляция. LARS держит там все - в основном выполняет лассо в каждом возможном порядке. Это означает, что в лассо каждая итерация зависит от того, какие термины уже удалены.X×X
Реализация Effron хорошо иллюстрирует различия: lars.R в исходном pkg для lars . Обратите внимание на шаг обновления матриц matrix и начиная со строки 180, и удаление терминов, для которых . Я могу представить себе некоторые странные ситуации, возникающие в пространствах где термины не сбалансированы ( и очень коррелированы, но не с другими, с но не с другими и т. Д.). Порядок выбора может быть весьма предвзятым.X×X ζ ζmin<ζcurrent A x1 x2 x2 x3
источник