Зачем использовать оценки Лассо над оценками OLS для Лассо-идентифицированного подмножества переменных?

26

Для регрессии Лассо предположим что лучшее решение (например, минимальная ошибка тестирования) выбирает k функций, так что \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ right) .K β л ы ы о = ( β л с ы о 1 , β л с ы O 2 , . . . , β л

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

Мы знаем, что (β^1lasso,β^2lasso,...,β^klasso) является смещенная оценка (β1,β2,...,βk) , так почему же мы по-прежнему принимаем β^lasso в качестве окончательного решения вместо более «разумного» β^new=(β^1:knew,0,...,0) , где β^1:knew - это оценка LS из частичной модели Lnew(β1:k)=(X1:kβy)(X1:kβy) . ( X1:k обозначает столбцы X соответствующие k выбранным объектам).

Вкратце, почему мы используем Лассо как для выбора объектов, так и для оценки параметров, а не только для выбора переменных (и оставляем оценку выбранных объектов в OLS)?

(Кроме того, что означает, что «Лассо может выбрать не более n функций»? n - это размер выборки.)

yliueagle
источник
1
Это очень хороший вопрос. Вы пробовали несколько симуляций, чтобы увидеть, насколько отличались бы результаты от стандартного лассо, если бы вы попробовали его по-своему?
Плацидия
3
Вы поняли цель «усадки» в LASSO?
Майкл М
6
Идея состоит в том, чтобы уменьшить оценки коэффициента именно потому, что вы выбрали самые большие. Оценки по методу наименьших квадратов больше не являются беспристрастными, когда вы сделали предварительный выбор объектов.
Scortchi - Восстановить Монику
2
В следующем вопросе вы найдете отличный ответ на вопрос «Какую проблему решают методы усадки?» stats.stackexchange.com/questions/20295/…
DL Dahly,
2
Чтобы было ясно: не говорить, что @ Scortchi - это неправильно, но это немного серое место при обсуждении выбора функций, и я думаю, что это важный технический момент, который должен быть очень четко разъяснен.
JohnA

Ответы:

27

Я не верю, что что-то не так с использованием LASSO для выбора переменных, а затем с использованием OLS. Из « Элементы статистического обучения » (стр. 91)

... усадка лассо приводит к тому, что оценки ненулевых коэффициентов смещаются в сторону нуля, и в целом они не согласованы [ Добавлено примечание: это означает, что при увеличении размера выборки оценки коэффициентов не сходятся] . Один из подходов к уменьшению этого смещения состоит в том, чтобы запустить лассо, чтобы идентифицировать набор ненулевых коэффициентов, а затем подогнать неограниченную линейную модель к выбранному набору признаков. Это не всегда возможно, если выбранный набор большой. В качестве альтернативы можно использовать лассо, чтобы выбрать набор ненулевых предикторов, а затем снова применить лассо, но используя только выбранные предикторы из первого шага. Это известно как расслабленное лассо(Meinshausen, 2007). Идея состоит в том, чтобы использовать перекрестную проверку для оценки начального параметра штрафа для лассо, а затем снова для второго параметра штрафа, применяемого к выбранному набору предикторов. Поскольку переменные на втором этапе имеют меньшую «конкуренцию» с шумовыми переменными, перекрестная проверка будет иметь тенденцию выбирать меньшее значение для [штрафной параметр], и, следовательно, их коэффициенты будут уменьшаться меньше, чем в первоначальной оценке.λ

Другой разумный подход, сходный по духу с расслабленным лассо, состоит в том, чтобы использовать лассо один раз (или несколько раз в тандеме), чтобы идентифицировать группу переменных-предикторов-кандидатов. Затем используйте регрессию лучших подмножеств, чтобы выбрать лучшие предикторные переменные для рассмотрения (см. Также «Элементы статистического обучения»). Чтобы это работало, вам нужно будет уточнить группу предикторов-кандидатов до 35, что не всегда возможно. Вы можете использовать перекрестную проверку или AIC в качестве критерия, чтобы предотвратить переопределение.

Алекс Уильямс
источник
Другая часть моего вопроса: почему «Лассо может выбрать не более n функций»? Если это так, я думаю, что OLS для выбранных функций будет, по крайней мере, «хорошим», поскольку OLS - это «СИНИЙ» (не строго СИНИЙ, поскольку он в основном смещен). Просто примите во внимание крайнюю ситуацию, когда Лассо выбирает точно правильные функции, проведение OLS на этих функциях восстановит истинную модель, которая, я думаю, лучше, чем оценка Лассо.
yliueagle
2
Проблема в том, что такая «экстремальная ситуация» вряд ли произойдет, и нет способа узнать, правильно ли LASSO выбрала правильные функции. Если LASSO выбирает слишком много функций, то я думаю, что полная модель OLS может работать хуже, чем оценки LASSO. Точно так же регрессия гребня может превзойти OLS, если есть слишком много особенностей (то есть OLS - перегрузка).
Алекс Уильямс
2
См. Также web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , конец Раздела 2.2: «[...] соответствие наименьших квадратов подмножеству [...] предикторов имеет тенденцию расширять оценки лассо от нуля. Ненулевые оценки от лассо, как правило, смещены к нулю, поэтому смещение в правой панели часто может улучшить ошибку предсказания модели. Этот двухэтапный процесс также известен как ослабленное лассо (Meinshausen 2007) «.
говорит амеба: восстанови
1
Я изучил статью Майнсхаузена, и она на самом деле рекомендует установить два параметра штрафа, как описано в вашей первоначальной цитате из «Элементов». +1
амеба говорит восстановить
@AlexWilliams Но разве в предыдущем параграфе нет предположения о корреляции между выбранным набором и тем, что удаляется, будучи небольшим?
Дмитрий Владимирович Мастеров
15

Если ваша цель - оптимальная производительность в сэмпле (относительно наибольшего R-квадрата), просто используйте OLS для каждой доступной переменной. Отбрасывание переменных уменьшит R-квадрат.

Если вашей целью является хорошая производительность вне выборки (что, как правило, гораздо важнее), то ваша предложенная стратегия будет страдать от двух источников переоснащения:

  • Выбор переменных на основе корреляции с переменной ответа
  • Оценки OLS

Цель LASSO - уменьшить оценки параметров до нуля, чтобы бороться с двумя источниками переоснащения. Прогнозы внутри выборки всегда будут хуже, чем у OLS, но есть надежда (в зависимости от силы наказания) получить более реалистичное поведение вне выборки.

Относительно : это (вероятно) зависит от реализации LASSO, которую вы используете. Вариант, Lars (регрессия наименьшего угла), легко работает при .p > np>np>n

Майкл М
источник
2
«Leekasso» (всегда выбирайте 10 коэффициентов) отличается от предложения вопроса (переоцените OLS с k предикторами, выбранными LASSO)
Affine
@affine, ты совершенно прав. Я удалил ссылку.
Майкл М
2
Это звучит разумно, но изобретатели Лассо утверждают иначе и на самом деле рекомендуют использовать двухэтапную процедуру с OLS на Лассо-идентифицированном подмножестве (как предложено ФП), см. Ответ @ Alex'es.
говорит амеба, восстанови Монику
Мне нравится этот ответ, потому что он упоминает смещение выбора из самого поиска; он уверен, что должно быть дополнительное наказание. LASSO как простой механизм выбора подмножества - это все? Тогда зачем вообще печатать его коэффициенты?
Бен Огорек
3

Что касается ОП, то почему Лассо может выбрать не более n функций:

XTXβ=(XTX)1XTY

XTX

jmp111
источник
1
(XTX)1