Зачем использовать групповое лассо вместо лассо?

13

Я прочитал, что группа Лассо используется для выбора переменных и разреженности в группе переменных. Я хочу знать интуицию, стоящую за этим утверждением.

  • Почему группа лассо предпочтительнее лассо?
  • Почему путь решения группы Лассо не является кусочно-линейным?
вендетта
источник
1
Что я понимаю из Юань и Лин (2006), что Лассо предназначен для выбора отдельных переменных, а не выбора факторов. Таким образом, Лассо решает проблему ANOVA, где цель состоит в том, чтобы выбрать важные основные эффекты и взаимодействия для точного прогнозирования, что равносильно выбору групп переменных. Другой пример - аддитивная модель с многочленом, где каждый компонент выражается в виде линейной комбинации базисных функций исходных измеренных переменных
Вендетта

Ответы:

11

Интуитивно говоря, группа лассо может быть предпочтительнее лассо, поскольку она дает нам возможность включить (определенный тип) дополнительную информацию в нашу оценку истинного коэффициента . Как экстремальный сценарий, учитывая следующее:β

С , поместите в качестве поддержки . Рассмотрим оценку «оракула» которая является группой лассо с двумя группами - одна истинная поддержка и одно дополнение. Пусть будет наименьшим значением которое делает . Из-за характера группового штрафа Лассо мы знаем, что в перемещается из в (для некоторых небольшихyN(Xβ,σ2I)S={j:βj0}β

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λλmaxλmaxϵϵ>0 ), ровно одна группа будет входить в поддержку , который в народе считается оценкой для . Из-за того, что наша группа с высокой вероятностью выберет группу , мы отлично поработали.β^SS

На практике мы не выбираем группы так хорошо. Однако группы, несмотря на то, что они более тонкие, чем приведенный выше экстремальный сценарий, все равно помогут нам: выбор все равно будет сделан между группой истинных ковариат и группой неверных ковариат. Мы все еще заимствуем силы.

Это формализовано здесь . Они показывают, при некоторых условиях, что верхняя граница ошибки предсказания группы лассо ниже, чем нижняя граница ошибки предсказания равнины лассо. То есть они доказали, что группировка делает нашу оценку лучше.

Для вашего второго вопроса: (простой) штраф Лассо является кусочно-линейным, и это приводит к кусочно-линейному пути решения. Интуитивно понятно, что в случае группового лассо штраф больше не является кусочно-линейным, поэтому у нас больше нет этого свойства. Отличная ссылка на кусочно-линейную траекторию решения здесь . См. Их предложение 1. Пусть и . Они показывают, что путь решения группы лассо является линейным тогда и только тогда, когда является кусочно-постоянной. Конечно, это не так, поскольку наш штраф имеет глобальную кривизну.L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J
user795305
источник
2
Это имеет много смысла сейчас. Большое спасибо за ваш ответ.
Вендетта
4

Ответ Бена - самый общий результат. Но интуитивный ответ на OP мотивируется случаем категориальных предикторов, которые обычно кодируются как несколько фиктивных переменных: по одной для каждой категории. Во многих анализах имеет смысл рассматривать эти фиктивные переменные (представляющие одного категориального предиктора) вместе, а не по отдельности.

Если у вас есть категориальная переменная, скажем, с пятью уровнями, прямое лассо может оставить два входа и три выхода. Как вы справляетесь с этим принципиально? Решите проголосовать? Буквально использовать фиктивные переменные вместо более значимых категориальных? Как ваша фиктивная кодировка влияет на ваш выбор?

Как говорится во введении «Группа лассо для логистической регрессии» , упоминается:

Уже для частного случая линейной регрессии, когда присутствуют не только непрерывные, но и категориальные предикторы (факторы), решение Лассо не является удовлетворительным, поскольку оно выбирает только отдельные фиктивные переменные вместо целых факторов. Кроме того, лассо решение зависит от того, как фиктивные переменные кодируются. Выбор разных контрастов для категориального предиктора в целом приведет к различным решениям.

Как указывает Бен, между предикторами также существуют более тонкие связи, которые могут указывать на то, что они должны быть либо вместе, либо снаружи. Но категориальные переменные являются потомком для группы лассо.

Wayne
источник
@Ben: Хммм ... Я не могу понять первый комментарий ОП, похоже, это ответ на удаленный комментарий? Сам вопрос и его название - то, что прочитает большинство зрителей - кажется общим вопросом. Я обязательно удалю свой ответ, если вопрос и заголовок будут изменены на что-то вроде «Какие неочевидные применения существуют для группового лассо, кроме случая категориальных переменных?»
Уэйн
Ладно. Мне нравится ваша точка зрения о том, как использование (простого) лассо на факторах делает оценки зависимыми от кодирования факторов! Ранее я просто думал, что группа lasso дает нам своего рода «разреженность измерений» вместо «разреженности параметров» (т.
Е.