Я прочитал, что группа Лассо используется для выбора переменных и разреженности в группе переменных. Я хочу знать интуицию, стоящую за этим утверждением.
- Почему группа лассо предпочтительнее лассо?
- Почему путь решения группы Лассо не является кусочно-линейным?
Ответы:
Интуитивно говоря, группа лассо может быть предпочтительнее лассо, поскольку она дает нам возможность включить (определенный тип) дополнительную информацию в нашу оценку истинного коэффициента . Как экстремальный сценарий, учитывая следующее:β∗
С , поместите в качестве поддержки . Рассмотрим оценку «оракула» которая является группой лассо с двумя группами - одна истинная поддержка и одно дополнение. Пусть будет наименьшим значением которое делает . Из-за характера группового штрафа Лассо мы знаем, что в перемещается из в (для некоторых небольшихy∼N(Xβ∗,σ2I) S={j:β∗j≠0} β∗
На практике мы не выбираем группы так хорошо. Однако группы, несмотря на то, что они более тонкие, чем приведенный выше экстремальный сценарий, все равно помогут нам: выбор все равно будет сделан между группой истинных ковариат и группой неверных ковариат. Мы все еще заимствуем силы.
Это формализовано здесь . Они показывают, при некоторых условиях, что верхняя граница ошибки предсказания группы лассо ниже, чем нижняя граница ошибки предсказания равнины лассо. То есть они доказали, что группировка делает нашу оценку лучше.
Для вашего второго вопроса: (простой) штраф Лассо является кусочно-линейным, и это приводит к кусочно-линейному пути решения. Интуитивно понятно, что в случае группового лассо штраф больше не является кусочно-линейным, поэтому у нас больше нет этого свойства. Отличная ссылка на кусочно-линейную траекторию решения здесь . См. Их предложение 1. Пусть и . Они показывают, что путь решения группы лассо является линейным тогда и только тогда, когда является кусочно-постоянной. Конечно, это не так, поскольку наш штраф имеет глобальную кривизну.L(β)=∥y−Xβ∥22 J(β)=∑g∈G|g|1/2∥βg∥2
источник
Ответ Бена - самый общий результат. Но интуитивный ответ на OP мотивируется случаем категориальных предикторов, которые обычно кодируются как несколько фиктивных переменных: по одной для каждой категории. Во многих анализах имеет смысл рассматривать эти фиктивные переменные (представляющие одного категориального предиктора) вместе, а не по отдельности.
Если у вас есть категориальная переменная, скажем, с пятью уровнями, прямое лассо может оставить два входа и три выхода. Как вы справляетесь с этим принципиально? Решите проголосовать? Буквально использовать фиктивные переменные вместо более значимых категориальных? Как ваша фиктивная кодировка влияет на ваш выбор?
Как говорится во введении «Группа лассо для логистической регрессии» , упоминается:
Как указывает Бен, между предикторами также существуют более тонкие связи, которые могут указывать на то, что они должны быть либо вместе, либо снаружи. Но категориальные переменные являются потомком для группы лассо.
источник