В сжатом восприятии есть теорема, гарантирующая, что имеет уникальное разреженное решение c (подробности см. В приложении).c
Есть ли аналогичная теорема для лассо? Если такая теорема существует, она не только гарантирует стабильность лассо, но и дает лассо более осмысленную интерпретацию:
Лассо может раскрыть вектор c коэффициента разреженной регрессии, который используется для генерации отклика при .
Я задаю этот вопрос по двум причинам:
Я думаю, что «лассо предпочитает разреженное решение» - это не ответ на вопрос, зачем использовать лассо для выбора функций, так как мы даже не можем сказать, в чем преимущество выбранных нами функций.
Я узнал, что Лассо известен своей нестабильностью при выборе функций. На практике мы должны запустить образцы начальной загрузки, чтобы оценить его стабильность. Какова самая важная причина, которая вызывает эту нестабильность?
Приложение:
Дано . является разреженным вектором ( ). Процесс генерирует ответ . Если имеет NSP (свойство нулевого пространства) порядка и ковариационная матрица не имеет собственного значения, близкого к нулю, будет единственное решение для
Эта теорема также говорит, что если не имеет NSP порядка , просто безнадежно решить .Ω argmin c : y = X c ‖ c ‖ 1
РЕДАКТИРОВАТЬ:
Получив эти замечательные ответы, я понял, что растерялся, когда задавал этот вопрос.
Почему этот вопрос сбивает с толку:
Я прочитал исследовательскую работу, в которой мы должны решить, сколько элементов (столбцов) будет иметь матрица проектирования (вспомогательные элементы создаются из основных элементов). Поскольку это типичная задача, ожидается , что будет построена правильно, так что решение Лассо может быть хорошим приближением к реальному разреженному решению. n < p D
Рассуждения основаны на теореме, которую я упомянул в приложении: если мы стремимся найти разреженное решение , лучше иметь NSP порядка .c X Ω
Для общей матрицы, если нарушается, тоN > C Ω ln M
стабильное и надежное восстановление из и невозможноD P
X P y соответствует , соответствует
... как и ожидалось из соотношения , выбор дескриптора становится более нестабильным, т. е. для разных обучающих наборов выбранный дескриптор часто отличается ...
Вторая цитата - это та часть, которая смущает меня. Мне кажется, что при нарушении неравенства это не просто решение, может быть, неуникальное (не упомянутое), но дескриптор также станет более нестабильным.
источник
Ответы:
ОБНОВИТЬ
См. Этот второй пост для отзыва McDonald's на мой ответ, где понятие согласованности риска связано со стабильностью.
1) Уникальность против стабильности
На ваш вопрос сложно ответить, потому что он затрагивает две совершенно разные темы: уникальность и стабильность .
Интуитивно понятно, что решение уникально, если при фиксированном наборе данных алгоритм всегда дает одинаковые результаты. Обложка ответа Мартина подробно описывает этот вопрос.
С другой стороны, стабильность может быть интуитивно понята как та, для которой предсказание не сильно изменяется, когда данные обучения немного изменены.
Стабильность относится к вашему вопросу, потому что выбор функции Лассо (часто) выполняется с помощью перекрестной проверки, следовательно, алгоритм Лассо выполняется для разных сгибов данных и может каждый раз давать разные результаты.
Стабильность и теорема об отсутствии бесплатного обеда
Используя определение отсюда, если мы определим равномерную стабильность как:
тогда «Теорема об отсутствии бесплатного обеда, Сюй и Карамис (2012)» гласит, что
Например, регуляризованная регрессия стабильна и не идентифицирует избыточные признаки, в то время как регуляризованная регрессия (Лассо) нестабильна.L2 L1
Попытка ответить на ваш вопрос
Идти дальше
Это не означает, что комбинация Cross Validation и Lasso не работает ... на самом деле было показано, что экспериментально (и с большой поддержкой теории) очень хорошо работает в различных условиях. Основными ключевыми словами здесь являются последовательность , риск, неравенство оракула и т. Д.
Следующие слайды и статья Макдональда и Хомригхаузена (2013) описывают некоторые условия, при которых выбор функций Лассо работает хорошо: слайды и бумага: «Лассо, стойкость и перекрестная проверка, Макдональд и Хомригхаузен (2013)» . Сам Тибширани также опубликовал множество заметок о редкости , линейной регрессии
Различные условия для согласованности и их влияние на Лассо является активной темой исследований и, безусловно, не является тривиальным вопросом. Я могу указать вам на некоторые исследовательские работы, которые имеют отношение к:
источник
Комментарии Даниэля Макдональда
Доцент Университета Индианы в Блумингтоне, автор двух работ, упомянутых в оригинальном ответе Ксавье Бурре Сикотта .
источник
Лассо, в отличие от регрессии Риджа (см., Например, Hoerl and Kennard, 1970; Hastie et al., 2009), не всегда имеет уникальное решение, хотя обычно оно имеет. Это зависит от количества параметров в модели, от того, являются ли переменные непрерывными или дискретными, и от ранга вашей матрицы проектирования. Условия уникальности можно найти в Tibshirani (2013).
Использованная литература:
Хасти Т., Тибширани Р. и Фридман Дж. (2009). Элементы статистического обучения . Серия Springer в статистике. Springer, Нью-Йорк, 11-е издание, 2-е издание.
Hoerl AE и Kennard RW (1970). Хребетная регрессия: Смещенная оценка для неортогональных задач. Technometrics , 12 (1), 55-67.
Tibshirani, RJ (2013). Проблема лассо и уникальность. Электронный журнал статистики , 7, 1456-1490.
источник
Что вызывает неуникальность.
Для векторов (где - знак, обозначающий, будет ли изменение увеличиваться или уменьшаться ), всякий раз, когда они аффинно зависимы:sяИкся sя ся ∥ с ∥1
тогда существует бесконечное число комбинаций которые не меняют решение и норму .ся+ γαя Иксс ∥ с ∥1
Например:
имеет для решения:∥ с ∥1= 1
с0 ≤ γ≤ 12
Мы можем отсортировать вектор , используяИкс2 Икс2= 0,5 х1+ 0,5 х3
Ситуации без этого условия
В статье из Tibshirani (из ответа Фила) описаны три достаточных условия, чтобы лассо имело уникальное решение.
Аффинно независимый, когда столбцы находятся в общем положении.Иксs
То есть никакие столбцов не представляют точки в мерной плоскости. плоскость k-2 может быть параметризована любыми точками как с . С точкой в этой же плоскости вы получите условия сk - 2 k - 1 ∑ α i s i x i ∑ α i = 1 k s j x j ∑ α i s i x i ∑ α i = 0К к - 2 к - 1 ∑ αяsяИкся ∑ αя= 1 К sJИксJ ∑ αяsяИкся ∑ αя= 0
Обратите внимание, что в этом примере столбцы , и находятся в одной строке. (Однако здесь немного неловко, потому что знаки могут быть отрицательными, например, матрица имеет только а так нету уникального решения)х 2 х 3 [ [ 2Икс1 Икс2 Икс3 [ [ 21][11][ -0- 1 ] ]
Когда столбцы из непрерывного распределения, маловероятно (вероятность почти равна нулю), что столбцы не в общем положении.XИкс Икс
В отличие от этого, если столбцы являются категориальной переменной, то эта вероятность не обязательно почти равна нулю. Вероятность того, что непрерывная переменная будет равна некоторому набору чисел (то есть плоскостям, соответствующим аффинному промежутку других векторов), равна «почти» нулю. Но это не относится к дискретным переменным.Икс
источник