Что делает лассо нестабильным при выборе функции?

12

В сжатом восприятии есть теорема, гарантирующая, что имеет уникальное разреженное решение c (подробности см. В приложении).c

argminc1subject to y=Xc
c

Есть ли аналогичная теорема для лассо? Если такая теорема существует, она не только гарантирует стабильность лассо, но и дает лассо более осмысленную интерпретацию:

Лассо может раскрыть вектор c коэффициента разреженной регрессии, cкоторый используется для генерации отклика y при y=Xc .

Я задаю этот вопрос по двум причинам:

  1. Я думаю, что «лассо предпочитает разреженное решение» - это не ответ на вопрос, зачем использовать лассо для выбора функций, так как мы даже не можем сказать, в чем преимущество выбранных нами функций.

  2. Я узнал, что Лассо известен своей нестабильностью при выборе функций. На практике мы должны запустить образцы начальной загрузки, чтобы оценить его стабильность. Какова самая важная причина, которая вызывает эту нестабильность?


Приложение:

Дано XN×M=(x1,,xM) . c является Ω разреженным вектором ( ΩM ). Процесс y=Xc генерирует ответ y . Если X имеет NSP (свойство нулевого пространства) порядка Ω и ковариационная матрица X не имеет собственного значения, близкого к нулю, будет единственное решение для

argminc1subject to y=Xc
который в точности равен c который дает y .

Эта теорема также говорит, что если не имеет NSP порядка , просто безнадежно решить .Ω argmin c : y = X cc 1XΩargminc:y=Xcc1


РЕДАКТИРОВАТЬ:

Получив эти замечательные ответы, я понял, что растерялся, когда задавал этот вопрос.

Почему этот вопрос сбивает с толку:

Я прочитал исследовательскую работу, в которой мы должны решить, сколько элементов (столбцов) будет иметь матрица проектирования (вспомогательные элементы создаются из основных элементов). Поскольку это типичная задача, ожидается , что будет построена правильно, так что решение Лассо может быть хорошим приближением к реальному разреженному решению. n < p DXN×Mn<pD

Рассуждения основаны на теореме, которую я упомянул в приложении: если мы стремимся найти разреженное решение , лучше иметь NSP порядка .c X ΩΩcXΩ

Для общей матрицы, если нарушается, тоN > C Ω ln MN×MN>CΩlnM

стабильное и надежное восстановление из и невозможноD PcDP

X P yD соответствует , соответствуетXPy

... как и ожидалось из соотношения , выбор дескриптора становится более нестабильным, т. е. для разных обучающих наборов выбранный дескриптор часто отличается ...N=CΩlnM

Вторая цитата - это та часть, которая смущает меня. Мне кажется, что при нарушении неравенства это не просто решение, может быть, неуникальное (не упомянутое), но дескриптор также станет более нестабильным.

meTchaikovsky
источник
2
Просто для контекста, проблема оптимизации, которую вы записываете в начале вашего Q, называется «базовое преследование». Если вы заменяете равенство на приблизительное равенство (до некоторой ошибки L2), то это называется «устранение шума при выполнении». Основа шумоподавления - математически эквивалентна лассо. y X cy=XcyXc
говорит амеба: восстанови монику
Полезный набор слайдов (но не легкий), найденный здесь: pages.iu.edu/~dajmcdon/research/talks/lasso.pdf и теорема о бесплатном обеде users.ece.utexas.edu/~cmcaram/pubs/ XuCaramanisMannor.NFL.pdf
Ксавье Бурре Сикот
Теорема, которую вы цитируете, касается уникальности. Ваш вопрос сбивает с толку, потому что уникальность не обязательно связана со стабильностью.
говорит амеба, восстанови монику
2
Да, я полагаю, что ОП несколько запутан, и вопрос неясен, поэтому возможны разные ответы ... Уникальность для одного набора точек данных, стабильность применяется для перекрестной проверки, или начальной загрузки, или новых точек данных
Xavier Bourret Sicotte

Ответы:

8

ОБНОВИТЬ

См. Этот второй пост для отзыва McDonald's на мой ответ, где понятие согласованности риска связано со стабильностью.


1) Уникальность против стабильности

На ваш вопрос сложно ответить, потому что он затрагивает две совершенно разные темы: уникальность и стабильность .

  • Интуитивно понятно, что решение уникально, если при фиксированном наборе данных алгоритм всегда дает одинаковые результаты. Обложка ответа Мартина подробно описывает этот вопрос.

  • С другой стороны, стабильность может быть интуитивно понята как та, для которой предсказание не сильно изменяется, когда данные обучения немного изменены.

Стабильность относится к вашему вопросу, потому что выбор функции Лассо (часто) выполняется с помощью перекрестной проверки, следовательно, алгоритм Лассо выполняется для разных сгибов данных и может каждый раз давать разные результаты.

Стабильность и теорема об отсутствии бесплатного обеда

Используя определение отсюда, если мы определим равномерную стабильность как:

Алгоритм имеет равномерную стабильность относительно функции потерь если выполняется следующее:VβV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

Рассматриваемый как функция от , термин можно записать как . Мы говорим, что алгоритм стабилен, когда уменьшается как .mββmβm1m

тогда «Теорема об отсутствии бесплатного обеда, Сюй и Карамис (2012)» гласит, что

Если алгоритм является разреженным , в том смысле, что он идентифицирует избыточные функции, то этот алгоритм не является стабильным (и граница равномерной стабильности не стремится к нулю). [...] Если алгоритм стабилен, то нет надежды, что он будет редким. (страницы 3 и 4)β

Например, регуляризованная регрессия стабильна и не идентифицирует избыточные признаки, в то время как регуляризованная регрессия (Лассо) нестабильна. L2L1

Попытка ответить на ваш вопрос

Я думаю, что «лассо предпочитает редкое решение» - это не ответ на вопрос, зачем использовать лассо для выбора функций

  • Я не согласен, причина, по которой Лассо используется для выбора объектов, заключается в том, что он дает разреженное решение и может показывать, что он обладает свойством IRF, т.е. определяет избыточные объекты.

Какова самая важная причина, которая вызывает эту нестабильность

  • Теорема об отсутствии бесплатного обеда

Идти дальше

Это не означает, что комбинация Cross Validation и Lasso не работает ... на самом деле было показано, что экспериментально (и с большой поддержкой теории) очень хорошо работает в различных условиях. Основными ключевыми словами здесь являются последовательность , риск, неравенство оракула и т. Д.

Следующие слайды и статья Макдональда и Хомригхаузена (2013) описывают некоторые условия, при которых выбор функций Лассо работает хорошо: слайды и бумага: «Лассо, стойкость и перекрестная проверка, Макдональд и Хомригхаузен (2013)» . Сам Тибширани также опубликовал множество заметок о редкости , линейной регрессии

Различные условия для согласованности и их влияние на Лассо является активной темой исследований и, безусловно, не является тривиальным вопросом. Я могу указать вам на некоторые исследовательские работы, которые имеют отношение к:

Ксавье Бурре Сикотт
источник
1
Спасибо за исчерпывающий ответ! Набор слайдов, который вы предоставляете, просто превосходен!
meTchaikovsky
1
Я все еще пытаюсь обработать это определение стабильности. Мой перевод заключается в том, что «алгоритм стабилен, если изменение функции ошибки / потери в перекрестной проверке, оставленной один раз, имеет верхнюю границу которая уменьшается как », когда мы увеличиваем число Folds / test-sets "1β1m , надеюсь, я понял это правильно. Интересно, почему это желательное свойство, чтобы лассо работало хорошо (или, точнее, мне интересно, является ли это необходимым свойством).
Sextus Empiricus
1
Да, кроме m это количество точек данных. смотрите здесь на странице 7 вероятностную границу: math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf - дело в том, что нет ограничений на возможности, обеспечиваемые увеличением размера набора данных, что означает, что алгоритм может перейти далеко от гипотезы функции в зависимости от конкретного набора данных. Вот почему предлагаются альтернативные условия, которые относятся к основному распределению и структуре корреляции (я думаю), но, возможно, потребуется помощь в
прояснении этих условий
Другим важным понятием является согласованность, как объяснено здесь, например: stat.ethz.ch/~nicolai/stability.pdf - как связаны стабильность и согласованность, неясно, но, кажется, является предметом активных исследований, например, cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Ксавье Бурре Сикот
Хороший ответ! Не могли бы вы также обновить некоторые ссылки с более подробным описанием на случай, если сами ссылки в будущем прекратятся? (Я уже сделал один для вас.)
Ричард Харди
7

Комментарии Даниэля Макдональда

Доцент Университета Индианы в Блумингтоне, автор двух работ, упомянутых в оригинальном ответе Ксавье Бурре Сикотта .

Ваше объяснение, как правило, совершенно правильно. Несколько вещей, на которые я бы указал:

  1. Наша цель в серии статей о CV и лассо состояла в том, чтобы доказать, что «Lasso + Cross Validation (CV)» работает так же, как и «Lasso + оптимальная »λ . В частности, мы хотели показать, что предсказания также хороши (без модели). Чтобы утверждать о правильном восстановлении коэффициентов (находя правильные, не разреженные), нужно принять разреженную правду, чего мы не хотели делать.

  2. Алгоритмическая стабильность подразумевает согласованность рисков (сначала доказано Буске и Елисеевым, я полагаю). Под последовательностью риска я подразумеваю, чтообращается в ноль, где f либо либо лучший предиктор в некотором классе, если класс указан неправильно. Однако это только достаточное условие. Он упоминается на слайдах, на которые вы ссылаетесь, по сути, как «возможный метод доказательства, который не будет работать, поскольку лассо не стабилен».E [ Y | X ]||f^(X)f(X)||E[Y|X]

  3. Стабильность достаточна, но не обязательна. Мы смогли показать, что при некоторых условиях «лассо + CV» предсказывает так же, как и «лассо + оптимальная ». В статье, которую вы цитируете, представлены самые слабые возможные допущения (те, что на слайде 16, которые допускают ), но в них используется ограниченная форма лассо, а не более распространенная лагранжева версия. В другой статье ( http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html ) используется лагранжева версия. Это также показывает, что при гораздо более жестких условиях выбор модели также будет работать. Более свежая статья ( https://arxiv.org/abs/1605.02214 ) других людей утверждает, что эти результаты улучшились (я не читал ее внимательно).p > nλp>n

  4. В целом, поскольку лассо (или любой алгоритм выбора) нестабилен, требуется более тщательный анализ и / или строгие предположения, чтобы показать, что «алгоритм + CV» выберет правильную модель. Я не знаю о необходимых условиях, хотя это было бы чрезвычайно интересно вообще. Нетрудно показать, что для фиксированной лямбды предиктор лассо является локально липшицевым в векторе (я полагаю, что одна или несколько работ Райана Тибширани делают это). Если бы можно было также утверждать, что это справедливо для , это было бы очень интересно и уместно здесь.X яYXi

Основной вывод, который я хотел бы добавить к вашему ответу: «стабильность» подразумевает «согласованность рисков» или «точность прогноза». Это может также подразумевать «согласованность оценки параметров» при большем количестве предположений. Но теорема об отсутствии бесплатного обеда означает «выбор» «не стабильна». Лассо не стабилен даже с фиксированной лямбдой. Поэтому он, безусловно, нестабилен в сочетании с CV (любого типа). Однако, несмотря на отсутствие стабильности, он по-прежнему согласован с риском, а выбор соответствует или без CV. Уникальность здесь не имеет значения.

Ксавье Бурре Сикотт
источник
5

Лассо, в отличие от регрессии Риджа (см., Например, Hoerl and Kennard, 1970; Hastie et al., 2009), не всегда имеет уникальное решение, хотя обычно оно имеет. Это зависит от количества параметров в модели, от того, являются ли переменные непрерывными или дискретными, и от ранга вашей матрицы проектирования. Условия уникальности можно найти в Tibshirani (2013).

Использованная литература:

Хасти Т., Тибширани Р. и Фридман Дж. (2009). Элементы статистического обучения . Серия Springer в статистике. Springer, Нью-Йорк, 11-е издание, 2-е издание.

Hoerl AE и Kennard RW (1970). Хребетная регрессия: Смещенная оценка для неортогональных задач. Technometrics , 12 (1), 55-67.

Tibshirani, RJ (2013). Проблема лассо и уникальность. Электронный журнал статистики , 7, 1456-1490.

Фил
источник
@ Спасибо! Можете ли вы добавить краткое резюме этих ссылок, которые вы предоставляете?
meTchaikovsky
Hasite et al. (2009) - книга, которая охватывает много тем, среди которых регрессия Лассо и Риджа. Его стоит прочитать, и его можно загрузить с домашней страницы Хасти: web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl & Kennard (1970) - это классический регрессионный справочник по Риджу, который, скорее всего, не имеет прямого отношения к вашему вопросу. чем читать о хребте регрессии. Tibshirani (2013) содержит информацию о том, когда у Лассо есть уникальное решение (и когда у него бесконечное количество решений).
Фил
3

Что вызывает неуникальность.

Для векторов (где - знак, обозначающий, будет ли изменение увеличиваться или уменьшаться ), всякий раз, когда они аффинно зависимы:sixisicic1

αisixi=0andαi=0

тогда существует бесконечное число комбинаций которые не меняют решение и норму .ся+γαяИксс| |с| |1

Например:

Yзнак равно[11]знак равно[210111][с1с2с3]знак равноИксс

имеет для решения:| |с| |1знак равно1

[с1с2с3]знак равно[010]+γ[1-21]

с0γ12

Мы можем отсортировать вектор , используяИкс2Икс2знак равно0,5Икс1+0,5Икс3


Ситуации без этого условия

В статье из Tibshirani (из ответа Фила) описаны три достаточных условия, чтобы лассо имело уникальное решение.

  1. Линейно независимый, когда нулевое пространство равно нулю или эквивалентно, когда ранг равен количеству столбцов (M). В этом случае у вас нет линейных комбинаций, как указано выше.ИксИкс
  2. Аффинно независимый, когда столбцы находятся в общем положении.Иксs

    То есть никакие столбцов не представляют точки в мерной плоскости. плоскость k-2 может быть параметризована любыми точками как с . С точкой в этой же плоскости вы получите условия сk - 2 k - 1 α i s i x iα i = 1 k s j x jα i s i x iα i = 0КК-2К-1ΣαяsяИксяΣαязнак равно1КsJИксJΣαяsяИксяΣαязнак равно0

    Обратите внимание, что в этом примере столбцы , и находятся в одной строке. (Однако здесь немного неловко, потому что знаки могут быть отрицательными, например, матрица имеет только а так нету уникального решения)х 2 х 3 [ [ 2Икс1Икс2Икс3[[21][11][-0-1]]

  3. Когда столбцы из непрерывного распределения, маловероятно (вероятность почти равна нулю), что столбцы не в общем положении.XИксИкс

    В отличие от этого, если столбцы являются категориальной переменной, то эта вероятность не обязательно почти равна нулю. Вероятность того, что непрерывная переменная будет равна некоторому набору чисел (то есть плоскостям, соответствующим аффинному промежутку других векторов), равна «почти» нулю. Но это не относится к дискретным переменным.Икс

Секст Эмпирик
источник
+1, но я думаю, что то, что подразумевается под нестабильным в недавних обсуждениях, связано с выбором признаков посредством перекрестной проверки в присутствии коррелированных признаков
Ксавье Бурре Сикотт
@XavierBourretSicotte Вы имеете в виду, что даже когда существует уникальное решение, процесс выбора может быть нестабильным из-за взаимосвязанных функций, создающих проблемы (численно) при поиске этого уникального решения? Это немного сбивает с толку, потому что вопрос касается, с одной стороны, стабильности и, с другой стороны, уникальности.
Секст Эмпирик
λ
λ
{v1-v0,v2-v0,,vК-v0}sяИкс