Почему регрессия гребня не может обеспечить лучшую интерпретируемость, чем LASSO?

12

У меня уже есть представление о плюсах и минусах регрессии гребня и LASSO.

Для LASSO штрафной член L1 даст вектор разреженного коэффициента, который можно рассматривать как метод выбора признаков. Тем не менее, существуют некоторые ограничения для LASSO. Если функции имеют высокую корреляцию, LASSO выберет только одну из них. Кроме того, для задач, где > n , LASSO выберет не более n параметров ( n и p - количество наблюдений и параметров соответственно). Это делает LASSO эмпирически неоптимальным методом с точки зрения предсказуемости по сравнению с регрессией гребня.pnnnp

Для регрессии гребня это предлагает лучшую предсказуемость в целом. Тем не менее, его интерпретируемость не так хороша, как LASSO.

Приведенное выше объяснение часто можно найти в учебниках по машинному обучению / интеллектуальному анализу данных. Тем не менее, я все еще запутался в двух вещах:

  1. Если мы нормализуем диапазон признаков (скажем, между 0 и 1, или с нулевым средним и единичной дисперсией) и запустим регрессию гребней, у нас все еще может появиться представление о важности признаков путем сортировки абсолютных значений коэффициентов (самый важный признак имеет наибольшее абсолютное значение коэффициентов). Хотя мы не выбираем функции явно, интерпретируемость не теряется при использовании регрессии гребня. В то же время мы все еще можем достичь высокой силы прогнозирования. Тогда зачем нам ЛАССО? Я что-то здесь упускаю?

  2. Является ли LASSO предпочтительным из-за его характера выбора характеристик? Насколько я понимаю, причины, по которым нам нужен выбор функций, заключаются в возможности обобщения и простоте вычислений.

    Для простоты вычислений мы не хотим вводить все 1 миллион функций в нашу модель, если выполняем некоторые задачи НЛП, поэтому сначала мы отбрасываем некоторые явно бесполезные функции, чтобы снизить вычислительные затраты. Однако для LASSO мы можем узнать результат выбора функции (разреженный вектор) только после подачи всех данных в нашу модель, поэтому мы не получаем выгоды от LASSO с точки зрения уменьшения вычислительных затрат. Мы можем только делать прогнозы немного быстрее, поскольку теперь мы только вводим подмножество функций (скажем, 500 из 1 миллиона) в нашу модель, чтобы генерировать прогнозируемые результаты.

    Если LASSO предпочтительнее из-за его способности обобщать, то мы также можем достичь той же цели, используя регрессию гребня (или любой другой вид регуляризации). Зачем нам снова нужны LASSO (или эластичные сетки)? Почему мы не можем просто придерживаться регрессии гребня?

Может кто-нибудь, пожалуйста, пролить свет на это? Благодаря!

Брэд Ли
источник
3
L1L2
3
Мне также интересно, какие учебники говорят такие вещи, как « Для регрессии гребня», она предлагает лучшую предсказуемость в целом (в отличие от LASSO, насколько я понимаю, не в отличие от неограниченной регрессии). Возможно, общее не такое общее в их использовании. Кроме того, насколько интерпретируемые методы регуляризации должны дать? (Кроме того, Шмуэли «Объяснить или предсказать» (2010) - хорошая часть, хотя и не имеет прямого отношения.)
Ричард Харди
1
@RichardHardy, ты прав. Теперь я прочитал учебник более внимательно и обнаружил, что « ни регрессия гребня, ни лассо не будут доминировать над другими » на стр. 223. Введение в статистическое обучение с приложениями в R , Гарет Джеймс и др.
Брэд Ли
@RichardHardy, изначально я нашел похожие аргументы для L1-регуляризации в LIBLINEAR FAQ: csie.ntu.edu.tw/~cjlin/liblinear/…
Брэд Ли
Могут ли прогоны Риджа и Лассо на реальном примере или двух прояснить различия? (Но их нелегко сравнить - сюжет подходит против разреженности?)
Денис

Ответы:

16
  1. Если вы заказываете 1 миллион сокращенных, масштабированных, но ненулевых функций, вам придется принять какое-то решение: вы посмотрите на n лучших предикторов, но что такое n ? LASSO решает эту проблему принципиальным, объективным способом, потому что для каждого шага на пути (и часто вы бы остановились на одной точке, например, путем перекрестной проверки), есть только m коэффициентов, которые не равны нулю.

  2. Очень часто вы будете обучать модели некоторым данным, а затем применять их к некоторым данным, которые еще не собраны. Например, вы можете разместить свою модель на 50 000 000 электронных писем, а затем использовать эту модель для каждого нового электронного письма. Правда, вы поместите его в полный набор функций для первых 50 000 000 писем, но для каждого последующего письма вы будете иметь дело с гораздо более разреженной и более быстрой и более эффективной моделью памяти. Кроме того, вам даже не нужно собирать информацию об удаленных функциях, что может быть очень полезно, если функции дорогие для извлечения, например, с помощью генотипирования.

Другой взгляд на проблему L1 / L2, раскрытый, например, Эндрю Гельманом, состоит в том, что у вас часто есть некоторая интуиция, на что может быть похожа ваша проблема. В некоторых обстоятельствах возможно, что реальность действительно скудна. Возможно, вы измерили миллионы генов, но вполне вероятно, что только 30 000 из них фактически определяют метаболизм дофамина. В такой ситуации L1, возможно, лучше подходит к проблеме.
В других случаях реальность может быть плотной. Например, в психологии «все коррелирует (в некоторой степени) со всем» (Пол Миль). Предпочтения яблок по сравнению с апельсинами, вероятно , каким-то образом связаны с политическими убеждениями - и даже с IQ. Регуляризация все еще может иметь здесь смысл, но эффекты истинного нуля должны быть редкими, поэтому L2 может быть более подходящим.

Йона
источник
y=2x1+3x2x3
x2>x1>x3[0,1]
Брэд Ли
Конечно, вы можете сортировать их, но вам все равно придется принять какое-то решение относительно того, на какое из них вы смотрите.
Йон
6
Еще один способ выразить это так: ридж может помочь с выбором функции, LASSO делает выбор функции.
января
1
@Brad, в дополнение к превосходному ответу jona (+1), обратите внимание, что оценка важности функции по ее стандартизированному коэффициенту регрессии является одним из возможных подходов, но не единственным; Существуют разные показатели «важности признаков», и они могут легко дать противоречивые результаты. Смотрите эту тему для длительного обсуждения: stats.stackexchange.com/questions/64010 .
говорит амеба, восстанови Монику
1

Интерпретируемость уменьшается, если цель зависит от множества функций. Он увеличивается, если мы можем уменьшить количество функций, а также поддерживать точность. Регуляризация хребта не позволяет уменьшить количество функций. Но у Лассо есть способность. Как это происходит, объясняется визуально по следующей ссылке:

Нажмите на статью «На пути к науке о данных»

solver149
источник