Является ли регрессия с регуляризацией L1 такой же, как Лассо, а с регуляризацией L2 такая же, как регрессия гребня? А как написать «Лассо»?

33

Я - инженер-программист, изучающий машинное обучение, особенно на курсах Эндрю Нг по машинному обучению . Изучая линейную регрессию с регуляризацией , я нашел смущающие термины:

  • Регрессия с регуляризацией L1 или регуляризацией L2
  • ЛАССО
  • Хребет регрессии

Итак, мои вопросы:

  1. Является ли регрессия с регуляризацией L1 точно такой же, как LASSO?

  2. Является ли регрессия с регуляризацией L2 точно такой же, как регрессия Риджа?

  3. Как "LASSO" используется в письменной форме? Должна ли это быть «регрессия ЛАССО»? Я видел использование как « лассо более уместно ».

Если ответ «да» для 1 и 2 выше, то почему существуют разные названия для этих двух терминов? "L1" и "L2" происходят из информатики / математики, а "LASSO" и "Ridge" из статистики?

Использование этих терминов сбивает с толку, когда я вижу сообщения типа:

«В чем разница между регуляризацией L1 и L2? » (Quora.com)

« Когда я должен использовать лассо против риджа? » (Stats.stackexchange.com)

stackoverflowuser2010
источник
Хотя я отвечаю поздно. Это всеобъемлющее руководство для начинающих по линейной, хребтовой и лассо-регрессии поможет новичкам ясно понять эти термины. Смотрите здесь
ученик

Ответы:

34
  1. Да.

  2. Да.

  3. LASSO на самом деле является аббревиатурой (оператор наименьшей абсолютной усадки и выбора), поэтому его следует использовать с большой буквы, но современная письменность является лексическим эквивалентом Mad Max . С другой стороны, Амеба пишет, что даже статистики, которые придумали термин LASSO, теперь используют рендеринг в нижнем регистре (Hastie, Tibshirani и Wainwright, Статистическое обучение с разреженностью ). Можно только догадываться о мотивации перехода. Если вы пишете для академической прессы, у них обычно есть руководство по стилю для такого рода вещей. Если вы пишете на этом форуме, то все в порядке, и я сомневаюсь, что кому-то действительно все равно.

обозначение является ссылкой на нормы Минковского и пространств. Они просто обобщают понятие расстояния такси и евклидова до в следующем выражении: Важно, что только определяет метрическое расстояние; не удовлетворяет неравенству треугольника, поэтому в большинстве определений оно не является расстоянием.LLpp>0

xp=(|x1|p+|x2|p+...+|xn|p)1p
p10<p<1

Я не уверен, когда связь между Ridge и LASSO была реализована.

Что касается того, почему существует несколько имен, просто вопрос в том, что эти методы развивались в разных местах в разное время. Общая тема в статистике заключается в том, что понятия часто имеют несколько имен, по одному для каждого подполя, в котором оно было открыто независимо (функции ядра против ковариационных функций, регрессия гауссовского процесса против кригинга, AUC против -статистики). Регрессию хребта, вероятно, следует назвать регуляризацией Тихонова, поскольку я считаю, что он имеет самые ранние претензии к методу. Между тем, LASSO был введен только в 1996 году, намного позже, чем «гребневой» метод Тихонова!c

Sycorax говорит восстановить Монику
источник
6
+1. В самом недавнем учебнике « Статистическое обучение с помощью Sparsity» Хасти, Тибширани и Уэйнрайт везде используют строчные буквы «lasso» в нижнем регистре, а также пишут следующее (сноска на стр. 8): «Лассо - это длинная веревка с петлей на одной конец, используется для ловли лошадей и крупного рогатого скота. В переносном смысле, метод «лассо» коэффициенты модели. В оригинальной статье лассо (Tibshirani 1996), название «лассо» также было введено как сокращение от «наименее абсолютный» Оператор выбора и сжатия. ”" (CC to @ stackoverflowuser2010.)
говорит амеба Восстановить Монику
3
И они продолжают: «Произношение: в США« лассо »имеет тенденцию произноситься как« lass-oh »(о, как у козла), а в Великобритании« lass-oo ». В OED (2-е издание, 1965):« Лассо произносится lasoo теми, кто его использует, и большинством англичан тоже ».« :-)
говорит амеба Восстановить Монику
4
(+1) По мере того, как собственно аббревиатуры (эти аббревиатуры произносятся как слова) приобретают валюту, их капитализация имеет тенденцию идти к доске. Я давно не видел RADAR или LASER.
Scortchi - Восстановить Монику
2
@ Scortchi SCUBA тоже. Тем временем у нас есть люди, пишущие STATA и MATLAB, как будто они сокращены.
Shadowtalker
2
@ssdecontrol: «ANOVA» должен быть «AnOVa» тогда?
Scortchi - Восстановить Монику