Я - инженер-программист, изучающий машинное обучение, особенно на курсах Эндрю Нг по машинному обучению . Изучая линейную регрессию с регуляризацией , я нашел смущающие термины:
- Регрессия с регуляризацией L1 или регуляризацией L2
- ЛАССО
- Хребет регрессии
Итак, мои вопросы:
Является ли регрессия с регуляризацией L1 точно такой же, как LASSO?
Является ли регрессия с регуляризацией L2 точно такой же, как регрессия Риджа?
Как "LASSO" используется в письменной форме? Должна ли это быть «регрессия ЛАССО»? Я видел использование как « лассо более уместно ».
Если ответ «да» для 1 и 2 выше, то почему существуют разные названия для этих двух терминов? "L1" и "L2" происходят из информатики / математики, а "LASSO" и "Ridge" из статистики?
Использование этих терминов сбивает с толку, когда я вижу сообщения типа:
«В чем разница между регуляризацией L1 и L2? » (Quora.com)
« Когда я должен использовать лассо против риджа? » (Stats.stackexchange.com)
источник
Ответы:
Да.
Да.
LASSO на самом деле является аббревиатурой (оператор наименьшей абсолютной усадки и выбора), поэтому его следует использовать с большой буквы, но современная письменность является лексическим эквивалентом Mad Max . С другой стороны, Амеба пишет, что даже статистики, которые придумали термин LASSO, теперь используют рендеринг в нижнем регистре (Hastie, Tibshirani и Wainwright, Статистическое обучение с разреженностью ). Можно только догадываться о мотивации перехода. Если вы пишете для академической прессы, у них обычно есть руководство по стилю для такого рода вещей. Если вы пишете на этом форуме, то все в порядке, и я сомневаюсь, что кому-то действительно все равно.
обозначение является ссылкой на нормы Минковского и пространств. Они просто обобщают понятие расстояния такси и евклидова до в следующем выражении: Важно, что только определяет метрическое расстояние; не удовлетворяет неравенству треугольника, поэтому в большинстве определений оно не является расстоянием.L Lp p>0
Я не уверен, когда связь между Ridge и LASSO была реализована.
Что касается того, почему существует несколько имен, просто вопрос в том, что эти методы развивались в разных местах в разное время. Общая тема в статистике заключается в том, что понятия часто имеют несколько имен, по одному для каждого подполя, в котором оно было открыто независимо (функции ядра против ковариационных функций, регрессия гауссовского процесса против кригинга, AUC против -статистики). Регрессию хребта, вероятно, следует назвать регуляризацией Тихонова, поскольку я считаю, что он имеет самые ранние претензии к методу. Между тем, LASSO был введен только в 1996 году, намного позже, чем «гребневой» метод Тихонова!c
источник