Зачем использовать регуляризацию L1 над L2?

10

При проведении модели линейной регрессии с использованием функции потерь, почему я должен использовать вместо регуляризации ?L 2L1L2

Это лучше для предотвращения переоснащения? Является ли это детерминированным (поэтому всегда уникальным решением)? Это лучше при выборе функции (потому что производство разреженных моделей)? Распределяет ли он весовые характеристики между функциями?

astudentofmaths
источник
2
L2 не делает выбор переменных, поэтому L1 определенно лучше в этом.
Майкл М

Ответы:

5

По сути, мы добавляем термин регуляризации, чтобы коэффициенты не подходили так идеально, чтобы соответствовать.

Разница между L1 и L2 в том, что L1 - это сумма весов, а L2 - это просто сумма квадратов весов.

L1 не может использоваться в градиентных подходах, так как он не дифференцируем в отличие от L2

L1 помогает выполнять выбор функций в разреженных функциональных пространствах. Выбор функций заключается в том, чтобы знать, какие функции полезны, а какие избыточны.

Разницу между их свойствами можно суммировать как:

l1 против l2

Батини Пранай Кумар
источник
1
Это неправда, что «L1 не может быть использован в градиентных подходах». Керас поддерживает это , например. Да, производная всегда постоянна, поэтому градиентному спуску будет сложнее найти минимум. Но регуляризация - это маленький термин в функции потерь, поэтому он не очень важен в общей схеме вещей.
Рикардо Круз
-1

У L2 есть одно очень важное преимущество перед L1 - это постоянство вращения и масштаба.

Это особенно важно в географическом / физическом применении.

Скажем, ваш техник случайно установил ваш датчик под углом 45 градусов, L1 будет затронут, а L2 (евклидово расстояние) останется прежним.

Чати Денати
источник
4
Это совсем не ответ на вопрос.
kbrose
Не могли бы вы объяснить неизменность, пожалуйста?
Aneesh Joshi
@ Чати, вопрос о регуляризации. Вы путаете это с другими использованиями 1-нормы и 2-нормы в функциях потерь.
Рикардо Круз