При проведении модели линейной регрессии с использованием функции потерь, почему я должен использовать вместо регуляризации ?L 2
Это лучше для предотвращения переоснащения? Является ли это детерминированным (поэтому всегда уникальным решением)? Это лучше при выборе функции (потому что производство разреженных моделей)? Распределяет ли он весовые характеристики между функциями?
linear-regression
regularization
astudentofmaths
источник
источник
Ответы:
По сути, мы добавляем термин регуляризации, чтобы коэффициенты не подходили так идеально, чтобы соответствовать.
Разница между L1 и L2 в том, что L1 - это сумма весов, а L2 - это просто сумма квадратов весов.
L1 не может использоваться в градиентных подходах, так как он не дифференцируем в отличие от L2
L1 помогает выполнять выбор функций в разреженных функциональных пространствах. Выбор функций заключается в том, чтобы знать, какие функции полезны, а какие избыточны.
Разницу между их свойствами можно суммировать как:
источник
У L2 есть одно очень важное преимущество перед L1 - это постоянство вращения и масштаба.
Это особенно важно в географическом / физическом применении.
Скажем, ваш техник случайно установил ваш датчик под углом 45 градусов, L1 будет затронут, а L2 (евклидово расстояние) останется прежним.
источник