Почему потеря нормы L2 имеет единственное решение, а потеря нормы L1 может иметь несколько решений?

16

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

Если вы посмотрите на верхнюю часть этого поста, автор упомянет, что норма L2 имеет уникальное решение, а норма L1, возможно, имеет много решений. Я понимаю это с точки зрения регуляризации, но не с точки зрения использования нормы L1 или нормы L2 в функции потерь.

Если вы посмотрите на графики функций скаляра x (x ^ 2 и | x |), вы легко увидите, что оба имеют одно уникальное решение.

user3180
источник
2
"Fnx"? ... Пожалуйста, отредактируйте, чтобы сделать это понятнее. Вы имеете в виду "функции"?
Glen_b

Ответы:

25

Рассмотрим одномерную задачу для максимально простого изложения. (Случаи более высоких размеров имеют схожие свойства.)

|Икс-μ|(Икс-μ)2Σя|Икся-μ|Икс1знак равно1Икс2знак равно3

Участок sum_i | x_i - mu |

μ

L1

Σя(Икся-μ)2знак равноN(Икс¯-μ)2+К(Икс)


L1

Поскольку (за исключением некоторых конкретных обстоятельств) у вас обычно нет такой гарантии отсутствия очень влиятельных наблюдений, я бы не назвал L1-регрессию надежной.


R код для участка:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)
Glen_b - Восстановить Монику
источник
Это круто. Какое программное обеспечение вы использовали для создания графика?
user3180
2
Это просто сделано в базовой графике. Я добавил код в конец моего ответа.
Glen_b
1
Вау, никогда не понимал, что ты можешь поставить функцию plot. Ум взорван.
JAD
5

Минимизация потерь L2 соответствует вычислению среднего арифметического, которое является однозначным, в то время как минимизация потерь L1 соответствует вычислению медианы, которая неоднозначна, если четное число элементов включено в вычисление медианы (см. Центральная тенденция: решения вариационных задач ).

Привет пока
источник