Поэтому мне был задан вопрос, по каким оценкам центральные меры L1 (т.е. лассо) и L2 (т.е. регрессия гребня). Ответ L1 = медиана и L2 = среднее. Есть ли интуитивные рассуждения об этом? Или это должно быть определено алгебраически? Если да, то как мне это сделать?
24
Ответы:
Существует простое геометрическое объяснение того, почему функция потерь L1 дает медиану.
Напомним, что мы работаем в одном измерении, поэтому представьте, что числовая линия распространяется горизонтально. Нанесите на карту каждую из точек данных на числовой линии. Положите палец где-нибудь на линии; ваш палец будет вашей текущей оценкой кандидата.
Предположим, вы немного сместили палец вправо, скажем, на единиц вправо. Что происходит с полной потерей? Хорошо, если ваш палец находился между двумя точками данных, и вы перемещаете его через точку данных, вы увеличили общую потерю на δ для каждой точки данных слева от вашего пальца и уменьшили ее на δ для каждой точки данных до правый палец. Таким образом, если справа от вашего пальца больше точек данных, чем слева, перемещение пальца вправо уменьшает общую потерю. Другими словами, если более половины точек данных находятся справа от вашего пальца, вам следует переместить палец вправо.δ δ δ
Это приводит к тому, что вы перемещаете палец к точке, где половина точек данных находится на этой точке, а половина - справа. Это место медиана.
Это L1 и медиана. К сожалению, у меня нет аналогичного объяснения «все интуиция, без алгебры» для L2 и среднего значения.
источник
Это объяснение является суммой комментариев Муратоа и Ива к ответу Д.В. Хотя он основан на исчислении, я нашел его простым и понятным.
Предполагая , что мы и хотеть получить новую оценку β на их основе. Наименьшая потеря получается, когда мы находим β, который делает производную потери равной нулю.Y1, у2, . , , YК β β
Потеря L1
∂L1
L2 потеря
источник
Добавьте к ответу DW еще более практичный пример (также для функции потерь L2):
Представьте себе небольшую деревню из 4 домов, расположенных близко друг к другу (например, 10 метров). В 1 километре от них у вас есть еще один очень изолированный дом. Теперь вы приехали в этот город и хотите где-нибудь построить свой собственный дом. Вы хотите жить рядом с другими домами и дружить со всеми. Рассмотрим эти два альтернативных сценария:
Вы решаете оказаться в том месте, где среднее расстояние до любого дома является наименьшим (т.е. минимизируется функция потерь L1).
Таким образом, наименьшее среднее расстояние в 100 метров достигается при строительстве вашего дома в деревне. В частности, вы построите свой дом в середине этих 4 домов, чтобы получить еще несколько метров среднего расстояния. И оказывается, что эта точка является « срединной точкой », которую вы бы получили аналогичным образом, используя формулу медианы.
Так что да, интересно отметить, что, немного нелогично, когда мы минимизируем сумму расстояний, мы не оказываемся в «середине» в смысле среднего значения, но в смысле медиана. Это одна из причин, почему OLS, одна из самых популярных регрессионных моделей, использует квадратные ошибки, а не абсолютные ошибки.
источник
В дополнение к уже опубликованным ответам (которые были очень полезны для меня!), Существует геометрическое объяснение связи между нормой L2 и средним значением.
Чтобы использовать те же обозначения, что и chefwen , формула для потери L2:
Мы хотим найти значениеβ который сводит к минимуму L 2 , Обратите внимание, что это эквивалентно минимизации следующего, так как умножение наК и принимая квадратный корень, оба сохраняют порядок:
Если вы считаете вектор данныхY как точка в К -мерное пространство, эта формула рассчитывает евклидово расстояние между точкой Y и точка β⃗ = ( β, β, . , , , β) ,
Таким образом, проблема заключается в том, чтобы найти значениеβ что сводит к минимуму евклидово расстояние между точками Y а также β⃗ , Поскольку возможные значенияβ⃗ все лежат на линии, параллельной 1⃗ = ( 1 , 1 , . . . , 1 ) по определению это эквивалентно нахождению векторной проекции Y на 1⃗ ,
Это действительно возможно визуализировать, только когдак = 2 , но вот пример, где Y= ( 2 , 6 ) , Как показано, проецируя на1⃗ доходность ( 4 , 4 ) как мы ожидаем.
Чтобы показать, что эта проекция всегда дает среднее значение (в том числе, когдаk > 2 ), мы можем применить формулу для проекции :
источник