Что может быть примером, когда L2 является хорошей функцией потерь для вычисления апостериорных потерь?

9

Потери L2 вместе с потерями L0 и L1 являются тремя очень распространенными функциями потерь «по умолчанию», используемыми при суммировании апостериорного значения с минимальной апостериорной ожидаемой потерей. Возможно, одной из причин этого является то, что их относительно легко вычислить (по крайней мере, для 1d-распределений), L0 приводит к моде, L1 - к медиане, а L2 - к среднему. При обучении я могу придумать сценарии, в которых L0 и L1 являются разумными функциями потерь (а не просто «по умолчанию»), но я борюсь со сценарием, в котором L2 будет разумной функцией потерь. Итак, мой вопрос:

В педагогических целях, что будет примером того, когда L2 является хорошей функцией потерь для вычисления минимальной задней потери?

Для L0 легко придумать сценарии ставок. Скажем, вы рассчитали апостериор по общему количеству голов в предстоящей игре в футбол и собираетесь сделать ставку, в которой вы выиграете $$$, если правильно угадываете количество голов и проиграете в противном случае. Тогда L0 - разумная функция потерь.

Мой пример с L1 немного надуманный. Вы встречаете друга, который прибудет в один из многих аэропортов, а затем приедет к вам на машине, проблема в том, что вы не знаете, в каком аэропорту (и не можете позвонить своему другу, потому что он в воздухе). С учетом того, в каком аэропорту она может приземлиться, где можно расположиться так, чтобы расстояние между ней и вами было небольшим, когда она прибудет? Здесь точка, которая минимизирует ожидаемую потерю L1, кажется разумной, если сделать упрощающие предположения, что ее машина будет двигаться с постоянной скоростью прямо к вашему местоположению. Таким образом, один час ожидания вдвое хуже, чем 30 минут ожидания.

Расмус Батх
источник
Предупреждение: L0 не приводит к режиму для непрерывных проблем ....
Xi'an
Хм, да, я знаю, что немного неаккуратно сказать L0 -> mode.
Расмус Бат
2
Глядя на закон обратных квадратов, если у вас есть несколько источников света, размещенных таким образом, что любая точка в пространстве, которую мы можем выбрать, получит пренебрежимо малый свет от всех источников, кроме ближайшего, использование потери L2 будет эквивалентно желанию минимизировать, скажем, число секунд на люмен. Я не могу понять, почему вы захотите сделать это, вместо того, чтобы максимизировать люмены в секунду.
Случайный статистик

Ответы:

4
  1. L2 "легко". Это то, что вы получаете по умолчанию, если вы используете стандартные матричные методы, такие как линейная регрессия, SVD и т. Д. До тех пор, пока у нас не было компьютеров, L2 была единственной игрой в городе для множества проблем, поэтому все используют ANOVA, t-тесты и т. Д. Также легче получить точный ответ, используя потери L2 с помощью многих более изящных методов, таких как гауссовские процессы, чем получить точный ответ, используя другие функции потерь.

  2. Соответственно, вы можете получить потери L2 точно, используя приближение Тейлора 2-го порядка, что не относится к большинству функций потерь (например, кросс-энтропии). Это облегчает оптимизацию с помощью методов 2-го порядка, таких как метод Ньютона. Множество методов для работы с другими функциями потерь все еще используют методы для потерь L2 под капотом по той же причине (например, итеративно переоцененные наименьшие квадраты, интегрированные вложенные аппроксимации Лапласа).

  3. L2 тесно связана с гауссовскими распределениями, а центральная предельная теорема делает гауссовские распределения общими. Если ваш процесс генерирования данных (условно) гауссовский, то L2 является наиболее эффективным оценщиком.

  4. Потеря L2 хорошо разлагается из-за закона полной дисперсии. Это делает определенные графические модели с латентными переменными особенно удобными для подгонки.

  5. L2 наказывает ужасные предсказания непропорционально. Это может быть хорошо или плохо, но часто довольно разумно. Часовое ожидание в среднем может быть в четыре раза хуже, чем 30-минутное ожидание, если оно приводит к тому, что многие люди пропускают свои встречи.

Дэвид Дж. Харрис
источник
2
Хм, то, что я преследовал, больше походило на ситуацию с принятием решения, где L2 был бы разумной функцией потерь. Как сценарий, похожий на два примера в моем вопросе, но для L2.
Расмус Батх
1
@ RasmusBååth Я не уверен в аргументе для точного возведения в квадрат потерь (кроме его связи с гауссовыми процессами генерации данных в # 3), но # 5 - аргумент для некоторой ускоряющей функции потерь. Во втором порядке любая такая функция будет соответствовать потере L2.
Дэвид Дж. Харрис
@ DavidJ.Harris На самом деле, # 5 неверно. В таком случае вы бы использовали потерю L1 abs (xy), чтобы минимизировать разочарование = время². Использование (xy) ² потери времени, как вы и предполагали, фактически даст вам неоптимальный результат.
Хор Ме
@ ÍhorMé Думаю, я тебя неправильно понял. Похоже, вы говорите, что лучший способ минимизировать квадратичную ошибку - минимизировать абсолютные потери, а не норму L2.
Дэвид Дж. Харрис
@ DavidJ.Harris Да, я пытался подчеркнуть, что это проблема минимизации «плохости» (= разности времени), а не времени, потраченного на ожидание, по сути, но я думаю, что изначально я неправильно понял мысленный эксперимент. Теперь, когда я перечитываю это, L2 - законный способ перейти от минимизации разницы во времени к минимизации "плохости". Хотя я должен сказать, что для программиста лучше сначала правильно определить, какую «вредность» он хочет минимизировать, затем получить это значение, а затем минимизировать с помощью L1. В этом случае вы сначала получаете (разность времени) ², а затем минимизируете потери L1. Используйте L2 только тогда, когда вы знаете, что делаете.
Хор Мё