Потери L2 вместе с потерями L0 и L1 являются тремя очень распространенными функциями потерь «по умолчанию», используемыми при суммировании апостериорного значения с минимальной апостериорной ожидаемой потерей. Возможно, одной из причин этого является то, что их относительно легко вычислить (по крайней мере, для 1d-распределений), L0 приводит к моде, L1 - к медиане, а L2 - к среднему. При обучении я могу придумать сценарии, в которых L0 и L1 являются разумными функциями потерь (а не просто «по умолчанию»), но я борюсь со сценарием, в котором L2 будет разумной функцией потерь. Итак, мой вопрос:
В педагогических целях, что будет примером того, когда L2 является хорошей функцией потерь для вычисления минимальной задней потери?
Для L0 легко придумать сценарии ставок. Скажем, вы рассчитали апостериор по общему количеству голов в предстоящей игре в футбол и собираетесь сделать ставку, в которой вы выиграете $$$, если правильно угадываете количество голов и проиграете в противном случае. Тогда L0 - разумная функция потерь.
Мой пример с L1 немного надуманный. Вы встречаете друга, который прибудет в один из многих аэропортов, а затем приедет к вам на машине, проблема в том, что вы не знаете, в каком аэропорту (и не можете позвонить своему другу, потому что он в воздухе). С учетом того, в каком аэропорту она может приземлиться, где можно расположиться так, чтобы расстояние между ней и вами было небольшим, когда она прибудет? Здесь точка, которая минимизирует ожидаемую потерю L1, кажется разумной, если сделать упрощающие предположения, что ее машина будет двигаться с постоянной скоростью прямо к вашему местоположению. Таким образом, один час ожидания вдвое хуже, чем 30 минут ожидания.
источник
Ответы:
L2 "легко". Это то, что вы получаете по умолчанию, если вы используете стандартные матричные методы, такие как линейная регрессия, SVD и т. Д. До тех пор, пока у нас не было компьютеров, L2 была единственной игрой в городе для множества проблем, поэтому все используют ANOVA, t-тесты и т. Д. Также легче получить точный ответ, используя потери L2 с помощью многих более изящных методов, таких как гауссовские процессы, чем получить точный ответ, используя другие функции потерь.
Соответственно, вы можете получить потери L2 точно, используя приближение Тейлора 2-го порядка, что не относится к большинству функций потерь (например, кросс-энтропии). Это облегчает оптимизацию с помощью методов 2-го порядка, таких как метод Ньютона. Множество методов для работы с другими функциями потерь все еще используют методы для потерь L2 под капотом по той же причине (например, итеративно переоцененные наименьшие квадраты, интегрированные вложенные аппроксимации Лапласа).
L2 тесно связана с гауссовскими распределениями, а центральная предельная теорема делает гауссовские распределения общими. Если ваш процесс генерирования данных (условно) гауссовский, то L2 является наиболее эффективным оценщиком.
Потеря L2 хорошо разлагается из-за закона полной дисперсии. Это делает определенные графические модели с латентными переменными особенно удобными для подгонки.
L2 наказывает ужасные предсказания непропорционально. Это может быть хорошо или плохо, но часто довольно разумно. Часовое ожидание в среднем может быть в четыре раза хуже, чем 30-минутное ожидание, если оно приводит к тому, что многие люди пропускают свои встречи.
источник