Я понимаю этот вопрос как запрос о понимании того, как можно придумать любую функцию потерь, которая производит данный квантиль в качестве минимизатора потерь, независимо от того, каким может быть базовое распределение. Тогда было бы неудовлетворительно просто повторить анализ в Википедии или где-либо еще, который показывает, что эта конкретная функция потерь работает.
Давайте начнем с чего-то знакомого и простого.
То , что вы говорите о том , найти «местоположение» относительно распределения или набора данных . Хорошо известно, например, что среднее значение минимизирует ожидаемый квадрат невязки; то есть это значение, для которого F ˉ xx∗Fx¯
LF(x¯)=∫R(x−x¯)2dF(x)
настолько мал, насколько это возможно. Я использовал это обозначение, чтобы напомнить нам, что является производным от потери , что он определяется , но самое главное, это зависит от числа .Lˉ xFx¯
Стандартный способ показать, что минимизирует любую функцию, начинается с демонстрации того, что значение функции не уменьшается, когда немного изменяется. Такое значение называется критической точкой функции. x ∗x∗x∗
Какой тип функции потерь приведет к тому, что процентиль будет критической точкой? Потеря этого значения будетF - 1 ( α )ΛF−1(α)
LF(F−1(α))=∫RΛ(x−F−1(α))dF(x)=∫10Λ(F−1(u)−F−1(α))du.
Чтобы это было критической точкой, ее производная должна быть равна нулю. Поскольку мы просто пытаемся найти какое-то решение, мы не будем останавливаться, чтобы посмотреть, являются ли манипуляции законными: мы планируем проверить технические детали (например, можем ли мы действительно дифференцировать и т. Д. ) В конце. таким образомΛ
0=L′F(x∗) =L′F( F−1(α))=−∫10Λ′(F−1(u)−F−1(α))du=−∫α0Λ′(F−1(u)−F−1(α))du−∫1αΛ′(F−1(u)−F−1(α))du.(1)
С левой стороны аргумент отрицательный, тогда как с правой стороны он положительный. Кроме этого, мы мало контролируем значения этих интегралов, потому что может быть любой функцией распределения. Следовательно, наша единственная надежда состоит в том, чтобы заставить зависеть только от знака своего аргумента, в противном случае он должен быть постоянным.F Λ ′ΛFΛ′
Это означает, что будет кусочно-линейной, возможно, с разными наклонами слева и справа от нуля. Очевидно, что при приближении к нулю оно должно уменьшаться - это, в конце концов, потеря, а не выгода . Более того, изменение масштаба по константе не изменит его свойств, поэтому мы можем свободно устанавливать левый наклон в . Пусть будет правым уклоном. Тогда упрощается доΛ - 1 τ > 0 ( 1 )ΛΛ−1τ>0(1)
0=α−τ(1−α),
откуда уникальное решение, вплоть до положительного множителя,
Λ(x)={−x, x≤0α1−αx, x≥0.
Умножение этого (естественного) решения на , чтобы очистить знаменатель, дает функцию потерь, представленную в вопросе.1−α
Очевидно, что все наши манипуляции математически законны, когда имеет эту форму. Λ