Квантильная регрессия: функция потери

24

Я пытаюсь понять квантильную регрессию, но одна вещь, которая заставляет меня страдать, это выбор функции потерь.

ρτ(u)=u(τ1{u<0})

Я знаю, что минимум ожидания равен -квентилю, но какова интуитивная причина начинать с этой функции? Я не вижу связи между минимизацией этой функции и квантиля. Может кто-нибудь объяснить это мне?τ %ρτ(yu)τ%

CDO
источник

Ответы:

28

Я понимаю этот вопрос как запрос о понимании того, как можно придумать любую функцию потерь, которая производит данный квантиль в качестве минимизатора потерь, независимо от того, каким может быть базовое распределение. Тогда было бы неудовлетворительно просто повторить анализ в Википедии или где-либо еще, который показывает, что эта конкретная функция потерь работает.

Давайте начнем с чего-то знакомого и простого.

То , что вы говорите о том , найти «местоположение» относительно распределения или набора данных . Хорошо известно, например, что среднее значение минимизирует ожидаемый квадрат невязки; то есть это значение, для которого F ˉ xxFx¯

LF(x¯)=R(xx¯)2dF(x)

настолько мал, насколько это возможно. Я использовал это обозначение, чтобы напомнить нам, что является производным от потери , что он определяется , но самое главное, это зависит от числа .Lˉ xFx¯

Стандартный способ показать, что минимизирует любую функцию, начинается с демонстрации того, что значение функции не уменьшается, когда немного изменяется. Такое значение называется критической точкой функции. x xx

Какой тип функции потерь приведет к тому, что процентиль будет критической точкой? Потеря этого значения будетF - 1 ( α )ΛF1(α)

LF(F1(α))=RΛ(xF1(α))dF(x)=01Λ(F1(u)F1(α))du.

Чтобы это было критической точкой, ее производная должна быть равна нулю. Поскольку мы просто пытаемся найти какое-то решение, мы не будем останавливаться, чтобы посмотреть, являются ли манипуляции законными: мы планируем проверить технические детали (например, можем ли мы действительно дифференцировать и т. Д. ) В конце. таким образомΛ

(1)0=LF(x)=LF(F1(α))=01Λ(F1(u)F1(α))du=0αΛ(F1(u)F1(α))duα1Λ(F1(u)F1(α))du.

С левой стороны аргумент отрицательный, тогда как с правой стороны он положительный. Кроме этого, мы мало контролируем значения этих интегралов, потому что может быть любой функцией распределения. Следовательно, наша единственная надежда состоит в том, чтобы заставить зависеть только от знака своего аргумента, в противном случае он должен быть постоянным.F Λ ΛFΛ

Это означает, что будет кусочно-линейной, возможно, с разными наклонами слева и справа от нуля. Очевидно, что при приближении к нулю оно должно уменьшаться - это, в конце концов, потеря, а не выгода . Более того, изменение масштаба по константе не изменит его свойств, поэтому мы можем свободно устанавливать левый наклон в . Пусть будет правым уклоном. Тогда упрощается доΛ - 1 τ > 0 ( 1 )ΛΛ1τ>0(1)

0=ατ(1α),

откуда уникальное решение, вплоть до положительного множителя,

Λ(x)={x, x0α1αx, x0.

Умножение этого (естественного) решения на , чтобы очистить знаменатель, дает функцию потерь, представленную в вопросе.1α

Очевидно, что все наши манипуляции математически законны, когда имеет эту форму. Λ

Whuber
источник
19

Способ выражения этой функции потерь хорош и компактен, но я думаю, что ее легче понять, переписав ее как

ρτ(Xm)=(Xm)(τ1(Xm<0))={τ|Xm|ifXm0(1τ)|Xm|ifXm<0)

Если вы хотите получить интуитивное представление о том, почему при минимизации этой функции потерь получается квантиль th, полезно рассмотреть простой пример. Пусть - равномерная случайная величина между 0 и 1. Давайте также выберем конкретное значение для , скажем, .τXτ0.25

Итак, теперь вопрос в том, почему эта функция потерь будет минимизирована при ? Очевидно, что в равномерном распределении справа от масса в три раза больше, чем слева. А функция потерь взвешивает значения, превышающие это число, только на треть от веса, присвоенного значениям, меньшим его. Таким образом, интуитивно понятно, что шкалы сбалансированы, когда квантиль th используется в качестве точки перегиба для функции потерь.m=0.25mτ

jjet
источник
1
Не должно ли быть иначе? Недоумение будет стоить в три раза дороже?
Эди Бис
Спасибо, что поймали это. Формула верна, но я изначально неправильно сформулировал ее в своем объяснении.
Джет