(Это основано на вопросе, который только что пришел ко мне по электронной почте; я добавил некоторый контекст из предыдущего короткого разговора с тем же человеком.)
В прошлом году мне сказали, что гамма-распределение тяжелее, чем логнормальное, и с тех пор мне сказали, что это не так.
Какой из них более тяжелый хвост?
Какие ресурсы я могу использовать для изучения отношений?
distributions
gamma-distribution
lognormal
heavy-tailed
Glen_b - Восстановить Монику
источник
источник
Ответы:
(Правый) хвост распределения описывает его поведение при больших значениях. Правильный объект исследования не является его плотность - что во многих практических случаях не существует - а ее функция распределения . Более конкретно, поскольку F должен возрастать асимптотически до 1 для больших аргументов x (по закону полной вероятности), нас интересует, как быстро он приближается к этой асимптоте: нам нужно исследовать поведение ее функции выживания 1 - F ( x ) при x → ∞ .F F 1 x 1−F(x) x→∞
В частности, одно распределения для случайной величины X является «тяжелее» , чем другим G при условии , что в конечном итоге Р имеет больше вероятности того, при больших значениях , чем G . Это может быть оформлено: должно существовать конечное число х 0 таких , что для всех х > х 0 , Рг Р ( Х > х ) = 1 - Р ( х ) > 1 - G ( х ) = Pr G (F X G F G x0 x>x0
Красная кривая на этом рисунке - функция выживания для распределения Пуассона . Синяя кривая для гамма- распределения ( 3 ) , которая имеет такую же дисперсию. В конечном итоге синяя кривая всегда превышает красную кривую, показывая, что это гамма-распределение имеет более тяжелый хвост, чем это распределение Пуассона. Эти распределения нельзя легко сравнить с использованием плотностей, потому что распределение Пуассона не имеет плотности.(3) (3)
Это верно , что , когда плотность и г существуют и для , то тяжелее хвостами , чем . Тем не менее, обратное утверждение неверно - и это является веской причиной, по которой определение тяжести хвоста основывается на функциях выживания, а не на плотности, даже если часто анализ хвостов легче проводить с использованием плотностей.f g x > x 0 F Gf(x)>g(x) x>x0 F G
Контрпримеры могут быть построены с помощью дискретного распределения положительной неограниченной поддержки, которое, тем не менее, не имеет более тяжелого хвоста, чем (дискретизация сделает свое дело). Превратите это в непрерывное распределение, заменив массу вероятности в каждой из ее опорных точек , написанную , на (скажем) масштабированное распределение Beta с поддержкой на подходящем интервале и взвешивается по . Учитывая небольшое положительное число выберитеG G H k h ( k ) ( 2 , 2 ) [ k - ε ( k ) , k + ε ( k ) ] h ( k ) δ , ε ( k ) f ( k ) / δ δ H + ( 1 - δ ) G G ′ G δ H f GH G G H k h(k) (2,2) [k−ε(k),k+ε(k)] h(k) δ, ε(k) достаточно мал, чтобы гарантировать, что пиковая плотность этого масштабированного бета-распределения превышает . По построению, смесь является непрерывным распределением , хвост которого похож на хвост (он равномерно немного меньше на величину ), но имеет пики в его плотность на поддержке и у всех тех шипов есть точки, где они превышают плотность . Таким образом легче хвостами , чем , но независимо от того , как далеко в хвосте мы туда будет точки , где его плотность превышает .f(k)/δ δH+(1−δ)G G′ G δ H f F FG′ F F
Красная кривая - это PDF гамма-распределения , золотая кривая - это PDF логнормального распределения , а синяя кривая (с шипами) - это PDF смеси построенной, как в контрпримере. (Обратите внимание на ось логарифмической плотности.) Функция выживания близка к функции гамма-распределения (с быстро затухающими покачиваниями): в конечном итоге она будет расти меньше, чем у , даже если ее PDF всегда будет превышать из , независимо от того , как далеко в хвостах мы посмотрим.G F G′ G′ F F
обсуждение
Между прочим, мы можем выполнить этот анализ непосредственно на функциях выживания логнормальных и гамма-распределений, расширив их вокруг чтобы найти их асимптотическое поведение, и сделать вывод, что все логнормали имеют более тяжелые хвосты, чем все гаммы. Но поскольку эти распределения имеют «хорошие» плотности, анализ легче выполнить, показав, что при достаточно большом логнормальная плотность превышает гамма-плотность. Не будем, однако, путать это аналитическое удобство со значением тяжелого хвоста.x=∞ x
Точно так же, хотя более высокие моменты и их варианты (такие как асимметрия и эксцесс) говорят немного о хвостах, они не дают достаточной информации. В качестве простого примера, мы можем усечь любое логнормальное распределение при таком большом значении, что любое заданное число его моментов вряд ли изменится - но при этом мы полностью удалим его хвост, сделав его легче хвостовым, чем любое распределение с неограниченным поддержка (например, гамма).
Справедливым возражением против этих математических искажений было бы указать на то, что поведение, столь далеко идущее в хвосте, не имеет практического применения, потому что никто никогда не поверит, что любая модель распределения будет действительной при таких крайних (возможно, физически недостижимых) значениях. Это показывает, однако, что в приложениях мы должны позаботиться о том, чтобы определить, какая часть хвоста вызывает беспокойство, и проанализировать ее соответствующим образом. (Время повторения наводнения, например, можно понять в этом смысле: 10-летние наводнения, 100-летние наводнения и 1000-летние наводнения характеризуют отдельные участки хвоста распространения наводнения.) Однако применяются те же принципы: Основным объектом анализа здесь является функция распределения, а не ее плотность.
источник
Гамма и логнормаль - это правосторонние распределения с постоянным коэффициентом вариации на , и они часто являются основой «конкурирующих» моделей для конкретных видов явлений.(0,∞)
Существуют различные способы определения тяжести хвоста, но в этом случае я думаю, что все обычные показывают, что логнормальное значение тяжелее. (То, о чем первый человек мог говорить, это то, что происходит не в дальнем хвосте, а немного правее от режима (скажем, около 75-го процентиля на первом графике ниже, что для логарифма ненормально чуть ниже 5). а гамма чуть выше 5.)
Тем не менее, давайте просто начнем исследовать вопрос очень просто.
Ниже приведены гамма и логнормальные плотности со средним 4 и дисперсией 4 (верхний график - гамма темно-зеленый, логнормальный синий), а затем логарифмическая плотность (внизу), так что вы можете сравнить тренды в хвостах:
Трудно увидеть много деталей на верхнем графике, потому что все действие направо от 10. Но на втором графике совершенно ясно, что гамма движется вниз гораздо быстрее, чем логарифмическая.
Другой способ исследовать отношения - посмотреть на плотность бревен, как в ответе здесь ; мы видим, что плотность логарифмов для логнормального значения симметрична (это нормально!), а для гаммы - наклон слева, со светлым хвостом справа.
Мы можем сделать это алгебраически, где мы можем посмотреть на соотношение плотностей при (или на логарифм отношения). Пусть g будет гамма-плотностью, а f lognormal:x→∞ g f
Член в [] является квадратичным по , а оставшийся член линейно убывает по x . Независимо от того, что - x / β , в конечном итоге, будет уменьшаться быстрее, чем квадратичное увеличение, независимо от значений параметров . В пределе при x → ∞ логарифм отношения плотностей уменьшается в сторону - ∞ , что означает, что гамма-pdf в конечном итоге намного меньше, чем лог-нормальный pdf, и он продолжает уменьшаться, относительно. Если вы возьмете соотношение другим способом (с логнормальным верхом), оно в конечном итоге должно увеличиться за пределы любой границы.log(x) x −x/β x→∞ −∞
То есть любой данный логнормальный элемент в конечном итоге оказывается более тяжелым, чем любая гамма.
Другие определения тяжести:
Некоторых людей интересует асимметрия или эксцесс, чтобы измерить тяжесть правого хвоста. При данном коэффициенте вариации логнормальное отклонение является более асимметричным и имеет более высокий эксцесс, чем гамма . **
Например, при асимметрии гамма имеет асимметрию 2CV, в то время как логарифмическая норма составляет 3CV + CV 3 .3
Есть несколько технических определений различных мер того, насколько тяжелые хвосты здесь . Вы можете попробовать некоторые из этих двух дистрибутивов. Логнормальное является интересным частным случаем в первом определении - все его моменты существуют, но его MGF не сходится выше 0, в то время как MGF для гаммы действительно сходится в окрестности около нуля.
-
** Как упоминает Ник Кокс ниже, обычное преобразование в приближенную нормальность для гаммы, преобразование Уилсона-Хилферти, слабее, чем лог - это преобразование кубического корня. При малых значениях параметра shape четвертый корень упоминается вместо этого, см. Обсуждение в этом ответе , но в любом случае это более слабое преобразование для достижения почти нормальности.
Сравнение асимметрии (или эксцесса) не предполагает каких-либо необходимых отношений в крайнем хвосте - оно вместо этого говорит нам что-то о среднем поведении; но по этой причине это может сработать лучше, если исходная точка зрения не была сделана о крайнем хвосте.
Ресурсы : Легко использовать такие программы, как R или Minitab, Matlab или Excel, или что угодно, чтобы рисовать плотности и журналы плотностей и журналы соотношений плотностей ... и так далее, чтобы увидеть, как обстоят дела в конкретных случаях. Вот с чего я бы предложил начать.
источник
функция выживания для логнормального распределения (LND) в синем и гамма-распределения (GD) в оранжевом. Это подводит нас к нашей первой осторожности. То есть, если бы этот график был всем, что мы должны были исследовать, мы могли бы заключить, что хвост для GD тяжелее, чем для LND. То, что это не так, показано расширением значений оси X графика, таким образом,
источник