Сравнение хвостов двух выборочных распределений

13

У меня есть два набора данных, которые примерно сосредоточены вокруг нуля, но я подозреваю, что у них разные хвосты. Я знаю несколько тестов для сравнения дистрибутива с нормальным дистрибутивом, но я бы хотел сравнить два этих дистрибутива.

Существует ли простой тест для сравнения жирности хвоста из 2 распределений ?

Спасибо,
Фред

RockScience
источник
Является ли тег "толстые хвосты" действительно значимым (для будущих вопросов)?
ЧЛ
@chl Вы говорите мне, я, конечно, не так опытен, как вы в статистике. Но ИМО - это классический уклон недооценивать важность хвостов. Вы читали работу Мандельброта? Жирные хвосты очень важны в прикладной статистике для финансов, и кредитный кризис 2008 года произошел отчасти из-за некоторых моделей ценообразования, которые предполагали нормальность и недооценивали жирные хвосты некоторого корреляционного распределения. Мы можем обсудить это в другой ветке :)
RockScience
1
Этот вопрос потенциально интересен, но некоторые разъяснения приветствуются. Вас беспокоит один хвост или оба? Как вы измеряете "упитанность"? (Готовы ли вы, например, сместить и перемасштабировать два распределения для сравнения?) Как вы измеряете отклонения в "упитанности"? Если вы обдумываете проверку гипотезы, то какой именно будет альтернативная гипотеза?
whuber
@RockScience, у меня есть два дистрибутива и я хочу сравнить только хвосты, вам удалось, как это сделать? Я знаю, что вы можете рассчитать эксцесс, но как вы проверили, что оба хвоста разные?
user2380782

Ответы:

6

Похоже, что этот вопрос относится к тому же семейству, что и предыдущий, относительно проверки того, имеют ли два образца одинаковый перекос , поэтому вы можете прочитать мой ответ на этот вопрос . Я считаю , что L-моменты будут полезны здесь по тем же причинам ( в частности , L- перекос эксцесса в данном случае).

универсальный
источник
2

Построив порог, скажем, лямбда, мы можем проверить равенство двух средних или дисперсий двух распределений, ограниченных в хвостовой области (\ lambda, infinity), основываясь на двух наборах данных наблюдений, попадающих в эту хвостовую область. Конечно, два образца t-критерия или F-критерия могут быть в порядке, но не слишком эффективны, так как случайная величина, ограниченная в этой области хвоста, не является нормальной, даже оригинальной.

Лин-Ан Чен
источник
Теория экстремальных значений изучает такие усеченные распределения: асимптотически распределение хвостов обычно принадлежит обобщенному семейству Парето . Можно также попытаться согласовать данные с этим семейством распределений и сравнить параметры.
Винсент Zoonekynd
@ Vincent Хвост может иметь практически любое распределение. Теория экстремальных значений мало говорит о хвостах: она фокусируется на распределении максимумов (или минимумов) образцов iid, что совсем другое.
whuber
1

Как насчет подбора обобщенного лямбда-распределения и доверительных интервалов начальной загрузки по 3-му и 4-му параметрам?

Майк Лоуренс
источник
2
Почему это семейство распределений будет особенно полезно для этой проблемы, а не какое-то другое семейство, такое как распределение Пирсона?
whuber
1

Тест хи-квадрат (критерий соответствия) будет очень хорош при сравнении хвостов двух распределений, поскольку он структурирован для сравнения двух распределений по группам значений (графически представленных гистограммой). И, хвосты будут состоять в самых дальних ведрах.

Несмотря на то, что этот тест сфокусирован на всем распределении, а не только на хвосте, вы можете легко наблюдать, какая часть значения или дивергенции хи-квадрат определяется разницей в жирности хвостов.

Обратите внимание, что полученная гистограмма может фактически дать вам визуально гораздо больше информации о соответствующей жирности хвостов, чем любая статистическая значимость, связанная с тестами. Одно дело утверждать, что жирность хвостов статистически различна. Это другое, чтобы визуально наблюдать это. Они говорят, что картинка стоит тысячи слов. Иногда это также стоит тысячи чисел (это имеет смысл, учитывая, что графы инкапсулируют все числа).

Sympa
источник
3
Мне кажется, что тест хи-квадрат будет особенно плох при выявлении различий в хвостах. Если хвосты покрыты многими ячейками, то - потому что они являются хвостами! - в любом из них может быть мало данных, что делает недействительным приближение хи-квадрат. Если хвосты покрыты несколькими мусорными ведрами, то вы теряете почти всю способность различать их формы, и то, что вам удается различать, может быть не очень уместным или полезным. (Одна из проблем, с которой мы здесь сталкиваемся, заключается в том, что «жирность хвоста» не была определена, поэтому вопрос действительно слишком расплывчат, чтобы дать на него хороший ответ.)
whuber
@whuber, я не могу сказать, согласен ли я с вашим комментарием, потому что я не совсем понимаю один из ваших пунктов. Что вы имеете в виду именно под "недействительным приближением хи-квадрат"?
Симпа
Тест хи-квадрат основан на приближении теории нормалей к истинному распределению статистики хи-квадрат. Как правило, это приближение становится плохим, когда популяции
бункеров
@whuber, спасибо за объяснение. В связи с этим, я чувствую, что первая фраза вашего первоначального комментария может быть не такой нюансированной, как вы, возможно, заботились («тест хи-квадрат будет особенно плох при определении различий в хвостах»). Возможно, более подходящим утверждением было бы «это зависит ...». У этого теста есть несколько достоинств, в том числе вынуждаете вас определять соответствующие ячейки. И, что не менее важно, облегчить построение гистограммы. Конечно, если у вас в корзине менее 5 наблюдений, вы потеряете точность, как вы хорошо объяснили.
Симпа
@Gaetan Я ценю внимание к нюансам, но в этом случае решение кажется оправданным. По сравнению со многими другими методами, доступными для сравнения дистрибутивов, тест Chi Squared не очень хорошо работает. Если вы «определяете соответствующие ячейки» на основе самих данных, тест недействителен. Кроме того, гистограмма обычно не является полезным способом посмотреть на хвосты распределений. Однако я не хочу предлагать альтернативы, потому что проблема плохо определена: что может означать, что два дистрибутива имеют одинаковую «жирность хвостов»? Куртоз является одной из возможностей, но это грубая мера.
whuber