Проверка на разницу между двумя эмпирическими дискретными распределениями

14

У меня есть тестовые данные, где у меня есть несколько больших выборок из дискретных распределений, которые я использую в качестве эмпирических распределений. Я хочу проверить, действительно ли дистрибутивы отличаются и какова разница в тех дистрибутивах, которые на самом деле отличаются.

Поскольку они являются дискретными распределениями, я понимаю, что критерий Колмогорова-Смирнова является недействительным из-за основного предположения о непрерывном распределении. Будет ли критерий Chi-Squared верным тестом для определения, действительно ли распределения различны?

Какой тест я бы использовал для определения разницы в средствах? Будет ли лучший подход к выборке из распределений и взять разницу, а затем провести анализ распределения разницы?

Wallhood
источник
χ2
Спасибо за ваш отзыв! Существует ли тест для определения разницы в значении, когда критерий хи-квадрат подтверждает, что распределения различны?
Wallhood
Будет ли лучший подход к выборке из распределений и взять разницу, а затем выполнить анализ на разницу?
Wallhood

Ответы:

13

1) Колмогорова-Смирнова все еще можно использовать, но если вы используете табулированные критические значения, это будет консервативно (что является проблемой только потому, что оно понижает вашу кривую мощности). Лучше получить распределение перестановки статистики, чтобы ваши уровни значимости были такими, какими вы их выбрали. Это будет иметь большое значение, только если есть много связей. Это изменение действительно легко осуществить. (Но тест KS - не единственно возможное такое сравнение; если в любом случае вычисляется распределение перестановок, есть и другие возможности.)

2) Ванильные хи-квадратные тесты соответствия для дискретных данных, как мне кажется, действительно плохая идея. Если приведенная выше потенциальная потеря мощности остановила вас при использовании теста KS, проблема с хи-квадратом часто намного хуже - он выбрасывает наиболее важную информацию, а именно упорядочение среди категорий (значения наблюдения), снижая его мощность распространяя его по альтернативам, которые не учитывают порядок, так что это хуже при обнаружении плавных альтернатив - например, смена местоположения и масштаба). Даже несмотря на негативные последствия тяжелых связей, описанных выше, тест KS во многих случаях все же имеет лучшую мощность (при этом снижая частоту ошибок типа I).

Хи-квадрат также можно изменить, чтобы учесть порядок (разделить хиск-квадрат на линейные, квадратичные, кубические и т. Д. Компоненты с помощью ортогональных многочленов и использовать только несколько членов младшего порядка - от 4 до 6 - это общий выбор). В работах Райнера и Беста (и других) обсуждается этот подход, который вытекает из гладких тестов Неймана-Бартона. Это хороший подход, но если у вас нет доступа к программному обеспечению для него, это может потребовать небольшой настройки.

Любой измененный подход должен подойти, но если вы не собираетесь изменять ни один из подходов, это не обязательно тот случай, когда хи-квадрат будет лучше, чем тест KS - в некоторых ситуациях это может быть лучше ... или это может быть существенно хуже.

Если связи не тяжелые (т. Е. Есть много разных значений, взятых данными), я бы рассмотрел KS как есть. Если они умеренные, я бы рассчитал распределение перестановок. Если они очень тяжелые (т.е. данные принимают только несколько разных значений), простой хи-квадрат может быть конкурентоспособным.

Glen_b - Восстановить Монику
источник
Спасибо за предупреждение. Я приму это во внимание, когда решу использовать тест KS или Chi-Squared
Wallhood