Как проверить, отличаются ли два (ненормальных) распределения?

Есть несколько чувств, в которых «это зависит».

(Одна потенциальная проблема заключается в том, что исходные данные могут быть дискретными; это следует уточнить.)

в зависимости от размера выборки, ненормальность может быть не такой большой проблемой, как все это для t-теста. Для больших выборок, по крайней мере, обычно есть хорошая устойчивость уровня - частота ошибок типа I не должна сильно пострадать, если она не очень далека от нормальной. Сила может быть больше проблемой с тяжелыми хвостами.
Если вы ищете какие-либо различия в распределении, может подойти критерий достоверности соответствия с двумя выборками, такой как критерий Колмогорова-Смирнова с двумя выборками (хотя вместо этого могут быть выполнены другие тесты).
Если вы ищете различия в типе местоположения в семействе местоположений, или различия в масштабе в семействе масштабов, или даже просто в отношении типа P (X> Y)> P (Y> X), то Уилкоксон-Манн-Уитни два образца теста могут быть подходящими.
Вы могли бы рассмотреть тесты повторной выборки, такие как тесты перестановки или начальной загрузки, если вы можете найти подходящую статистику для вида (ов) различий, к которым вы хотите иметь чувствительность.

Кроме того, если у меня есть 13 дистрибутивов, нужно ли мне делать 13 ^ 2 тестов?

Ну нет .

$A$ $B$ $B$ $A$

$A$ $A$

Эти две вещи сокращают парные сравнения с 169 до 78.

В-третьих, было бы гораздо более привычным (но не обязательным) коллективно проверять наличие любых различий, а затем, возможно, искать парные различия в специальных парных тестах, если первый ноль был отклонен.

Например, вместо Уилкоксона-Манна-Уитни, как в пункте 3 выше, можно выполнить тест Крускала-Уоллиса, который чувствителен к любым различиям в расположении между группами.

Существуют также k-выборочные версии теста Колмогорова-Смирнова , и аналогичные тесты некоторых других тестов на пригодность для двух выборок могут существовать или быть созданы.

Существуют также k-выборочные версии тестов повторной выборки и t-теста (т. Е. ANOVA, что может быть хорошо, если размеры выборки достаточно велики).

Было бы неплохо получить больше информации о том, с чем мы имеем дело, и какие различия вас больше всего интересуют; или, если это не удалось, увидеть графики QQ некоторых образцов.

Glen_b - Восстановить Монику
источник

(+1) Так же, как добавить, что тест WMW имеет интерпретацию как тест на стохастическое доминирование, если вы готовы предположить, что CDF популяции не пересекаются. ИМО люди бы чаще этого хотели, если бы знали об этом.

Scortchi - Восстановить Монику

P (X < Y) \neq \frac{1}{2}

$P(X<Y) \neq \frac{1}{2}$ , С другой стороны, люди должны знать о его непереходности.

Glen_b

@Glen_b Данные не являются дискретными. Значения варьируются от -2 до 2.

Мартин Велес

Вау - важная информация! Они ограничены этим диапазоном (2,1 невозможно), или это просто случилось, что значения находятся в этом диапазоне?

Glen_b

Они ограничены этим диапазоном.

Мартин Велес

Да, я думаю, что вы не можете добиться большего успеха, чем тестирование каждого дистрибутива в сравнении с другими ...

Если вы считаете, что ваш вопрос связан с этим: Сравнение двух дистрибутивов

Вы советуете использовать тест Колмогорова-Сминора или тест Крамера-Мизеса. Они оба очень классические тесты на адекватность.

В R, функция ks.testв пакете статистики реализует первый. Второй может быть найден в пакетах, как cramer.

Чтобы узнать об этих двух тестах: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93von_Mises_criterion

Поп
источник

Как проверить, отличаются ли два (ненормальных) распределения?

Ответы: