Как проверить, отличаются ли два (ненормальных) распределения?

13

Я читал о t-тесте Стьюдента, но он работает, когда мы можем предположить, что исходные дистрибутивы обычно распространяются. В моем случае их точно нет.

Кроме того, если у меня есть 13 дистрибутивов, нужно ли мне делать 13^2тесты?

Вот образец двух распределений.  Есть 13 раздач.

Мартин Велес
источник
@Glen_b Данные не являются дискретными. Значения варьируются от -2 до 2.
Мартин Велес,

Ответы:

19

Есть несколько чувств, в которых «это зависит».

(Одна потенциальная проблема заключается в том, что исходные данные могут быть дискретными; это следует уточнить.)

  1. в зависимости от размера выборки, ненормальность может быть не такой большой проблемой, как все это для t-теста. Для больших выборок, по крайней мере, обычно есть хорошая устойчивость уровня - частота ошибок типа I не должна сильно пострадать, если она не очень далека от нормальной. Сила может быть больше проблемой с тяжелыми хвостами.

  2. Если вы ищете какие-либо различия в распределении, может подойти критерий достоверности соответствия с двумя выборками, такой как критерий Колмогорова-Смирнова с двумя выборками (хотя вместо этого могут быть выполнены другие тесты).

  3. Если вы ищете различия в типе местоположения в семействе местоположений, или различия в масштабе в семействе масштабов, или даже просто в отношении типа P (X> Y)> P (Y> X), то Уилкоксон-Манн-Уитни два образца теста могут быть подходящими.

  4. Вы могли бы рассмотреть тесты повторной выборки, такие как тесты перестановки или начальной загрузки, если вы можете найти подходящую статистику для вида (ов) различий, к которым вы хотите иметь чувствительность.

Кроме того, если у меня есть 13 дистрибутивов, нужно ли мне делать 13 ^ 2 тестов?

Ну нет .

AВ ВA

AA

Эти две вещи сокращают парные сравнения с 169 до 78.

В-третьих, было бы гораздо более привычным (но не обязательным) коллективно проверять наличие любых различий, а затем, возможно, искать парные различия в специальных парных тестах, если первый ноль был отклонен.

Например, вместо Уилкоксона-Манна-Уитни, как в пункте 3 выше, можно выполнить тест Крускала-Уоллиса, который чувствителен к любым различиям в расположении между группами.

Существуют также k-выборочные версии теста Колмогорова-Смирнова , и аналогичные тесты некоторых других тестов на пригодность для двух выборок могут существовать или быть созданы.

Существуют также k-выборочные версии тестов повторной выборки и t-теста (т. Е. ANOVA, что может быть хорошо, если размеры выборки достаточно велики).


Было бы неплохо получить больше информации о том, с чем мы имеем дело, и какие различия вас больше всего интересуют; или, если это не удалось, увидеть графики QQ некоторых образцов.

Glen_b - Восстановить Монику
источник
(+1) Так же, как добавить, что тест WMW имеет интерпретацию как тест на стохастическое доминирование, если вы готовы предположить, что CDF популяции не пересекаются. ИМО люди бы чаще этого хотели, если бы знали об этом.
Scortchi - Восстановить Монику
1
п(Икс<Y)12, С другой стороны, люди должны знать о его непереходности.
Glen_b
@Glen_b Данные не являются дискретными. Значения варьируются от -2 до 2.
Мартин Велес
Вау - важная информация! Они ограничены этим диапазоном (2,1 невозможно), или это просто случилось, что значения находятся в этом диапазоне?
Glen_b
Они ограничены этим диапазоном.
Мартин Велес
5

Да, я думаю, что вы не можете добиться большего успеха, чем тестирование каждого дистрибутива в сравнении с другими ...

Если вы считаете, что ваш вопрос связан с этим: Сравнение двух дистрибутивов

Вы советуете использовать тест Колмогорова-Сминора или тест Крамера-Мизеса. Они оба очень классические тесты на адекватность.

В R, функция ks.testв пакете статистики реализует первый. Второй может быть найден в пакетах, как cramer.

Чтобы узнать об этих двух тестах: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93von_Mises_criterion

Поп
источник
2

Вы можете попробовать односторонний дисперсионный анализ Крускала – Уоллиса

«Он используется для сравнения более двух выборок, которые независимы или не связаны»

Нарушения нормальности в ANOVA обсуждались в
Rutherford Представляя Anova и Ancova: Подход GLM 9.1.2 Нарушения нормальности

Первая строка там "Хотя большинство источников сообщают, что ANOVA ... как надежные в отношении нарушений нормального предположения ..."

abbat_VL
источник
Благодарность! Похоже, что нужно выполнить этот тест, прежде чем делать парные сравнения.
Мартин Велес