Оценка значимости различий в распределениях

22

У меня есть две группы данных. Каждый с различным распределением нескольких переменных. Я пытаюсь определить, отличаются ли распределения этих двух групп статистически значимым образом. У меня есть данные как в необработанном виде, так и сгруппированные в более легкие для работы с дискретными категориями с частотными показателями в каждой.

Какие тесты / процедуры / методы я должен использовать, чтобы определить, значительно ли отличаются эти две группы, и как мне это сделать в SAS или R (или Orange)?

Джей Стивенс
источник
2
Вас интересует, имеют ли распределения другую форму (например, нормальное, пуассоновское и т. Д.) Или параметры отличаются (например, среднее или sd нормального распределения) или оба?
Jeromy Anglim
Смежный
ГаБоргуля,

Ответы:

15

Я полагаю, что для этого требуется двукратный критерий Колмогорова – Смирнова или тому подобное. Тест Колмогорова – Смирнова с двумя выборками основан на сравнении различий в эмпирических функциях распределения (ECDF) двух выборок, то есть он чувствителен как к расположению, так и к форме этих двух выборок. Это также обобщает в многомерную форму.

Этот тест можно найти в различных формах в разных пакетах в R, поэтому, если вы в основном опытны, все, что вам нужно сделать, это установить один из них (например, fBasics ) и запустить его на своих данных примера.

Джон Л. Тейлор
источник
5
Для R ks.test в пакете «stats» по умолчанию можно провести тест KS без установки дополнительных пакетов.
Расселпирс
В SAS тест KS доступен в proc npar1way. В R, в дополнение к ks.test(), есть nortestпакет, который обеспечивает несколько других тестов настройки.
ЧЛ
8

Я собираюсь задать тупой вопрос консультанта. Почему вы хотите знать, отличаются ли эти распределения статистически значимым образом?

Являются ли данные, которые вы используете, репрезентативными выборками из популяций или процессов, и вы хотите оценить доказательства того, что эти группы или процессы различаются? Если это так, то статистический тест подходит именно вам. Но это кажется странным вопросом для меня.

Или вас интересует, действительно ли вам нужно вести себя так, как будто эти группы или процессы различны, независимо от правды? Тогда вам будет лучше определить функцию потерь, в идеале такую, которая возвращает единицы, которые являются значимыми для вас, и прогнозировать ожидаемые потери, когда вы (а) относитесь к разным группам населения и (б) рассматриваете их как одинаковые. Или вы можете выбрать какой-то квантиль распределения убытков, если хотите занять более или менее консервативную позицию.

Эндрю Робинсон
источник
Ваш тон немного запутанный и снисходительный ... но вы правы, я думаю, что я действительно хотел узнать, могу ли я разумно предположить, что эти два распределения одинаковы.
Джей Стивенс
3
Извините, что вам не нравится мой тон. Если вы хотите узнать, можете ли вы разумно предположить, что эти два распределения одинаковы, то KS введет вас в заблуждение, поскольку он проверяет нулевую гипотезу о том, что два распределения одинаковы.
Эндрю Робинсон
5

Вы можете быть заинтересованы в применении относительных методов распределения. Назовите одну группу контрольной группой, а другую - группой сравнения. Подобно построению графика вероятности-вероятности, вы можете построить относительный CDF / PDF, который является отношением плотностей. Эта относительная плотность может быть использована для вывода. Если распределения идентичны, вы ожидаете равномерного относительного распределения. Существуют инструменты, графические и статистические, для изучения и изучения отклонений от единообразия.

Хорошей отправной точкой для лучшего понимания является применение методов относительного распределения в R и пакета reldist в R. Для получения подробной информации вам нужно обратиться к книге « Методы относительного распределения в социальных науках», написанной Хэндкоком и Моррисом. Есть также статья авторов, освещающая соответствующие методы.

АРС
источник
2

Одним из показателей различия между двумя распределениями являются критерии «максимального среднего расхождения», которые в основном измеряют разницу между эмпирическими средними значениями выборок из двух распределений в гильбертовом пространстве воспроизводящего ядра (RKHS). См. Эту статью «Метод ядра для двух примерных задач» .

ebony1
источник
На мой взгляд, этот метод является наиболее надежным, но не очень известным, поскольку он одинаково хорошо работает, если у вас есть конечная выборка для вашего распределения (и, следовательно, ваши выборочные распределения не являются полностью непрерывными). Он также работает с многочленными дистрибутивами, которые, насколько я знаю, для теста KS все еще являются активными исследованиями
www3
-1

Я не знаю, как использовать SAS / R / Orange, но звучит так, как будто вам нужен тест хи-квадрат .

Суреш Венкатасубраманян
источник
Я думал, что Chi-Sq был в основном для категориальных данных (таблицы сопряженности) против непрерывных?
Джей Стивенс
1
Хм, мне на самом деле нравится тестовый ответ KS лучше, чем мой!
Суреш Венкатасубраманян
1
Нет, это не правильно.
SmallChess