У меня есть две группы данных. Каждый с различным распределением нескольких переменных. Я пытаюсь определить, отличаются ли распределения этих двух групп статистически значимым образом. У меня есть данные как в необработанном виде, так и сгруппированные в более легкие для работы с дискретными категориями с частотными показателями в каждой.
Какие тесты / процедуры / методы я должен использовать, чтобы определить, значительно ли отличаются эти две группы, и как мне это сделать в SAS или R (или Orange)?
distributions
statistical-significance
Джей Стивенс
источник
источник
Ответы:
Я полагаю, что для этого требуется двукратный критерий Колмогорова – Смирнова или тому подобное. Тест Колмогорова – Смирнова с двумя выборками основан на сравнении различий в эмпирических функциях распределения (ECDF) двух выборок, то есть он чувствителен как к расположению, так и к форме этих двух выборок. Это также обобщает в многомерную форму.
Этот тест можно найти в различных формах в разных пакетах в R, поэтому, если вы в основном опытны, все, что вам нужно сделать, это установить один из них (например, fBasics ) и запустить его на своих данных примера.
источник
proc npar1way
. В R, в дополнение кks.test()
, естьnortest
пакет, который обеспечивает несколько других тестов настройки.Я собираюсь задать тупой вопрос консультанта. Почему вы хотите знать, отличаются ли эти распределения статистически значимым образом?
Являются ли данные, которые вы используете, репрезентативными выборками из популяций или процессов, и вы хотите оценить доказательства того, что эти группы или процессы различаются? Если это так, то статистический тест подходит именно вам. Но это кажется странным вопросом для меня.
Или вас интересует, действительно ли вам нужно вести себя так, как будто эти группы или процессы различны, независимо от правды? Тогда вам будет лучше определить функцию потерь, в идеале такую, которая возвращает единицы, которые являются значимыми для вас, и прогнозировать ожидаемые потери, когда вы (а) относитесь к разным группам населения и (б) рассматриваете их как одинаковые. Или вы можете выбрать какой-то квантиль распределения убытков, если хотите занять более или менее консервативную позицию.
источник
Вы можете быть заинтересованы в применении относительных методов распределения. Назовите одну группу контрольной группой, а другую - группой сравнения. Подобно построению графика вероятности-вероятности, вы можете построить относительный CDF / PDF, который является отношением плотностей. Эта относительная плотность может быть использована для вывода. Если распределения идентичны, вы ожидаете равномерного относительного распределения. Существуют инструменты, графические и статистические, для изучения и изучения отклонений от единообразия.
Хорошей отправной точкой для лучшего понимания является применение методов относительного распределения в R и пакета reldist в R. Для получения подробной информации вам нужно обратиться к книге « Методы относительного распределения в социальных науках», написанной Хэндкоком и Моррисом. Есть также статья авторов, освещающая соответствующие методы.
источник
Одним из показателей различия между двумя распределениями являются критерии «максимального среднего расхождения», которые в основном измеряют разницу между эмпирическими средними значениями выборок из двух распределений в гильбертовом пространстве воспроизводящего ядра (RKHS). См. Эту статью «Метод ядра для двух примерных задач» .
источник
Я не знаю, как использовать SAS / R / Orange, но звучит так, как будто вам нужен тест хи-квадрат .
источник