Допустим, у меня есть две или более выборочных совокупностей n-мерных непрерывнозначных векторов. Есть ли непараметрический способ проверить, относятся ли эти образцы к одному и тому же распределению? Если это так, есть ли функция в R или Python для этого?
15
Ответы:
Я просто много исследовал многовариантные тесты, когда понял, что критерий Колмогорова-Смирнова не является многовариантным. Итак, я посмотрел на критерий Чи, критерий Хотеллинга T ^ 2, критерий Андерсона-Дарлинга, Крамера-фон Мизеса, Шапиро-Уилка и т. Д. Вы должны быть осторожны, поскольку некоторые из этих тестов основаны на сравниваемых векторах с одинаковыми длина. Другие используются только для отклонения предположения о нормальности, а не для сравнения двух выборочных распределений.
Похоже, что ведущее решение сравнивает кумулятивные функции распределения двух выборок со всеми возможными упорядочениями, которые, как вы можете подозревать, требуют значительных вычислительных ресурсов, порядка минут для одного прогона выборки, содержащей несколько тысяч записей:
https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf
Как говорится в документации Сяо, тест Фазано и Франческини является вариантом теста Павлина:
http://adsabs.harvard.edu/abs/1987MNRAS.225..155F
Тест Fasano и Franceschini был специально предназначен для менее интенсивного вычисления, но я не нашел реализацию их работы в R.
Для тех из вас, кто хочет исследовать вычислительные аспекты теста Пикока против Фазано и Франческини, ознакомьтесь с вычислительно эффективными алгоритмами для двумерного теста Колмогорова – Смирнова.
источник
R пакет np (непараметрический) имеет тест на равенство плотностей непрерывных и категориальных данных с использованием интегрированного квадрата плотности. Ли, Маасуми и Расин (2009)
А также np условный pdf в разделе 6 .
источник
Да, существуют непараметрические способы проверки, если два многомерных образца взяты из одного и того же совместного распределения. Я упомяну детали, за исключением тех, которые упоминал Л. Фишман . Основная проблему , которую вы просите можно назвать как «двухвыборочной-задачу» и хорошее количество исследований происходит в настоящее время в журналах , как Журнал Machine Learning исследования и анналы статистики и других. Обладая небольшим знанием этой проблемы, я могу дать следующие указания
Если вас интересует сравнение различных наборов точек (наборов образцов) с набором опорных точек, чтобы увидеть, насколько близко они аппроксимируют набор опорных точек, вы можете использовать f-расхождение .
Также могут быть другие способы подойти, этот ответ никоим образом не является комплексным подходом к вашему вопросу;)
источник