Проверьте, совпадают ли многомерные распределения

15

Допустим, у меня есть две или более выборочных совокупностей n-мерных непрерывнозначных векторов. Есть ли непараметрический способ проверить, относятся ли эти образцы к одному и тому же распределению? Если это так, есть ли функция в R или Python для этого?

MBC
источник
2
Тест Колмогорова-Смирнова является типичным непараметрическим инструментом для проверки, являются ли два распределения одинаковыми. Я не знаком с этим, но Википедия относится к Justel, A., Peña, D. и Zamar, R. (1997). Многомерный тест Колмогорова-Смирнова на соответствие, Статистика и Вероятность Письма, 35 (3), 251-259 . для многомерного расширения этого теста.
Макрос
1
Существует вопрос CV, который решает эту проблему в двух измерениях: stats.stackexchange.com/questions/25946/… . Даже в двух измерениях не существует стандартного способа сделать это.
Камбала

Ответы:

8

Я просто много исследовал многовариантные тесты, когда понял, что критерий Колмогорова-Смирнова не является многовариантным. Итак, я посмотрел на критерий Чи, критерий Хотеллинга T ^ 2, критерий Андерсона-Дарлинга, Крамера-фон Мизеса, Шапиро-Уилка и т. Д. Вы должны быть осторожны, поскольку некоторые из этих тестов основаны на сравниваемых векторах с одинаковыми длина. Другие используются только для отклонения предположения о нормальности, а не для сравнения двух выборочных распределений.

Похоже, что ведущее решение сравнивает кумулятивные функции распределения двух выборок со всеми возможными упорядочениями, которые, как вы можете подозревать, требуют значительных вычислительных ресурсов, порядка минут для одного прогона выборки, содержащей несколько тысяч записей:

https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf

Как говорится в документации Сяо, тест Фазано и Франческини является вариантом теста Павлина:

http://adsabs.harvard.edu/abs/1987MNRAS.225..155F

Тест Fasano и Franceschini был специально предназначен для менее интенсивного вычисления, но я не нашел реализацию их работы в R.

Для тех из вас, кто хочет исследовать вычислительные аспекты теста Пикока против Фазано и Франческини, ознакомьтесь с вычислительно эффективными алгоритмами для двумерного теста Колмогорова – Смирнова.

Л Фишман
источник
Что такое кумулятивное распределение для многовариантных?
Аксакал
2
F(Икс,Y)знак равноп(Икс<Икс,Y<Y)пF(Икс,Y)знак равноΣязнак равно1Nя(Икся<Икс,Yя<Y)/N
2
Красиво и лаконично, АдамО. Испытание Павлина кажется совершенно глупым, если не делать обрезку, как это делают Фазано и Франческини. Будем надеяться, что кто-то решит однажды кодировать его для R. Это особенно полезно для скорости, когда у вас есть записи, дополнительно разложенные, возможно, по категориальной переменной, и вы хотите посмотреть, действительно ли ваши декомпозиции взяты из разных распределений.
Л. Фишман
1

Да, существуют непараметрические способы проверки, если два многомерных образца взяты из одного и того же совместного распределения. Я упомяну детали, за исключением тех, которые упоминал Л. Фишман . Основная проблему , которую вы просите можно назвать как «двухвыборочной-задачу» и хорошее количество исследований происходит в настоящее время в журналах , как Журнал Machine Learning исследования и анналы статистики и других. Обладая небольшим знанием этой проблемы, я могу дать следующие указания

  • Одним из недавних способов тестирования многомерных выборочных наборов является метод максимального среднего расхождения (MMD); связанная литература: Артур Греттон 2012 , Бхарат 2010 и другие. Другие связанные методы могут быть найдены в этих научных статьях. Если вам интересно, просмотрите статьи со ссылкой на эти статьи, чтобы получить общее представление о состоянии этой проблемы. И ДА, для этого есть R реализации.

Если вас интересует сравнение различных наборов точек (наборов образцов) с набором опорных точек, чтобы увидеть, насколько близко они аппроксимируют набор опорных точек, вы можете использовать f-расхождение .

  • Одним популярным частным случаем этого является расхождение Кульбака-Лейблера . Это используется во многих режимах машинного обучения. Это снова может быть сделано двумя способами np; через подход окна (ядра) Parzen и оценки PDF K-Nearest Neighbor.

Также могут быть другие способы подойти, этот ответ никоим образом не является комплексным подходом к вашему вопросу;)

Кришна
источник