Как проверить, отбираются ли два многомерных распределения из одной и той же популяции?

13

Скажем, вам даны два многомерных набора данных, скажем, старый и новый, и предполагается, что они были созданы одним и тем же процессом (для которого у вас нет модели), но, возможно, где-то вдоль линии сбора / создания данные, что-то пошло не так. Вы не захотите использовать новые данные как, скажем, набор проверки для старых данных или добавить к старым данным.

Вы можете сделать несколько 1-мерных статистик (для каждой переменной), например, сумму рангов Уилкоксона, и попробовать несколько тестовых исправлений, но я не уверен, что это оптимально (чтобы уловить сложности многомерных данных, не говоря уже о проблемах с несколькими тестами). Один из способов - использовать классификатор и посмотреть, сможете ли вы различить два набора данных (с учетом оптимального классификатора, который является оптимальным). Это, кажется, работает, но все же a) perhpas есть лучший способ b) Он не предназначен для того, чтобы рассказать вам, почему он отличается (если ничего другого, то он будет использовать лучшие предикторы и, возможно, пропустить другие хорошие предикторы, которые были подобраны лучшими)

Алмаз
источник

Ответы:

3
http://131.95.113.139/courses/multivariate/mantel.pdf

Обсуждаются два возможных способа сделать это, если ваши наборы данных имеют одинаковый размер. Основной подход состоит в том, чтобы вычислить метрику расстояния между вашими двумя наблюдаемыми матрицами. Затем, чтобы определить, является ли это расстояние значительным, вы используете тест перестановки .

Если ваши наборы данных не имеют одинаковый размер, вы можете использовать тест на перекрестное совпадение, хотя он не очень популярен. Вместо теста на перекрестное совпадение вы можете попробовать увеличить или уменьшить выборку ваших данных, чтобы они имели одинаковый размер, а затем использовать один из подходов, упомянутых в первой статье.

Амит Дешвар
источник
Вы упоминаете, если у нас есть наборы данных неравномерного размера, используйте тест на перекрестное совпадение. Однако, следуя упомянутой вами статье, они используют одинаковые равные наборы данных и ищут пары на основе расстояний. Нашли ли вы какие-либо доказательства использования этого? даже в примечаниях к выпуску для перекрестного соответствия в примере используются равные наборы данных
lukeg