Скажем, вам даны два многомерных набора данных, скажем, старый и новый, и предполагается, что они были созданы одним и тем же процессом (для которого у вас нет модели), но, возможно, где-то вдоль линии сбора / создания данные, что-то пошло не так. Вы не захотите использовать новые данные как, скажем, набор проверки для старых данных или добавить к старым данным.
Вы можете сделать несколько 1-мерных статистик (для каждой переменной), например, сумму рангов Уилкоксона, и попробовать несколько тестовых исправлений, но я не уверен, что это оптимально (чтобы уловить сложности многомерных данных, не говоря уже о проблемах с несколькими тестами). Один из способов - использовать классификатор и посмотреть, сможете ли вы различить два набора данных (с учетом оптимального классификатора, который является оптимальным). Это, кажется, работает, но все же a) perhpas есть лучший способ b) Он не предназначен для того, чтобы рассказать вам, почему он отличается (если ничего другого, то он будет использовать лучшие предикторы и, возможно, пропустить другие хорошие предикторы, которые были подобраны лучшими)
Посмотрите на Hotelling's T ^ 2, или, если у вас есть действительно большие данные, посмотрите на это: http://normaldeviate.wordpress.com/2012/07/14/modern-two-sample-tests/
источник