Можно ли использовать Колмогорова-Смирнова для сравнения двух эмпирических распределений?

Можно ли использовать критерий пригодности по Колмогорову-Смирнову для сравнения двух эмпирических распределений с целью определения того, что они, по-видимому, получены из одного и того же базового распределения, а не для сравнения одного эмпирического распределения с предварительно заданным эталонным распределением?

Позвольте мне попробовать спросить это по-другому. Я собираю N образцов из какого-то распределения в одном месте. Я собираю М образцов в другом месте. Данные являются непрерывными (например, каждая выборка представляет собой действительное число от 0 до 10), но обычно не распределяются. Я хочу проверить, все ли эти выборки N + M происходят из одного и того же базового распределения. Разумно ли для этой цели использовать критерий Колмогорова-Смирнова?

$F_0$ $N$ $F_1$ $M$ $F_0$ $F_1$ $D = \sup_x |F_0(x) - F_1(x)|$ $D$

(Я читал в другом месте, что критерий Колмогорова-Смирнова на соответствие пригодности не подходит для дискретных распределений , но я признаю, что не понимаю, что это значит или почему это может быть правдой. Означает ли это, что мой предложенный подход плохой? )

Или вы рекомендуете что-то еще вместо этого?

Интересно, не следует ли, основываясь на комментариях @ Glen_b здесь ( stats.stackexchange.com/questions/362/… ), не использовать тест KS для сравнения эмпирических распределений, потому что тест KS не следует использовать при оценке параметров (? ).

Расселпирс

Ответы:

Это нормально и вполне разумно. Он называется тестом Колмогорова-Смирнова с двумя образцами . Измерение разницы между двумя функциями распределения с помощью супнормы всегда целесообразно, но для проведения формального теста вы хотите знать распределение под гипотезой о том, что две выборки независимы и каждая из них имеет одно и то же базовое распределение. Чтобы полагаться на обычную асимптотическую теорию, вам потребуется непрерывность основного общего распределения (а не эмпирических распределений). См. Страницу Wikipedia, на которую ссылаются выше, для более подробной информации.

В R вы можете использовать ks.test, который вычисляет точные для небольших размеров выборки. $p$

NRH
источник

В R вы также можете выполнить загрузочный тест KS sekhon.berkeley.edu/matching/ks.boot.html, который избавляет от требования преемственности

Dr G

больше информации, если вы используете Matlab

Артем Казнатчеев