Можно ли использовать Колмогорова-Смирнова для сравнения двух эмпирических распределений?

16

Можно ли использовать критерий пригодности по Колмогорову-Смирнову для сравнения двух эмпирических распределений с целью определения того, что они, по-видимому, получены из одного и того же базового распределения, а не для сравнения одного эмпирического распределения с предварительно заданным эталонным распределением?

Позвольте мне попробовать спросить это по-другому. Я собираю N образцов из какого-то распределения в одном месте. Я собираю М образцов в другом месте. Данные являются непрерывными (например, каждая выборка представляет собой действительное число от 0 до 10), но обычно не распределяются. Я хочу проверить, все ли эти выборки N + M происходят из одного и того же базового распределения. Разумно ли для этой цели использовать критерий Колмогорова-Смирнова?

F0NF1MF0F1D=supx|F0(x)F1(x)|D

(Я читал в другом месте, что критерий Колмогорова-Смирнова на соответствие пригодности не подходит для дискретных распределений , но я признаю, что не понимаю, что это значит или почему это может быть правдой. Означает ли это, что мой предложенный подход плохой? )

Или вы рекомендуете что-то еще вместо этого?

DW
источник
Интересно, не следует ли, основываясь на комментариях @ Glen_b здесь ( stats.stackexchange.com/questions/362/… ), не использовать тест KS для сравнения эмпирических распределений, потому что тест KS не следует использовать при оценке параметров (? ).
Расселпирс

Ответы:

19

Это нормально и вполне разумно. Он называется тестом Колмогорова-Смирнова с двумя образцами . Измерение разницы между двумя функциями распределения с помощью супнормы всегда целесообразно, но для проведения формального теста вы хотите знать распределение под гипотезой о том, что две выборки независимы и каждая из них имеет одно и то же базовое распределение. Чтобы полагаться на обычную асимптотическую теорию, вам потребуется непрерывность основного общего распределения (а не эмпирических распределений). См. Страницу Wikipedia, на которую ссылаются выше, для более подробной информации.

В R вы можете использовать ks.test, который вычисляет точные для небольших размеров выборки. p

NRH
источник
8
В R вы также можете выполнить загрузочный тест KS sekhon.berkeley.edu/matching/ks.boot.html, который избавляет от требования преемственности
Dr G
5
больше информации, если вы используете Matlab
Артем Казнатчеев