Можно ли использовать критерий пригодности по Колмогорову-Смирнову для сравнения двух эмпирических распределений с целью определения того, что они, по-видимому, получены из одного и того же базового распределения, а не для сравнения одного эмпирического распределения с предварительно заданным эталонным распределением?
Позвольте мне попробовать спросить это по-другому. Я собираю N образцов из какого-то распределения в одном месте. Я собираю М образцов в другом месте. Данные являются непрерывными (например, каждая выборка представляет собой действительное число от 0 до 10), но обычно не распределяются. Я хочу проверить, все ли эти выборки N + M происходят из одного и того же базового распределения. Разумно ли для этой цели использовать критерий Колмогорова-Смирнова?
(Я читал в другом месте, что критерий Колмогорова-Смирнова на соответствие пригодности не подходит для дискретных распределений , но я признаю, что не понимаю, что это значит или почему это может быть правдой. Означает ли это, что мой предложенный подход плохой? )
Или вы рекомендуете что-то еще вместо этого?
Ответы:
Это нормально и вполне разумно. Он называется тестом Колмогорова-Смирнова с двумя образцами . Измерение разницы между двумя функциями распределения с помощью супнормы всегда целесообразно, но для проведения формального теста вы хотите знать распределение под гипотезой о том, что две выборки независимы и каждая из них имеет одно и то же базовое распределение. Чтобы полагаться на обычную асимптотическую теорию, вам потребуется непрерывность основного общего распределения (а не эмпирических распределений). См. Страницу Wikipedia, на которую ссылаются выше, для более подробной информации.
В R вы можете использоватьp
ks.test
, который вычисляет точные для небольших размеров выборки.источник