Что такое CDF из двух выборок из и из одностороннего теста Колмогорова-Смирнова?

9

Я пытаюсь понять, как получить p для одностороннего теста Колмогорова-Смирнова , и пытаюсь найти CDF для Dn1,n2+ и Dn1,n2 в случае двух выборок. Ниже приводится в нескольких местах как CDF для Dn+ в случае с одним примером:

pn+(x)=P(Dn+x|H0)=xj=0n(1x)(nj)(jn+x)j1(1xjn)nj

Кроме того, в силу того, что существует несколько иная формулировка этого CDF с одним образцом (я заменяю x на t в его цитате для соответствия моей записи здесь):

Используя интегральное преобразование вероятности, Дональд Кнут выводит их (общее) распределение на p. 57 и упражнение 17 из TAoCP Том 2. Я цитирую:

(DN+ИксN)знак равноИксNNΣсКИкс(NК)(К-Икс)К(Икс+N-К)N-К-1

Это применимо к односторонним гипотезам в случае одной выборки, например: H 0F(Икс)-F00 , где F(Икс) - эмпирический CDF из Икс , и F0 является некоторым CDF.

Я думаю, что Икс в этом случае является значением DN+ в выборке, и что N(1-Икс) является наибольшим целым числом в N-NИкс . (Это правильно?)

Но что такое CDF для (или ), когда у одного есть два образца? Например, когда H для эмпирических CDF и ? Как получить ? D - n 1 , n 2 0F A ( x ) - F B ( x ) 0 A B p + n 1 , n 2DN1,N2+DN1,N2-0FA(Икс)-FВ(Икс)0AВпN1,N2+

Alexis
источник
1
Точно так же, как указатель для любого, кто ищет ответы на этот вопрос, мой ответ на предыдущий вопрос Алексис (который связан с вышеупомянутым вопросом) содержит ссылки на несколько ссылок с некоторым обсуждением истории, каждая из которых имеет ряд соответствующих ссылок. Вы можете проверить эти документы и список литературы.
Glen_b
@Glen_b Спасибо! Я действительно ценю ваш превосходный ответ на другой мой вопрос и следовал за цитируемыми ресурсами, но я не получил там CDF для , и вместо того, чтобы искать комментарии, я думал, что просто открою новый запрос , Дополнительные ссылки приветствуются, если вы знаете, что будет работать для этого. D+
Алексис
Алексис: никакая критика не была предназначена моим комментарием; Ваш выбор, чтобы открыть новый вопрос, был абсолютно правильным (по моему мнению). Я просто хотел сэкономить людям немного труда в отслеживании некоторых релевантных ссылок - я подумал, что не обязательно всем придет в голову перейти по вашей ссылке на другой вопрос, и это может не случиться с людьми, которые сделали эти ссылки в моем Ответ имел некоторые ссылки, о которых они могли бы знать.
Glen_b

Ответы:

6

Хорошо, я собираюсь нанести удар в этом. Критические идеи приветствуются.

На странице 192 Gibbons and Chakraborti (1992), ссылаясь на Ходжеса, 1958, начнем с CDF с малой выборкой (точной?) Для двустороннего теста (я поменяю местами их нотации и для и соответственно):д н 1 , н 2 хм,NdN1,N2Икс

P(Dn1,n2x)=1P(Dn1,n2x)=1A(n1,n2)(n1+n2n1)

Где создается путем перечисления путей (монотонно возрастающих в и ) от начала координат до точки через граф с заменой на - значения x- осей и y -осей равны и . Кроме того, пути должны подчиняться ограничению нахождения внутри границ (где - значение статистики теста Колмогорова-Смирнова): n 1 n 2 ( n 1 , n 2 ) S m ( x ) F n 1 ( x ) n 1 FA(N1,N2)N1N2(N1,N2)Sм(Икс)FN1(Икс)n 2 F 2 ( x ) xN1F1(Икс)N2F2(Икс)Икс

N2N1±(N1+N2)Икс(N1+N2N1)

Ниже на их рисунке Рисунок 3.2 представлен пример для с 12 такими путями:A(3,4)

Рисунок 3.2 со страницы 193 Гиббонс и Чакраборти (1992) Непараметрический статистический вывод.

Далее Гиббонс и Чакаборти говорят, что одностороннее значение получается с использованием того же графического метода, но только с нижней границей для и только верхний для .D + n 1 , n 2пDN1,N2+DN1,N2-

Эти небольшие выборочные подходы влекут за собой алгоритмы перечисления путей и / или рекуррентные соотношения, которые, несомненно, делают асимптотические вычисления желательными. Гиббонс и Чакраборти также отмечают ограничивающие CDF как и приближающиеся к бесконечности, из :N1 D n 1 , n 2N2DN1,N2

ИтN1,N2п(N1N2N1+N2DN1,N2Икс)знак равно1-2Σязнак равно1(-1)я-1е-2я2Икс2

И они дают ограничительный CDF (или ) как:DN1,N2+DN1,N2-

ИтN1,N2п(N1N2N1+N2DN1,N2+Икс)знак равно1-е-2Икс2

Поскольку и строго неотрицательны, CDF может принимать ненулевые значения только в течение :D+D-[0,)

CDF $ D ^ {+} $ (или $ D ^ {-} $)


Ссылки
Gibbons, JD и Chakraborti, S. (1992). Непараметрический статистический вывод . Marcel Decker, Inc., 3-е издание, переработанное и расширенное издание.

Ходжес, JL (1958). Вероятность значимости критерия Смирнова с двумя образцами. Arkiv for the matematik . 3 (5): 469--486.

Alexis
источник
1
Фактический cdf существует везде, но для cdf будет нулевым; указанная вами функциональная форма применима только для (это поддается простым рассуждениям; что такое ?(-,0)Икс0п(D+<0)
Glen_b -Восстановить Монику