Почему работает тест Колмогорова-Смирнова?

Читая о тесте KS с двумя образцами, я точно понимаю, что он делает, но я не понимаю, почему он работает .

Другими словами, я могу выполнить все шаги для вычисления эмпирических функций распределения, найти максимальную разницу между ними, чтобы найти D-статистику, вычислить критические значения, преобразовать D-статистику в p-значение и т. Д.

Но я понятия не имею, почему что-то из этого на самом деле говорит мне что-нибудь о двух дистрибутивах.

Кто-то мог бы так же легко сказать мне, что мне нужно перепрыгнуть через осла и посчитать, как быстро он убегает, и если скорость меньше 2 км / ч, я отвергаю нулевую гипотезу. Конечно, я могу сделать то, что вы мне сказали, но какое отношение это имеет к нулевой гипотезе?

Почему тест KS с двумя образцами работает? Как вычисление максимальной разницы между ECDF связано с тем, насколько различны эти два распределения?

Любая помощь приветствуется. Я не статистика, поэтому предположим, что я идиот, если это возможно.

distributions statistical-significance nonparametric kolmogorov-smirnov Darcy
источник

Добро пожаловать в резюме, Дарси! Отличный вопрос!

Алексис

Перепрыгнуть через осла ... :)

Ричард Харди

Ответы:

По сути, тест является непротиворечивым как прямой результат теоремы Гливенко Кантелли, одного из наиболее важных результатов эмпирических процессов и, возможно, статистики.

$n \rightarrow \infty$

Сколько? Ммееаа я не знаю. Сила теста довольно сомнительна. Я бы никогда не использовал это в реальности.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf

Adamo
источник

+1 Привет, АдамО! Получил одно-два предложения, чтобы взять власть, являющуюся "сомнительным?" Мне бы очень понравилась эта точка зрения (я понял, что тест считается легко "одолеть").

Алексис

F_{1}

$F_1$

F_{2}

$F_2$

p > 0.05

$p > 0.05$

p < 0.05

$p < 0.05$

F_{1} = F_{2}

$F_1 = F_2$

F_{1}

$F_{1}$

\neq F_{2}

$\ne F_{2}$

@ Алексис нет, у меня нет проблем с математикой теста. На самом деле, я думаю, что это довольно элегантно, и результат теоремы предела очень впечатляет.

AdamO

F_{1}

$F_1$

F_{2}

$F_2$

У нас есть два независимых, одномерных образца:

\begin{aligned} X_{1}, X_{2}, . . ., X_{N} & \overset{i i d}{\sim} F \\ Y_{1}, Y_{2}, . . ., Y_{M} & \overset{i i d}{\sim} G, \end{aligned}

$\begin{align} X_1,\,X_2,\,...,\,X_N&\overset{iid}{\sim}F\\ Y_1,\,Y_2,\,...,\,Y_M&\overset{iid}{\sim}G, \end{align}$

G

$G$

F

$F$

\begin{aligned} H_{0} & : F (x) = G (x) for all x \in R \\ H_{1} & : F (x) \neq G (x) for some x \in R . \end{aligned}

$\begin{align} H_0&:F(x) = G(x)\quad\text{for all } x\in\mathbb{R}\\ H_1&:F(x) \neq G(x)\quad\text{for some } x\in\mathbb{R}. \end{align}$

{X_{i}}_{i = 1}^{N}

$\{X_i\}_{i=1}^N$

{Y_{j}}_{j = 1}^{M}

$\{Y_j\}_{j=1}^M$

X_{i}

$X_i$

Y_{j}

$Y_j$

F

$F$

G

$G$

x

$x$

F

$F$

G

$G$

F (x) \neq G (x)

$F(x)\neq G(x)$

x \in R

$x\in\mathbb{R}$

JCZ
источник

Интуитивный дубль:

Тест Колмогорова-Смирнова в значительной степени основан на упорядочении наблюдений по распределению. Логика заключается в том, что если два базовых распределения одинаковы, то - в зависимости от размеров выборки - порядок должен быть довольно хорошо перемешан между ними.

$Y$ $X$ $D$

$D$ $X$ $Y$

Alexis
источник