Читая о тесте KS с двумя образцами, я точно понимаю, что он делает, но я не понимаю, почему он работает .
Другими словами, я могу выполнить все шаги для вычисления эмпирических функций распределения, найти максимальную разницу между ними, чтобы найти D-статистику, вычислить критические значения, преобразовать D-статистику в p-значение и т. Д.
Но я понятия не имею, почему что-то из этого на самом деле говорит мне что-нибудь о двух дистрибутивах.
Кто-то мог бы так же легко сказать мне, что мне нужно перепрыгнуть через осла и посчитать, как быстро он убегает, и если скорость меньше 2 км / ч, я отвергаю нулевую гипотезу. Конечно, я могу сделать то, что вы мне сказали, но какое отношение это имеет к нулевой гипотезе?
Почему тест KS с двумя образцами работает? Как вычисление максимальной разницы между ECDF связано с тем, насколько различны эти два распределения?
Любая помощь приветствуется. Я не статистика, поэтому предположим, что я идиот, если это возможно.
Ответы:
По сути, тест является непротиворечивым как прямой результат теоремы Гливенко Кантелли, одного из наиболее важных результатов эмпирических процессов и, возможно, статистики.
Сколько? Ммееаа я не знаю. Сила теста довольно сомнительна. Я бы никогда не использовал это в реальности.
http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf
источник
У нас есть два независимых, одномерных образца:
источник
Интуитивный дубль:
Тест Колмогорова-Смирнова в значительной степени основан на упорядочении наблюдений по распределению. Логика заключается в том, что если два базовых распределения одинаковы, то - в зависимости от размеров выборки - порядок должен быть довольно хорошо перемешан между ними.
источник