Я сравниваю пример и проверяю, распространяется ли он как какой-то дискретный дистрибутив. Однако я не уверен, что Колмогоров-Смирнов подает заявку. Википедия, кажется, подразумевает, что это не так. Если это не так, как я могу проверить распределение образца?
29
Ответы:
Это не относится к дискретным распределениям. См. Http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm, например.
Есть ли причина, по которой вы не можете использовать критерий пригодности хи-квадрат? см. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm для получения дополнительной информации.
источник
Как это часто бывает в статистике, это зависит от того, что вы имеете в виду .
Если вы имеете в виду «Я вычисляю свою статистику теста на выборке, взятой из дискретного распределения, а затем просматриваю стандартные таблицы», тогда вы получите истинный уровень ошибок типа I ниже, чем тот, который вы выбрали (возможно, намного ниже).
Сколько зависит от того, насколько дискретным является распределение. Если вероятность какого-либо одного результата довольно низкая (поэтому ожидается, что доля связанных значений в данных будет низкой), это не будет иметь большого значения - у многих людей не будет проблем с запуском % тест на 4,5% говорят. Так, например, если вы тестируете дискретную униформу на [11000], вам, вероятно, не стоит беспокоиться.
Но если есть большая вероятность того, что значение будет связано, то можно заметить влияние на уровень ошибок типа I. Если вы получаете уровень значимости 0,005, когда вы хотели 0,05, это может быть проблемой, так как это соответственно повлияет на силу.
Если вместо этого вы имеете в виду «я вычисляю свою статистику теста на выборке, взятой из дискретного распределения, а затем использую подходящее критическое значение / вычисляю подходящее p-значение для моей ситуации» (например, с помощью теста перестановки), тогда тест это , безусловно , действует в том смысле , что вы получите правильный I частоту ошибок типа - до дискретности самой тестовой статистики, конечно. (Хотя для вашей конкретной цели вполне могут быть более качественные тесты, как это обычно бывает в непрерывном случае.)
Обратите внимание, что распределение самой тестовой статистики больше не распространяется, но тест перестановок позволяет избежать этой проблемы.
Поэтому иногда можно использовать стандартные таблицы даже с дискретными распределениями, и даже когда это не очень хорошо, это не столько статистика теста, сколько критические значения / p-значения, которые вы используете с ним, вот в чем проблема.
источник
источник