Справедлив ли критерий Колмогорова-Смирнова с дискретными распределениями?

29

Я сравниваю пример и проверяю, распространяется ли он как какой-то дискретный дистрибутив. Однако я не уверен, что Колмогоров-Смирнов подает заявку. Википедия, кажется, подразумевает, что это не так. Если это не так, как я могу проверить распределение образца?

Вильгельм
источник
+1 Прекрасный пример ошибочного применения теста KS к данным с (многими) связями приведен на странице справки для дополнения статистики Excel по адресу real-statistics.com/non-parametric-tests/goodness-of-fit- Тесты / ... . Результат неверен по многим причинам. Будьте лектором!
whuber
Доступны KS-тесты для дискретных нулевых распределений: en.wikipedia.org/wiki/…
Astrid

Ответы:

14

Это не относится к дискретным распределениям. См. Http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm, например.

Есть ли причина, по которой вы не можете использовать критерий пригодности хи-квадрат? см. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm для получения дополнительной информации.

PeterR
источник
Извините за вторжение, но я не очень понимаю, почему это применимо только к непрерывному распространению (KS и другие проверочные тесты). Может кто-нибудь объяснить мне этот факт?
Маурицио
6
@Maurizio - статистика теста KS имеет одинаковое распределение при всех непрерывных распределениях, но если фактическое распределение не является непрерывным, и кто-то пытается построить тест уровня предполагая, что распределение является непрерывным, то фактический уровень теста с быть меньше, чем α . (См. Lehmann & Romano Testing Статистические гипотезы, третье издание , стр. 584). Вы все еще можете сделать тест уровня α на основе статистики KS, но вам нужно будет найти какой-то другой метод, чтобы получить критическое значение, например, путем моделирования. ααα
DavidR
Существует дискретный KS-тест: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Астрид,
7

Как это часто бывает в статистике, это зависит от того, что вы имеете в виду .

  1. Если вы имеете в виду «Я вычисляю свою статистику теста на выборке, взятой из дискретного распределения, а затем просматриваю стандартные таблицы», тогда вы получите истинный уровень ошибок типа I ниже, чем тот, который вы выбрали (возможно, намного ниже).

    Сколько зависит от того, насколько дискретным является распределение. Если вероятность какого-либо одного результата довольно низкая (поэтому ожидается, что доля связанных значений в данных будет низкой), это не будет иметь большого значения - у многих людей не будет проблем с запуском % тест на 4,5% говорят. Так, например, если вы тестируете дискретную униформу на [11000], вам, вероятно, не стоит беспокоиться.

    Но если есть большая вероятность того, что значение будет связано, то можно заметить влияние на уровень ошибок типа I. Если вы получаете уровень значимости 0,005, когда вы хотели 0,05, это может быть проблемой, так как это соответственно повлияет на силу.

  2. Если вместо этого вы имеете в виду «я вычисляю свою статистику теста на выборке, взятой из дискретного распределения, а затем использую подходящее критическое значение / вычисляю подходящее p-значение для моей ситуации» (например, с помощью теста перестановки), тогда тест это , безусловно , действует в том смысле , что вы получите правильный I частоту ошибок типа - до дискретности самой тестовой статистики, конечно. (Хотя для вашей конкретной цели вполне могут быть более качественные тесты, как это обычно бывает в непрерывном случае.)

    Обратите внимание, что распределение самой тестовой статистики больше не распространяется, но тест перестановок позволяет избежать этой проблемы.

Поэтому иногда можно использовать стандартные таблицы даже с дискретными распределениями, и даже когда это не очень хорошо, это не столько статистика теста, сколько критические значения / p-значения, которые вы используете с ним, вот в чем проблема.

Glen_b - Восстановить Монику
источник
Как обычно Глен, ваш ответ качественный. Но, пожалуй, самое приятное в этом то, что вы на самом деле повторили шутку, которую я сделал в этом посте о статистике, говорящей «это зависит»! stats.stackexchange.com/questions/182442/…
Sycorax сообщает о восстановлении Monica
1
@ user777 это было не случайно; это позабавило меня, и я думал, читая этот вопрос "ну, это зависит" ... поэтому я постарался сказать это явно, чтобы повторить ваш пост.
Glen_b
1
Мой вечер стал лучше. Ура!
Sycorax говорит восстановить Monica
2

XFF(X)XXF(X)=X

Ф РА
источник