У меня размер выборки 6. В таком случае имеет ли смысл проверять нормальность с помощью теста Колмогорова-Смирнова? Я использовал SPSS. У меня очень маленький размер выборки, потому что для получения каждого требуется время. Если это не имеет смысла, сколько образцов является наименьшим числом, которое имеет смысл тестировать?
Примечание: я провел некоторый эксперимент, связанный с исходным кодом. Выборка - это время, потраченное на кодирование в версии программного обеспечения (версия A). На самом деле, у меня есть другой размер выборки, равный 6, то есть время, потраченное на кодирование в другой версии программного обеспечения (версия B).
Я хотел бы провести проверку гипотез с использованием t-теста с одним образцом, чтобы проверить, отличается ли время, проведенное в версии кода A, от времени, потраченного в версии кода B (это мой H1). Предварительным условием t-критерия с одним образцом является то, что данные для тестирования должны быть нормально распределены. Вот почему мне нужно проверить на нормальность.
Ответы:
Да.
Все проверки гипотез имеют два существенных свойства : их размер (или «уровень значимости»), число, которое напрямую связано с достоверностью и ожидаемыми ошибочными положительными показателями, и их мощность, которая выражает вероятность ложных отрицательных результатов. Когда размеры выборки невелики и вы продолжаете настаивать на небольшом размере (высокая достоверность), мощность ухудшается. Это означает, что тесты малых выборок обычно не могут обнаружить небольшие или умеренные различия. Но они все еще значимы .
Тест KS оценивает, поступил ли образец из нормального распределения. Выборка из шести значений должна выглядеть очень ненормально, чтобы не пройти этот тест. Но если это произойдет, вы можете интерпретировать это отклонение нуля точно так же, как если бы вы интерпретировали его для более высоких размеров выборки. С другой стороны, если тест не позволяет отклонить нулевую гипотезу, это говорит о многом из-за высокого уровня ложных отрицательных результатов. В частности, было бы относительно рискованно действовать так, как если бы базовый дистрибутив был Normal.
Здесь следует обратить внимание еще на одну вещь: некоторые программы используют аппроксимации для вычисления p-значений из статистики теста. Часто эти приближения хорошо работают для больших размеров выборки, но плохо работают для очень малых размеров выборки. В этом случае вы не можете доверять, что значение p было правильно вычислено, что означает, что вы не можете быть уверены, что желаемый размер теста был достигнут. За подробностями обращайтесь к документации по вашему программному обеспечению.
Несколько советов: тест KS существенно менее эффективен для проверки нормальности, чем другие тесты, специально предназначенные для этой цели. Лучшим из них, вероятно, является тест Шапиро-Уилка , но другие широко используемые и почти такие же мощные, как Шапиро-Франсия и Андерсон-Дарлинг .
На этом графике показано распределение тестовой статистики Колмогорова-Смирнова в 10 000 выборок из шести нормально распределенных вариаций:
Исходя из 100 000 дополнительных выборок, верхний 95-й процентиль (который оценивает критическое значение для этой статистики для теста размера ) составляет 0,520. Примером образца, который проходит этот тест, является набор данныхα=5%
Статистика теста составляет 0,5 (что меньше критического значения). Такой образец будет отбракован с использованием других тестов нормальности.
источник
set.seed(140);x=rnorm(6);ks.test(x,pnorm)
производитp-value = 0.0003255
. Конечно, я должен был попробовать это с 140 семенами, прежде чем я нашел это ...Как спросил @whuber в комментариях, проверка моего категорического НЕТ. редактировать: с помощью теста Шапиро, поскольку тест ks для одной выборки фактически используется неправильно. Что правильно: для правильного использования теста Колмогорова-Смирнова вы должны указать параметры распределения, а не извлекать их из данных. Это, однако, то, что делается в статистических пакетах, таких как SPSS для KS-теста с одной выборкой.
Вы пытаетесь что-то сказать о распределении, и вы хотите проверить, можете ли вы применить t-тест. Таким образом, этот тест проводится для подтверждения того, что данные не отклоняются от нормальности достаточно значительно, чтобы сделать основополагающие предположения анализа недействительными. Следовательно, Вас интересует не ошибка типа I, а ошибка типа II.
Теперь нужно определить «значительно отличающиеся», чтобы можно было рассчитать минимальное n для приемлемой мощности (скажем, 0,8). С дистрибутивами это не так просто определить. Следовательно, я не ответил на вопрос, так как не могу дать разумного ответа, кроме того, какое эмпирическое правило я использую: n> 15 и n <50. На основании чего? Чувство в целом, поэтому я не могу защитить этот выбор, кроме опыта.
Но я знаю, что только с 6 значениями ваша ошибка типа II должна быть почти 1, что делает вашу мощность близкой к 0. С 6 наблюдениями тест Шапиро не может различить нормальное, пуассоновское, равномерное или даже экспоненциальное распределение. С ошибкой типа II, равной почти 1, ваш результат теста не имеет смысла.
Чтобы проиллюстрировать тестирование нормальности с помощью теста Шапиро:
Единственное, где около половины значений меньше 0,05, это последнее. Что также является самым крайним случаем.
Если вы хотите узнать, какой минимальный n дает вам мощность, которую вы любите, с помощью теста Шапиро, вы можете выполнить симуляцию, подобную этой:
который дает вам анализ мощности, как это:
из чего я заключаю, что вам нужно примерно минимум 20 значений, чтобы отличить экспоненту от нормального распределения в 80% случаев.
кодовый график:
источник
Возникающий здесь вопрос имеет некоторое неправильное представление о том, почему проверка нормальности требуется для выборки размером 6. Здесь основная цель состоит в том, чтобы «проверить, отличается ли время, проведенное в версии кода A, от времени, потраченного в версии кода B ( Это мой H1) ». Когда используется слово «отличается», это один тест на хвост? Однако тестирование нормальности - это второй шаг. Первым шагом является проверка адекватности заданной (1-β) мощности теста для данного размера выборки, когда мощность очень плохая, тогда какой смысл в тестировании нормального состояния? Проверка состояния нормальности поможет нам решить, пройти ли параметрический или непараметрический тест ?. Если ваш размер выборки не имеет достаточной мощности, зачем думать о тестировании нормальности?
источник