Если мой результат одностороннего t-теста значителен, но размер выборки невелик (например, ниже 20 или около того), могу ли я доверять этому результату? Если нет, как я должен иметь дело и / или интерпретировать этот результат?
17
Если мой результат одностороннего t-теста значителен, но размер выборки невелик (например, ниже 20 или около того), могу ли я доверять этому результату? Если нет, как я должен иметь дело и / или интерпретировать этот результат?
Ответы:
Теоретически, если все предположения t-критерия верны, тогда нет проблем с небольшим размером выборки.
На практике существуют некоторые не совсем верные допущения, с которыми мы можем справиться при больших объемах выборки, но они могут вызвать проблемы при малых объемах выборки. Знаете ли вы, распространяется ли основной дистрибутив нормально? Все образцы независимы и одинаково распределены?
Если вы сомневаетесь в правильности теста, то альтернативой, которую вы можете использовать, является начальная загрузка. Начальная загрузка включает в себя повторную выборку из вашей выборки, чтобы увидеть, как часто нулевая гипотеза является истинной или ложной. Возможно, ваша нулевая гипотеза а ваше значение p равно 0,05, но самонастройка показывает, что среднее значение выборки составляет менее нуля в 10% случаев. Это указывает на то, что случайность привела к значению p, равному 0,05, и вы должны быть менее уверены, что нулевая гипотеза неверна.μ<0
источник
Вы редко должны доверять каким-либо значимым результатам. Вы не сказали, почему вы использовали односторонний, а не двусторонний тест, так что, надеюсь, у вас есть для этого веские причины, кроме борьбы за то, чтобы претендовать на статистически значимый результат!
Оставляя это в стороне, рассмотрим следующее с. 261 от Sauro, J. & Lewis, JR (2016). Количественная оценка пользовательского опыта: практическая статистика для исследования пользователей, 2-е изд. Кембридж, Массачусетс: Morgan-Kaufmann.
Как Рональд Фишер рекомендовал использовать p-значения
Когда Карл Пирсон был великим стариком статистики, а Рональд Фишер был относительным новичком, Пирсон, которому, очевидно, угрожали идеи и математические способности Фишера, использовал свое влияние, чтобы не дать Фишеру публиковаться в главных статистических журналах того времени, «Биометрике» и «Журнале». Королевского статистического общества. Следовательно, Фишер опубликовал свои идеи в различных других местах, таких как сельскохозяйственные и метеорологические журналы, в том числе несколько статей для Трудов Общества психических исследований. Именно в одной из статей для этого последнего журнала он упомянул соглашение об установлении того, что мы сейчас называем приемлемой ошибкой типа I (альфа), равным 0,05, и, что очень важно, также упомянул важность воспроизводимости при обнаружении неожиданного значимого результата:
Ссылка
Фишер, Р. А. (1929). Статистический метод в психическом исследовании. Труды Общества психических исследований, 39, 189-192.
источник
Представьте, что вы находитесь в ситуации, когда вы проводите много подобных тестов, в ряде обстоятельств, когда некоторая часть нулей соответствует действительности.
Какая доля ваших отклонений будет «правильной»?
Поэтому, когда размер вашей выборки невелик (и, следовательно, мощность мала), если разумная доля наших нулей была истинной, мы часто совершали ошибку, когда отклоняли.
Ситуация не намного лучше, если почти все наши нули являются строго ложными - в то время как большинство наших отклонений будут правильными (тривиально, поскольку крошечные эффекты все еще строго ложны), если сила не высока, значительная часть этих отклонения будут «в неправильном направлении» - мы придем к выводу, что нулевое значение довольно часто ложно, потому что случайно образец оказался не на той стороне (это может быть один аргумент для использования односторонних тестов - когда односторонние тесты делают смысл - по крайней мере избегать отклонений, которые не имеют смысла, если трудно получить большие объемы выборки).
Мы можем видеть, что небольшие размеры выборки, безусловно, могут быть проблемой.
[Эта доля неправильных отклонений называется уровнем ложных открытий ]
Если у вас есть представление о вероятном размере эффекта, вы сможете лучше определить, какой размер выборки может быть адекватным. При больших ожидаемых эффектах отклонение с небольшим размером выборки не обязательно будет основной проблемой.
источник
Некоторые из оригинальных работ Госсета (он же Студент), для которых он разработал t-тест, включали образцы дрожжей n = 4 и 5. Этот тест был специально разработан для очень маленьких образцов. В противном случае нормальное приближение было бы хорошо. Тем не менее, Госсет проводил очень осторожные, контролируемые эксперименты с данными, которые он очень хорошо понимал. Количество вещей, которые должен испытать пивоваренный завод, ограничено, и Госсет провел свою трудовую жизнь в Гиннессе. Он знал свои данные.
Я немного подозреваю, что вы делаете акцент на одностороннем тестировании. Логика тестирования одна и та же, независимо от гипотезы, но я видел, как люди проходили значительный односторонний тест, когда двусторонний был несущественным.
Это то, что подразумевает (верхний) односторонний тест. Вы проверяете, что среднее значение равно 0. Вы делаете математику и готовы отказаться, когда T> 2,5. Вы запускаете свой эксперимент и наблюдаете, что T = -50 000. Вы говорите «фххххт», и жизнь продолжается. Если для статистики теста физически невозможно опуститься намного ниже предполагаемого значения параметра, и если вы никогда не примете никакого решения, если статистика теста пойдет в противоположном направлении, чем вы ожидаете, вы должны использовать двусторонний тест.
источник
Главное, о чем вам нужно беспокоиться, это сила вашего теста. В частности, вы можете захотеть провести анализ мощности после анализа, чтобы определить, насколько вероятно, учитывая размер выборки, определить истинно значимый эффект разумного размера. Если типичные эффекты очень велики, n из 8 может быть полностью адекватным (как во многих экспериментах по молекулярной биологии). Если эффекты, которые вас интересуют, как правило, едва различимы (как во многих экспериментах по социальной психологии), то n тысяч людей все еще могут быть недовольны.
Это важно, потому что слабые тесты могут дать очень вводящие в заблуждение результаты. Например, если ваш тест недостаточно силен, даже если вы найдете значительный результат, у вас есть относительно высокая вероятность того, что Эндрю Гельман называет ошибкой «Типа S», т. Е. Существует реальный эффект, но в противоположном направлении, или ошибка типа M, т. е. существует реальный эффект, но истинная величина намного слабее, чем то, что оценивается по данным.
Гельман и Карлин написали полезную статью о проведении специального анализа мощности, который, я думаю, применим в вашем случае. Важно отметить, что они рекомендуют использовать независимые данные (т. Е. Не проверенные вами данные, а обзоры, моделирование, результаты аналогичных экспериментов и т. Д.) Для оценки вероятного истинного размера эффекта. Выполнив анализ мощности с использованием этого правдоподобного оцененного истинного размера эффекта и сравнив его с результатами, вы можете определить вероятность ошибки типа S и типичного «коэффициента преувеличения», и, таким образом, получить лучшее представление о том, насколько сильны ваши доказательства на самом деле.
источник
Можно сказать, что весь смысл статистической значимости состоит в том, чтобы ответить на вопрос «могу ли я доверять этому результату, учитывая размер выборки?». Другими словами, весь смысл в том, чтобы контролировать тот факт, что при небольших размерах выборки вы можете получить случайные частицы, когда реального эффекта не существует. Статистическая значимость, то есть значение p, является как раз ответом на вопрос: «Если бы никакого реального эффекта не было, насколько вероятно, что я получу такую счастливую случайность?». Если это очень маловероятно, это означает, что это не случайность.
Таким образом, ответ «да», если значение p низкое, и если вы выполнили правильные статистические процедуры и удовлетворяете соответствующим предположениям, тогда да, это хорошее доказательство и имеет тот же вес, как если бы вы получил то же значение р с очень большим размером выборки.
источник