Могу ли я доверять значительному результату t-теста, если размер выборки небольшой?

17

Если мой результат одностороннего t-теста значителен, но размер выборки невелик (например, ниже 20 или около того), могу ли я доверять этому результату? Если нет, как я должен иметь дело и / или интерпретировать этот результат?

Эрик
источник
8
Просто комментарий, я не хочу добавлять к замечательным комментариям ниже; вы не доверяете результатам t-теста, вы доверяете самой процедуре. Индивидуальный результат является правильным или неправильным, но без дальнейшего изучения вы никогда не узнаете, какой именно. T-критерий в методологии Фишера или методологии Пирсона и Неймана заслуживает доверия, если предположения выполнены. Если вы установите то он будет обманывать вас при бесконечном повторении не более, чем в 5% случаев, возможно, немного меньше. Вопрос, который вы должны задать, - "выполнены ли предположения?" α<.05
Дейв Харрис

Ответы:

15

Теоретически, если все предположения t-критерия верны, тогда нет проблем с небольшим размером выборки.

На практике существуют некоторые не совсем верные допущения, с которыми мы можем справиться при больших объемах выборки, но они могут вызвать проблемы при малых объемах выборки. Знаете ли вы, распространяется ли основной дистрибутив нормально? Все образцы независимы и одинаково распределены?

Если вы сомневаетесь в правильности теста, то альтернативой, которую вы можете использовать, является начальная загрузка. Начальная загрузка включает в себя повторную выборку из вашей выборки, чтобы увидеть, как часто нулевая гипотеза является истинной или ложной. Возможно, ваша нулевая гипотеза а ваше значение p равно 0,05, но самонастройка показывает, что среднее значение выборки составляет менее нуля в 10% случаев. Это указывает на то, что случайность привела к значению p, равному 0,05, и вы должны быть менее уверены, что нулевая гипотеза неверна.μ<0

Хью
источник
1
Например, если вы знаете, что базовое распределение является примерно нормальным распределением, и все 10 ваших выборок меньше, чем конкретное значение, тогда очевидно, что вероятность того, что совокупность будет больше этого значения, будет не более одного на 2 ^ 10, или один на тысячу. Очевидно, что 1 из 2 ^ 10 шансов, что все десять выборок из нормально распределенной популяции будут на одной стороне от среднего значения. Проблема будет в том, что вы получите достоверные результаты, но они будут очень слабыми - например, «средний рост взрослого мужчины почти определенно составляет от 5 до 7 футов».
Дэвид Шварц
Большое спасибо за объяснение и альтернативный подход. Я действительно ценю их! Большое спасибо!
Эрик
Я не получаю твоего предложения по начальной загрузке. Если вы выполните повторную выборку из выборки (у которой p <0,05), вы можете ожидать, что большинство повторных выборок при начальной загрузке дадут значительный результат, возможно, около 95%, а не 5 или 10%. Можете ли вы уточнить? Копия в @Eric.
говорит амеба: восстанови
3
Как более общее замечание, бутстрап хорошо работает в больших выборках, но при небольших выборках охват может немного отличаться от номинального. Кроме того, с очень низким размером выборки, мощность низкая. Так что не обязательно верно, что «тест начальной загрузки» всегда превосходит t-тест.
говорит амеба: восстанови Монику
3
@amoeba Мне очень нравится твой стиль коррекции. Вы не просто сказали мне, что было правильно / неправильно, вы указали на странное следствие моих идей и заставили меня пересмотреть мой ответ и понять источник моей ошибки. Так что спасибо вам за это! В прошлом Уубер делал это со мной тоже
Хью
21

Вы редко должны доверять каким-либо значимым результатам. Вы не сказали, почему вы использовали односторонний, а не двусторонний тест, так что, надеюсь, у вас есть для этого веские причины, кроме борьбы за то, чтобы претендовать на статистически значимый результат!

Оставляя это в стороне, рассмотрим следующее с. 261 от Sauro, J. & Lewis, JR (2016). Количественная оценка пользовательского опыта: практическая статистика для исследования пользователей, 2-е изд. Кембридж, Массачусетс: Morgan-Kaufmann.


Как Рональд Фишер рекомендовал использовать p-значения

Когда Карл Пирсон был великим стариком статистики, а Рональд Фишер был относительным новичком, Пирсон, которому, очевидно, угрожали идеи и математические способности Фишера, использовал свое влияние, чтобы не дать Фишеру публиковаться в главных статистических журналах того времени, «Биометрике» и «Журнале». Королевского статистического общества. Следовательно, Фишер опубликовал свои идеи в различных других местах, таких как сельскохозяйственные и метеорологические журналы, в том числе несколько статей для Трудов Общества психических исследований. Именно в одной из статей для этого последнего журнала он упомянул соглашение об установлении того, что мы сейчас называем приемлемой ошибкой типа I (альфа), равным 0,05, и, что очень важно, также упомянул важность воспроизводимости при обнаружении неожиданного значимого результата:

Наблюдение считается значительным, если оно было бы произведено редко, в отсутствие реальной причины, которую мы ищем. Обычной практикой является суждение о значимом результате, если он настолько велик, что он был бы получен случайно не чаще, чем один раз в двадцать испытаний. Это произвольный, но удобный уровень значимости для практического исследователя, но это не значит, что он позволяет себя обманывать один раз в каждых двадцати экспериментах. Критерий значимости только говорит ему, что игнорировать, а именно все эксперименты, в которых значимые результаты не получены. Он должен только утверждать, что явление экспериментально демонстрируется, когда он знает, как спланировать эксперимент, чтобы он редко давал значительный результат. Вследствие этого, отдельные значимые результаты, которые он не знает, как воспроизвести, остаются в ожидании до дальнейшего расследования. (Фишер, 1929, стр. 191)

Ссылка

Фишер, Р. А. (1929). Статистический метод в психическом исследовании. Труды Общества психических исследований, 39, 189-192.

Джим Льюис
источник
2
Фишер также опубликовал несколько важных работ, пересуждающих оценку максимального правдоподобия в «Анналах Евгеники». Его метод часто был лучше, чем метод моментов, который использовал Карл Пирсон. Фишер назвал свой метод логического вывода. Позднее она была оформлена Ежи Нейманом и Эгоном Пирсоном (сын Карла Пирсона).
Майкл Р. Черник
3
Нейман и Пирсон не формализовали фидуциарный вывод Фишера. Они разработали альтернативный метод.
Майкл Лью - восстановите Монику
5
Во времена Фишера «значительный» означал, что это означает что-то, а не то, что это важно.
Дэвид Лейн,
1
Большое спасибо за очень подробную информацию! Это действительно очень помогает мне!
Эрик
16

Представьте, что вы находитесь в ситуации, когда вы проводите много подобных тестов, в ряде обстоятельств, когда некоторая часть нулей соответствует действительности.

T .

(1-β)β является обычным символом для частоты ошибок типа II).

NMNM достаточно велики, чтобы мы могли обсуждать, что происходит в среднем, как если бы они были тем, что мы испытываем.

Какая доля ваших отклонений будет «правильной»?

NTα+N(1-T)(1-β)
N(1-T)(1-β)

(1-T)(1-β)Tα+(1-T)(1-β)

TαTα+(1-T)(1-β)

(1-T)(1-β)«Tα

1-βα (т.е. если у вас нет достаточно высокой мощности), многие из наших отклонений являются ошибками!

Поэтому, когда размер вашей выборки невелик (и, следовательно, мощность мала), если разумная доля наших нулей была истинной, мы часто совершали ошибку, когда отклоняли.

Ситуация не намного лучше, если почти все наши нули являются строго ложными - в то время как большинство наших отклонений будут правильными (тривиально, поскольку крошечные эффекты все еще строго ложны), если сила не высока, значительная часть этих отклонения будут «в неправильном направлении» - мы придем к выводу, что нулевое значение довольно часто ложно, потому что случайно образец оказался не на той стороне (это может быть один аргумент для использования односторонних тестов - когда односторонние тесты делают смысл - по крайней мере избегать отклонений, которые не имеют смысла, если трудно получить большие объемы выборки).

Мы можем видеть, что небольшие размеры выборки, безусловно, могут быть проблемой.

[Эта доля неправильных отклонений называется уровнем ложных открытий ]


Если у вас есть представление о вероятном размере эффекта, вы сможете лучше определить, какой размер выборки может быть адекватным. При больших ожидаемых эффектах отклонение с небольшим размером выборки не обязательно будет основной проблемой.

Glen_b - Восстановить Монику
источник
Большое спасибо! Это момент, который я могу очень легко пропустить. Большое спасибо за это!
Эрик
1
Отличная работа. Это может быть принятым ответом.
Ричард Харди
@Eric оригинальный ответ немного запутался в середине; Я исправил это.
Glen_b
9

Некоторые из оригинальных работ Госсета (он же Студент), для которых он разработал t-тест, включали образцы дрожжей n = 4 и 5. Этот тест был специально разработан для очень маленьких образцов. В противном случае нормальное приближение было бы хорошо. Тем не менее, Госсет проводил очень осторожные, контролируемые эксперименты с данными, которые он очень хорошо понимал. Количество вещей, которые должен испытать пивоваренный завод, ограничено, и Госсет провел свою трудовую жизнь в Гиннессе. Он знал свои данные.

Я немного подозреваю, что вы делаете акцент на одностороннем тестировании. Логика тестирования одна и та же, независимо от гипотезы, но я видел, как люди проходили значительный односторонний тест, когда двусторонний был несущественным.

Это то, что подразумевает (верхний) односторонний тест. Вы проверяете, что среднее значение равно 0. Вы делаете математику и готовы отказаться, когда T> 2,5. Вы запускаете свой эксперимент и наблюдаете, что T = -50 000. Вы говорите «фххххт», и жизнь продолжается. Если для статистики теста физически невозможно опуститься намного ниже предполагаемого значения параметра, и если вы никогда не примете никакого решения, если статистика теста пойдет в противоположном направлении, чем вы ожидаете, вы должны использовать двусторонний тест.

Placidia
источник
6

Главное, о чем вам нужно беспокоиться, это сила вашего теста. В частности, вы можете захотеть провести анализ мощности после анализа, чтобы определить, насколько вероятно, учитывая размер выборки, определить истинно значимый эффект разумного размера. Если типичные эффекты очень велики, n из 8 может быть полностью адекватным (как во многих экспериментах по молекулярной биологии). Если эффекты, которые вас интересуют, как правило, едва различимы (как во многих экспериментах по социальной психологии), то n тысяч людей все еще могут быть недовольны.

Это важно, потому что слабые тесты могут дать очень вводящие в заблуждение результаты. Например, если ваш тест недостаточно силен, даже если вы найдете значительный результат, у вас есть относительно высокая вероятность того, что Эндрю Гельман называет ошибкой «Типа S», т. Е. Существует реальный эффект, но в противоположном направлении, или ошибка типа M, т. е. существует реальный эффект, но истинная величина намного слабее, чем то, что оценивается по данным.

Гельман и Карлин написали полезную статью о проведении специального анализа мощности, который, я думаю, применим в вашем случае. Важно отметить, что они рекомендуют использовать независимые данные (т. Е. Не проверенные вами данные, а обзоры, моделирование, результаты аналогичных экспериментов и т. Д.) Для оценки вероятного истинного размера эффекта. Выполнив анализ мощности с использованием этого правдоподобного оцененного истинного размера эффекта и сравнив его с результатами, вы можете определить вероятность ошибки типа S и типичного «коэффициента преувеличения», и, таким образом, получить лучшее представление о том, насколько сильны ваши доказательства на самом деле.

Патрик Б.
источник
4

Можно сказать, что весь смысл статистической значимости состоит в том, чтобы ответить на вопрос «могу ли я доверять этому результату, учитывая размер выборки?». Другими словами, весь смысл в том, чтобы контролировать тот факт, что при небольших размерах выборки вы можете получить случайные частицы, когда реального эффекта не существует. Статистическая значимость, то есть значение p, является как раз ответом на вопрос: «Если бы никакого реального эффекта не было, насколько вероятно, что я получу такую ​​счастливую случайность?». Если это очень маловероятно, это означает, что это не случайность.

Таким образом, ответ «да», если значение p низкое, и если вы выполнили правильные статистические процедуры и удовлетворяете соответствующим предположениям, тогда да, это хорошее доказательство и имеет тот же вес, как если бы вы получил то же значение р с очень большим размером выборки.

Denziloe
источник