Минимальный размер выборки для непарного t-теста

16

Существует ли «правило» для определения минимального размера выборки, необходимого для правильности t-теста?

Например, необходимо провести сравнение между двумя популяциями. Существует 7 точек данных из одной совокупности и только 2 точки данных из другой. К сожалению, эксперимент очень дорог и требует много времени, и получение большего количества данных не представляется возможным.

Можно ли использовать t-тест? Почему или почему нет? Пожалуйста, предоставьте подробную информацию (различия и распределение населения неизвестны). Если t-критерий нельзя использовать, можно ли использовать непараметрический критерий (Манн Уитни)? Почему или почему нет?

Джонни озадачен
источник
2
Этот вопрос охватывает аналогичные материалы и будет интересен для зрителей этой страницы: существует ли минимальный размер выборки, необходимый для того, чтобы t-тест был действительным? ,
gung - Восстановить Монику
Смотрите также этот вопрос, где обсуждается тестирование с еще меньшими размерами выборки.
Glen_b

Ответы:

8

Я бы рекомендовал использовать непараметрический U- критерий Манна-Уитни а не непарный t- критерий.

Абсолютного минимального размера выборки для t- теста не существует, но с уменьшением размеров выборки тест становится более чувствительным к предположению, что обе выборки взяты из популяций с нормальным распределением. С такими маленькими выборками, особенно с одной выборкой из двух, вы должны быть очень уверены, что распределения населения были нормальными - и это должно основываться на внешних знаниях, поскольку такие маленькие выборки сами по себе дают очень мало информации о нормальность или нет их распределения. Но вы говорите, что «различия и распределения населения неизвестны» (мой курсив).

U- критерий Манна-Уитни не требует каких-либо предположений о параметрической форме распределений, а требует только предположения о том, что распределения двух групп одинаковы при нулевой гипотезе.

универсальный
источник
6
Не очень хорошая рекомендация для очень маленьких выборок. С 7 и 2 выборками U-тест не пройден, независимо от того, насколько велика разница между средними значениями в группах. Посмотрите на мой ответ для примера.
AlefSin
2
Я бы вторую, что говорит @AlefSin. Если для вас важно сделать правильные выводы (а не только получить значение p), то чем больше обоснованных предположений вы можете сделать, тем лучше. Если имеется достаточная справочная информация, вы также можете добавить еще больше предположений, если бы вы провели анализ в байесовской структуре.
Расмус Батх
2
Одна проблема заключается в том, что при таких небольших размерах выборки Уилкоксон-Манн-Уитни не может достичь типичных уровней значимости. С размерами выборки 7 и 2 вы никогда не получите значительный результат на уровне 5%, независимо от того, насколько очевидна разница. Рассмотрим (1.018,1.031,1.027,1.020,1.021,1.019,1.024) против (713.2, 714.5) - несущественно на уровне 5%!
Glen_b
3
N1знак равно7N2знак равно2
6

(отказ от ответственности: сегодня я не могу печатать хорошо: у меня сломана правая рука!)

Вопреки совету использовать непараметрический тест в других ответах, вы должны учитывать, что для очень малых размеров выборки эти методы не очень полезны. Легко понять, почему: в исследованиях с очень маленьким размером различие между группами не может быть установлено, за исключением случаев, когда наблюдается большой эффект. Непараметрические методы, однако, не заботятся о величине разницы между группами. Таким образом, даже если разница между двумя группами огромна, при крошечном размере выборки непараметрический тест всегда не сможет отклонить нулевую гипотезу.

Рассмотрим этот пример: две группы, нормальное распределение, одна и та же дисперсия. Группа 1: в среднем 1,0, 7 образцов. Группа 2: в среднем 5, 2 образца. Существует большая разница между средними.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

Вычисленное значение p равно 0,05556, что не отвергает нулевую гипотезу (0,05). Теперь, даже если вы увеличите расстояние между двумя средними значениями в 10 раз, вы получите одно и то же значение p:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Теперь я предлагаю вам повторить ту же симуляцию с t-тестом и наблюдать за p-значениями в случае больших (в среднем 5 против 1) и огромных (в среднем 50 против 1) различий.

AlefSin
источник
5

Не существует минимального размера выборки для t-теста; Фактически, t-критерий был разработан для небольших образцов. В старые времена, когда таблицы печатались, вы видели таблицы t-теста для очень маленьких образцов (измеренных как df).

Конечно, как и в других тестах, при небольшой выборке только значительный эффект будет статистически значимым.

Питер Флом - Восстановить Монику
источник
Но будет ли наоборот также проблемой? Т.е. могут ли выбросы, которые были выбраны, привести к ложному отклонению нулевой гипотезы? Или низкое энергопотребление для выявления различий - большая проблема? В этой конкретной ситуации я вижу значительную разницу между средствами, но не знаю, насколько «доверять» этому.
Джонни озадачен
2
При n = 2 вы определенно уязвимы для влияния выбросов - выбросов в популяции; как образец 2 может иметь выброс в выборке? :-) Я бы не стал выводить какую-либо логическую статистику в этой ситуации. Перспективы плохи для понимания «правды», и вы будете широко открыты для критики.
rolando2
2
Причина того, что доверительный интервал будет широким, заключается именно в том, что вы можете получить выброс. Но t-критерий все еще предполагает, что образцы взяты из нормальной популяции.
Питер Флом - Восстановить Монику
2

Я предполагаю, что вы имеете в виду, что у вас есть 7 точек данных из одной группы и 2 точки данных из второй группы, обе из которых являются подмножествами популяций (например, подмножество мужчин и подмножество женщин).

Математика для t-теста может быть получена из этой странице Википедии . Мы возьмем независимый t-тест с двумя выборками, с неравными размерами выборки (7 против 2) и неравными отклонениями, так что примерно на полпути вниз по этой странице. Вы можете видеть, что расчет основан на средних и стандартных отклонениях. Имея только 7 субъектов в одной группе и 2 объекта в другой, вы не можете предполагать, что у вас есть хорошие оценки для среднего или стандартного отклонения. Для группы из 2 субъектов среднее значение - это просто значение, которое находится точно посередине двух точек данных, поэтому оно не очень хорошо оценено. Для группы из 7 субъектов размер выборки сильно влияет на дисперсии (и, следовательно, стандартные отклонения, которые являются квадратным корнем дисперсии), потому что экстремальные значения оказывают гораздо более сильный эффект, когда у вас меньшая выборка.

Например, если вы посмотрите на базовый пример на странице Википедии для стандартного отклонения вы увидите, что стандартное отклонение равно 2, и, следовательно, дисперсия (квадрат стандартного отклонения) равна 4. Но если бы у нас были только первые две точки данных (9 и 1), дисперсия будет 10/2 = 5, а стандартное отклонение будет 2,2, и если бы у нас были только последние два значения (4 и 16), дисперсия была бы 20/2 = 10 и стандартное отклонение будет 3,2. Мы по-прежнему используем одни и те же значения, но меньше их, и мы можем увидеть влияние на наши оценки.

В этом проблема использования логической статистики с небольшими размерами выборки, особенно сильно на ваши результаты будет влиять выборка.

Обновление: есть ли причина, по которой вы не можете просто сообщить результаты по теме и указать, что это исследовательская работа? Только с двумя случаями данные очень похожи на тематическое исследование, и они оба (1) важны для написания и (2) принятой практики.

Мишель
источник
Спасибо Мишель. Это интересно и полезно знать. Однако что бы вы посоветовали с практической точки зрения? В этой ситуации, как лучше поступить? Благодарность!
Джонни озадачен
Привет, Джонни, озадачен. Без дополнительной информации о вашей конкретной ситуации я не могу дать больше указаний.
Мишель
Какая информация нужна?
Джонни озадачен
1
Привет еще раз, больше информации о дизайне вашего исследования, например, каковы ваши данные, как вы их собрали, каковы ваши группы, как были отобраны наблюдения. Все, что я знаю, это то, что вы провели эксперимент с 9 наблюдениями (люди? Крысы? Нейроны? Блоки сыра? Частоты излучения) из двух групп.
Мишель
Допустим, что средний кровоток к белому веществу в мозге был измерен у людей с помощью МРТ. Группами являются контрольные (7 человек) и сопоставимые по возрасту / полу пациенты с определенным расстройством (2 человека).
Джонни озадачен
1

Интересная связанная статья: «Использование t-критерия Стьюдента с чрезвычайно малыми размерами samlpe» JCF de Winter (в практической оценке, исследовании и оценке) http://goo.gl/ZAUmGW

Epifunky
источник
0

Я бы порекомендовал сравнить полученные выводы с t-тестом и тестом Манна-Уитни, а также взглянуть на коробочные диаграммы и профильную вероятность среднего значения для каждой популяции.

Демьян
источник
Привет @Demian, я не уверен, что даже блокпост будет полезен, когда одна группа имеет размер выборки 2. В противном случае, да, я думаю, что блокпосты, в частности, очень полезны для визуализации непрерывных данных между группами.
Мишель
0

Stata 13/SE code for a bootstrap ttestПоскольку тестирование, проведенное на небольших выборках, вероятно, не соответствует требованиям тестирования (в основном, нормальности популяций, из которых были взяты две выборки), я бы порекомендовал выполнить тест начальной загрузки (с неравными отклонениями) после Efron B, Тибширани Rj. Введение в Bootstrap. Бока-Ратон, Флорида: Chapman & Hall / CRC, 1993: 220-224. Код для начальной загрузки с использованием данных, предоставленных Johnny Puzzled в Stata 13 / SE, показан на рисунке выше.

Карло Лаззаро
источник
Ваш ответ имеет серьезные проблемы с форматированием, не могли бы вы отредактировать его?
говорит амеба: восстанови монику
Я попытался решить проблемы с форматированием в рассмотренной версии ответа. Спасибо амебе за указание на это.
Карло Лаззаро
0

При размере выборки 2 лучше всего посмотреть на отдельные числа и даже не заниматься статистическим анализом.

Kevin
источник
1
В настоящее время это больше похоже на комментарий. Хотя это хороший момент, для разумного ответа на исходную проблему можно было бы ожидать некоторого обсуждения самой проблемы, даже если в конечном итоге приходит к выводу, что имеет больше смысла делать что-то еще.
Glen_b