В настоящее время я работаю над квази-экспериментальной исследовательской работой. У меня размер выборки только 15 из-за низкой численности населения в выбранной области, и только 15 соответствуют моим критериям. Является ли 15 минимальным размером выборки для t-теста и F-теста? Если так, где я могу получить статью или книгу, чтобы поддержать этот маленький размер выборки?
Этот документ был защищен в прошлый понедельник, и один из членов комиссии попросил предоставить вспомогательную справку, потому что размер моей выборки слишком мал По его словам, это должно было быть не менее 40 респондентов.
t-test
sample-size
assumptions
power
Царица франсуаза
источник
источник
Ответы:
Не существует минимального размера выборки для того, чтобы t-тест был действительным. Валидность требует, чтобы предположения для статистики теста выполнялись приблизительно. Эти предположения в одном случае выборки показывают, что данные являются нормальными (или приблизительно нормальными) со средним значением 0 при нулевой гипотезе и дисперсией, которая неизвестна, но оценивается по выборке. В случае двух выборок обе выборки не зависят друг от друга, и каждая выборка состоит из нормальных переменных iid, причем две выборки имеют одинаковое среднее значение и общую неизвестную дисперсию при нулевой гипотезе. Объединенная оценка дисперсии используется для статистики.
В случае одного примера распределение по нулевой гипотезе является центральным t с n-1 степенями свободы. В двух случаях образцов с размерами выборки п и м не обязательно равно нулевое распределение тестовых статистики т с п + т-2 степенями свободы. Повышенная изменчивость из-за малого размера выборки учитывается в распределении, которое имеет более тяжелые хвосты при низких степенях свободы, что соответствует малому размеру выборки. Таким образом, можно найти критические значения для статистики теста, чтобы иметь заданный уровень значимости для любого размера выборки (ну, по крайней мере, размера 2 или больше).
Проблема с низким размером выборки связана с мощностью теста. Рецензент, возможно, считал, что 15 на группу не было достаточно большого размера выборки, чтобы иметь высокую мощность обнаружения значимой разницы, скажем, дельта между двумя средними значениями или среднее значение больше дельты в абсолютном значении для одной проблемы выборки. Необходимость 40 потребует указания определенной мощности в конкретной дельте, которая будет достигнута при n, равном 40, но не ниже 40.
Я должен добавить, что для проведения t-теста выборка должна быть достаточно большой, чтобы оценить ее или дисперсию.
источник
При всем уважении к нему, он не знает, о чем говорит. T-тест был разработан для работы с небольшими образцами. На самом деле не существует минимума (возможно, вы могли бы сказать минимум 3 для t-теста с одной выборкой, IDK), но у вас есть опасения относительно достаточной мощности для небольших выборок. Возможно, вам будет интересно почитать идеи, лежащие в основе компромиссного анализа мощности, когда возможный размер выборки сильно ограничен, как в вашем случае.
Что касается ссылки, которая доказывает, что вы можете использовать t-тест с небольшими выборками, я не знаю ни одного, и я сомневаюсь, что он существует. Зачем кому-то пытаться доказать это? Идея просто глупая.
источник
Как уже упоминалось в существующих ответах, основной проблемой с небольшим размером выборки является низкая статистическая мощность. Существуют различные практические правила относительно приемлемой статистической мощности. Некоторые люди говорят, что статистическая сила в 80% является разумной, но, в конечном счете, чем больше, тем лучше. Как правило, существует компромисс между затратами на привлечение большего количества участников и выгодой получения большей статистической мощности.
Вы можете оценить статистическую мощность при испытании с использованием простой функции в R,
power.t.test
.Таким образом, мы можем видеть, что если бы размер эффекта популяции был «маленьким» или «средним», вы имели бы низкую статистическую мощность (т.е. 11% и 44% соответственно). Однако, если величина эффекта велика в популяции, у вас будет то, что некоторые называют «разумной» силой (т. Е. 82%).
Сайт Быстрый-р дает дополнительную информацию об анализе мощности с использованием R .
источник
T-критерий с двумя выборками действителен, если две выборки являются независимыми простыми случайными выборками из нормальных распределений с одинаковой дисперсией, и каждый из размеров выборки составляет не менее двух (так что можно оценить дисперсию совокупности). не имеет отношения к вопросу о достоверности теста. В зависимости от размера эффекта, который желательно обнаружить, небольшой размер выборки может быть неосторожным, но небольшой размер выборки не делает тест недействительным. Также обратите внимание, что для любого размера выборки среднее значение выборки является нормальным, если родительское распределение - нормальное. Конечно, большие размеры выборки всегда лучше, потому что они обеспечивают более точные оценки параметров. Центральная предельная теорема говорит нам, что выборочные средние значения в большей степени нормально распределены, чем отдельные значения, но, как отметили Казелла и Бергер, он имеет ограниченную полезность, так как скорость приближения к нормальности должна быть проверена для любого конкретного случая. Полагаться на эмпирические правила неразумно. Посмотреть результаты сообщили книги Рэнда Уилкокса.
источник
Хотя верно, что в t-распределении учитывается небольшой размер выборки, я бы предположил, что ваш судья думал о сложности установления того, что популяция обычно распределяется, когда единственная информация, которой вы располагаете, является сравнительно небольшой выборкой? Это может не быть большой проблемой для выборки 15-го размера, поскольку, как мы надеемся, выборка достаточно велика, чтобы показать некоторые признаки расплывчатого нормального распределения? Если это правда, то, надеюсь, численность населения тоже будет где-то близка к норме, и в сочетании с центральной предельной теоремой это должно дать вам примерные средства, которые ведут себя достаточно хорошо.
Но я сомневаюсь в рекомендациях использовать t-тесты для крошечных образцов (таких как четвертый размер), если нормальная популяция не может быть установлена какой-то внешней информацией или механическим пониманием? Конечно, в выборке четвертого размера не может быть достаточно информации, чтобы иметь представление о форме распределения населения.
источник
Рассмотрим следующее из стр. 254-256 Sauro, J. & Lewis, JR (2016). Количественная оценка пользовательского опыта: практическая статистика для исследования пользователей, 2-е изд. Кембридж, Массачусетс: Morgan-Kaufmann (вы можете заглянуть внутрь по адресу https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
ВАМ НУЖНО ПРОВЕРИТЬ, ПОСЛЕДНИЕ 30 ПОЛЬЗОВАТЕЛЕЙ?
С ОДНОЙ СТОРОНЫ
Вероятно, большинство из нас, кто посещал вводный класс статистики (или знает кого-то, кто брал такой класс), слышали эмпирическое правило, что для оценки или сравнения средних значений размер вашей выборки должен быть не менее 30. Согласно центральной теореме о пределе, с увеличением размера выборки распределение среднего становится все более нормальным, независимо от нормальности основного распределения. Некоторые исследования моделирования показали, что для широкого спектра распределений (но не всех - см. Bradley, 1978) распределение среднего становится почти нормальным, когда n = 30.
Другое соображение заключается в том, что немного проще использовать z-оценки, чем t-оценки, поскольку z-оценки не требуют использования степеней свободы. Как показано в Таблице 9.1 и на Рис. 9.2, к тому времени, когда у вас будет около 30 степеней свободы, значение t будет довольно близко к значению z. Следовательно, может возникнуть ощущение, что вам не нужно иметь дело с небольшими выборками, которые требуют статистики малых выборок (Cohen, 1990). ...
С ДРУГОЙ СТОРОНЫ
Когда стоимость выборки является дорогой, как это обычно делается во многих типах пользовательских исследований (например, тестирование с умеренной юзабилити), важно максимально точно оценить необходимый размер выборки, понимая, что это оценка. Вероятность того, что 30 является точно подходящей выборкой для данного набора обстоятельств, очень мала. Как показано в наших главах по оценке размера выборки, более подходящий подход состоит в том, чтобы взять формулы для вычисления уровней значимости статистического теста и, используя алгебру для решения n, преобразовать их в формулы оценки размера выборки. Эти формулы затем дают конкретные указания относительно того, что вы должны знать или оценивать для данной ситуации, чтобы оценить требуемый размер выборки.
Идея о том, что даже при t-распределении (в отличие от z-распределения) вам необходимо иметь размер выборки не менее 30, не согласуется с историей развития этого распределения. В 1899 году Уильям С. Госсетт, недавний выпускник Нью-колледжа в Оксфорде, получивший степень по химии и математике, стал одним из первых ученых, присоединившихся к пивоварне Guinness. «По сравнению с гигантами его времени, он опубликовал очень мало, но его вклад имеет решающее значение. … Характер процесса пивоварения с его изменчивостью температуры и ингредиентов означает, что невозможно брать большие пробы в течение длительного времени »(Cowles, 1989, p. 108–109).
Это означало, что Госсетт не мог использовать z-показатели в своей работе - они просто плохо работают с небольшими выборками. Проанализировав недостатки z-распределения для статистических тестов с небольшими выборками, он разработал необходимые корректировки в зависимости от степени свободы для создания своих t-таблиц, опубликованных под псевдонимом «Student» из-за политики Гиннесса, запрещающей публикацию. сотрудниками (Salsburg, 2001). В работе, которая привела к публикации таблиц, Госсетт выполнил раннюю версию моделирования Монте-Карло (Стиглер, 1999). Он подготовил 3000 карточек, помеченных физическими измерениями, проведенными на преступниках, перетасовал их, а затем раздал их в 750 групп размера 4 - размер выборки намного меньше 30.
НАША РЕКОМЕНДАЦИЯ
Это противоречие аналогично аргументу «пять - достаточно» и «восемь - недостаточно», описанному в главе 6, но применяется к суммирующим, а не формирующим исследованиям. Для любого исследования количество пользователей, которые будут тестироваться, зависит от цели теста и типа данных, которые вы планируете собирать. «Магическое число» 30 имеет эмпирическое обоснование, но, на наш взгляд, оно очень слабое. Как вы можете видеть из многочисленных примеров в этой книге, у которых размеры выборки не равны 30 (иногда меньше, иногда больше), мы не придерживаемся этого эмпирического правила в очень высоком отношении. Как описано в нашей главе о размере выборки для суммирующего исследования, подходящий размер выборки для исследования зависит от типа распределения, ожидаемой изменчивости данных, желаемых уровней достоверности и мощности,
Как показано на рис. 9.2, при использовании t-распределения с очень маленькими выборками (например, со степенями свободы менее 5) очень большие значения t компенсируют небольшие размеры выборок в отношении контроля ошибок типа I ( претензия на разницу значительна, когда ее на самом деле нет). При небольших размерах выборки ваши доверительные интервалы будут намного шире, чем при больших выборках. Но как только вы имеете дело с более чем 5 степенями свободы, абсолютная разница между значением z и значением t становится очень небольшой. С точки зрения приближения t к z очень мало выигрыша за 10 степенями свободы.
Использовать t-распределение не намного сложнее, чем z-распределение (нужно просто убедиться, что вы используете правильное значение для степеней свободы), и причина развития t-распределения заключалась в том, чтобы включить анализ небольших образцов. Это только один из менее очевидных способов, с помощью которых практикующие юзабилити могут извлечь пользу из науки и практики пивоварения. Историки статистики широко расценивают публикацию Госсетта t-критерия Стьюдента как знаковое событие (Box, 1984; Cowles, 1989; Stigler, 1999). В письме Рональду А. Фишеру (одному из отцов современной статистики), содержащем раннюю копию t-таблиц, Госсетт написал: «Вы, вероятно, единственный человек, который когда-либо будет их использовать» (Box, 1978). Госсетт многое понял правильно, но он, конечно, ошибся.
РЕКОМЕНДАЦИИ
Box, GEP (1984). Важность практики в развитии статистики. Technometrics, 26 (1), 1-8.
Box, JF (1978). Фишер, жизнь ученого. Нью-Йорк, Нью-Йорк: Джон Уайли.
Брэдли, СП (1978). Грубости? Британский журнал математической и статистической психологии, 31, 144-152.
Коэн, J. (1990). Вещи, которые я узнал (до сих пор). Американский психолог, 45 (12), 1304-1312.
Коулз, М. (1989). Статистика в психологии: историческая перспектива. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
Сальсбург Д. (2001). Леди, дегустирующая чай: как статистика революционизировала науку в двадцатом веке. Нью-Йорк, Нью-Йорк: WH Freeman.
Стиглер С.М. (1999). Статистика на столе: история статистических понятий и методов. Кембридж, Массачусетс: издательство Гарвардского университета.
источник
Царице может быть интересно сравнить результаты ее параметрического t-теста с результатами, полученными с помощью t-теста начальной загрузки. Следующий код для Stata 13/1 имитирует вымышленный пример, касающийся t-критерия с двумя выборками с неравными отклонениями (параметрический t-критерий: p-значение = 0,1493; загрузочный t-критерий: p-значение = 0,1543).
источник
Есть два разных способа оправдать использование t-критерия.
Если либо из этих случаев выполняется, то t-критерий считается действительным. Поэтому, если вы хотите сделать предположение о том, что ваши данные нормально распределены (как это делают многие исследователи, собирающие небольшие выборки), вам не о чем беспокоиться.
Однако кто-то может обоснованно возразить, что вы полагаетесь на это предположение для получения своих результатов, особенно если известно, что ваши данные искажены. затем вопрос размера выборки, требуемой для правильного вывода, является очень разумным.
Что касается того, насколько большой размер выборки требуется, к сожалению, нет реального твердого ответа на это; чем больше искажены ваши данные, тем больше размер выборки, необходимый для разумного приближения. 15-20 на группу обычно считается достаточно большим, но, как и в большинстве эмпирических правил, существуют контрпримеры: например, в возвратах лотерейных билетов (где 1 в, скажем, 10 000 000 наблюдений является КРАЙНЕМ выбросом), вам буквально потребуется где-то около 100 000 000 наблюдений до этих испытаний будет уместным.
источник
Я согласен с полезностью ускоренного t-теста. Для сравнения я бы также рекомендовал взглянуть на байесовский метод, предложенный Крушке на http://www.indiana.edu/~kruschke/BEST/BEST.pdf . В общем, вопросы "Сколько предметов?" невозможно ответить, если вы не имеете в виду, что значительный эффект с точки зрения решаемой проблемы. То есть, например, если тест был гипотетическим исследованием эффективности нового лекарства, размер эффекта мог бы быть минимальным размером, необходимым для обоснования нового лекарства по сравнению со старым для Управления по контролю за продуктами и лекарствами США.
Что странно в этом и многих других обсуждениях, так это общая готовность утверждать, что некоторые данные просто имеют некоторое теоретическое распределение, например гауссовское. Во-первых, нам не нужно ставить, мы можем проверить, даже с небольшими образцами. Во-вторых, зачем вообще нужно какое-то конкретное теоретическое распределение? Почему бы просто не воспринимать данные как эмпирическое распределение?
Конечно, в случае небольших размеров выборки утверждение, что данные поступают из некоторого распределения, очень полезно для анализа. Но, перефразируя Брэдли Эфрона, вы только что создали бесконечное количество данных. Иногда это может быть хорошо, если ваша проблема уместна. Иногда это не так.
источник
Насколько допущения идут для двух примеров; это то, что обе выборки не зависят друг от друга, и каждая выборка состоит из iid нормальных переменных, причем две выборки имеют одинаковое среднее значение и общую неизвестную дисперсию при нулевой гипотезе.
Существует также t-критерий Уэлча, использующий приближение Саттервейта для стандартной ошибки. Это t-критерий из двух выборок, предполагающий неравные отклонения.
T-тест Уэлча
источник