Может ли небольшой размер выборки вызвать ошибку типа 1?

21

Я узнал, что небольшой размер выборки может привести к недостаточной мощности и ошибке 2 типа. Тем не менее, у меня есть ощущение, что небольшие образцы просто могут быть ненадежными и могут привести к любому результату случайно. Это правда?

четный
источник
У меня есть отвращение к ненужным математическим обозначениям, поэтому я отредактировал заголовок. Не могли бы вы проверить, не изменил ли я значение, изменив его?
mpiktas
1
Обязательно поговорите о проверке гипотез (тесты Неймана-Пирсона), а не о тестировании значимости (тесты Фишера). Эти подходы обычно смешаны, даже если во втором нет понятия об ошибке, и правильное использование должно отличаться, потому что они приводят к различным выводам.
Себ
Если вы используете асимптотический тест, то да, это возможно. В противном случае, нет - тест определяется для контроля частоты ошибок типа 1 (т. ). α
Макрос
Но разве это не правда, если вы переворачиваете монеты дважды, вы, скорее всего, получите перекос (2 одинаковых стороны (100%)), чем при переворачивании 100 раз, что, скорее всего, приведет к примерно 1 / 2, 1/2. Не означает ли это, что чем меньше размер, тем больше вероятность возникновения ошибки I типа?

Ответы:

27

Как правило, малый размер выборки не увеличивает частоту ошибок типа I по той простой причине, что тест предназначен для контроля частоты типа I. (Существуют незначительные технические исключения, связанные с дискретными результатами, которые могут привести к тому, что номинальная скорость типа I не будет достигнута точно, особенно при небольших размерах выборки.)

Здесь есть важный принцип : если ваш тест имеет приемлемый размер (= номинальная скорость типа I) и приемлемую мощность для эффекта, который вы ищете, то даже если размер выборки небольшой, это нормально.

Опасность заключается в том, что если мы иначе мало знаем о ситуации - может быть, это все данные, которые у нас есть, - тогда мы можем быть обеспокоены ошибками типа III: то есть ошибочной спецификацией модели. Их может быть трудно проверить с помощью небольших наборов образцов.

В качестве практического примера взаимодействия идей я поделюсь историей. Давным-давно меня попросили порекомендовать размер образца, чтобы подтвердить экологическую очистку. Это было на этапе предварительной очистки, прежде чем мы получили какие-либо данные. Мой план предусматривал анализ 1000 или около того образцов, которые будут получены во время очистки (чтобы установить, достаточно ли почвы было удалено в каждом месте), чтобы оценить среднее значение после очистки и дисперсию концентрации загрязнителя. Затем (чтобы значительно упростить) я сказал, что мы будем использовать формулу учебника - на основе заданной мощности и размера теста - чтобы определить количество независимых выборок подтверждения, которые будут использоваться для подтверждения того, что очистка прошла успешно.

То, что сделало это незабываемым, было то, что после того, как очистка была сделана, формула сказала, чтобы использовать только 3 образца. Внезапно моя рекомендация выглядела не очень заслуживающей доверия!

Причина, по которой нужно только 3 образца, состоит в том, что очистка была агрессивной и работала хорошо. Это снизило средние концентрации загрязняющих веществ до примерно 100% или менее, что соответствует 100 частям на миллион.

В конце концов этот подход сработал, потому что мы получили 1000 предыдущих образцов (хотя и с более низким аналитическим качеством: они имели большую погрешность измерения), чтобы установить, что сделанные статистические допущения были действительно хорошими для этого участка. Таким образом, обрабатывается вероятность ошибки типа III.

Еще один поворот на ваш взгляд: зная, что регулирующий орган никогда не одобрит использование только 3 образцов, я рекомендовал получить 5 измерений. Они должны были быть сделаны из 25 случайных выборок всего сайта, сгруппированных в группы по 5. Статистически было бы только 5 чисел в окончательном тесте гипотезы, но мы достигли большей способности обнаружить изолированную «горячую точку», взяв 25 физических образцы. Это подчеркивает важную связь между тем, сколько чисел используется в тесте и как они были получены. Существует больше для принятия статистических решений, чем просто алгоритмы с числами!

К моему вечному облегчению, пять составных значений подтвердили, что цель очистки была достигнута.

whuber
источник
1
(+1) отличная история об агрессивной очистке и ошибке типа III , было бы неплохо, если бы это было также актуально для экономических временных рядов. Для детерминированных моделей или моделей с низким коэффициентом шума небольшой размер выборки не будет самой большой проблемой (по сравнению с огромным набором очень шумных, вероятно, независимых больших выборочных данных, даже с основными компонентами сложно работать с этими).
Дмитрий Челов
1
+1, для тех, кто заинтересован в дальнейшем понимании «технических исключений, связанных с дискретными результатами», упомянутых в первом абзаце, я обсуждаю их здесь: сравнение и сопоставление значений p, уровней значимости и ошибки I типа .
gung - Восстановить Монику
1
+1, отличный пример того, почему вы не можете получить дикий удар при полезном размере выборки без ключевой информации.
Фрейя Харрисон
0

Другим следствием небольшой выборки является увеличение ошибки типа 2.

В статье «Место статистики в психологии», 1960 г., было продемонстрировано, что маленькие выборки, как правило, не могут отвергнуть точечную нулевую гипотезу. Эти гипотезы являются гипотезами, имеющими некоторые параметры равными нулю, и, как известно, являются ложными в рассмотренном опыте.

Напротив, слишком большие выборки увеличивают ошибку типа 1, потому что значение p зависит от размера выборки, но альфа-уровень значимости фиксирован. Тест на таком образце всегда отвергает нулевую гипотезу. Прочитайте «Незначительность статистической значимости тестирования» Джонсона и Дугласа (1999), чтобы получить общее представление об этой проблеме.

Это не прямой ответ на вопрос, но эти соображения дополняют друг друга.

Себ
источник
+1 за решение проблемы больших выборок и ошибки типа I
Джош Хеманн
6
-1, комментарий о том, что «слишком большие выборки увеличивают ошибку типа 1» неверен. Вы можете сбить с толку статистическую значимость и практическую значимость, поскольку может существовать ситуация, когда истинный эффект не точно равен 0, но настолько мал, что он несущественен, и для практических целей мы считаем ноль «истинным» . В этом случае нулевое значение будет отклонено более (например) в 5% случаев и чаще с увеличением N. Однако, строго говоря, нулевая гипотеза о том, что истинный эффект равен точно 0, по условию ложна. Таким образом, эти отклонения на самом деле не являются ошибками типа I.
gung - Восстановить Монику