Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий Уилкоксона-Манна-Уитни, или парный тест знака. Как мы можем принять принципиальное решение о том, какой тест является наиболее подходящим, особенно если размер выборки «маленький»?
Многие вводные учебники и конспекты лекций дают подход «блок-схемы», в котором нормальность проверяется (или - неосознанно - с помощью теста нормальности, или, в более широком смысле, с помощью графика QQ или аналогичного), чтобы выбрать между t -тестом или непараметрическим тестом. Для непарного t- критерия с двумя выборками может быть проведена дополнительная проверка однородности дисперсии, чтобы решить, следует ли применять поправку Уэлча. Одной из проблем этого подхода является то, как решение о том, какой тест применять, зависит от наблюдаемых данных и как это влияет на производительность (мощность, коэффициент ошибок типа I) выбранного теста.
Другая проблема заключается в том, насколько трудна проверка нормальности в небольших наборах данных: формальное тестирование имеет низкое энергопотребление, поэтому нарушения вполне могут быть не обнаружены, но схожие проблемы возникают при просмотре данных на графике QQ. Даже вопиющие нарушения могут остаться незамеченными, например, если распределение является смешанным, но не было получено никаких наблюдений по одному компоненту смеси. В отличие от больших , мы не можем опираться на сеть безопасности центральной предельной теоремы, а также на асимптотическую нормальность тестовой статистики и t- распределения.
Одним из принципиальных ответов на это является «безопасность прежде всего»: без возможности надежной проверки предположения о нормальности в небольшой выборке придерживайтесь непараметрических методов. Другой - рассмотреть любые основания для предположения нормальности, теоретически (например, переменная является суммой нескольких случайных компонентов и применяется CLT) или эмпирически (например, предыдущие исследования с большим предполагают, что переменная является нормальной), и использовать t- тест, только если такие основания существуют , Но это обычно только оправдывает приблизительную нормальность, и на низких степенях свободы трудно судить, насколько близко она должна быть к нормальной, чтобы избежать аннулирования t- теста.
Большинство руководств по выбору t-критерия или непараметрического критерия сосредоточены на проблеме нормальности. Но маленькие образцы также поднимают некоторые побочные проблемы:
Если вы проводите «несвязанные образцы» или «непарный» t-тест, следует ли использовать поправку Уэлча ? Некоторые люди используют тест гипотезы на равенство дисперсий, но здесь он будет иметь низкую мощность; другие проверяют, являются ли SD «разумно» близкими или нет (по различным критериям). Разве безопаснее просто всегда использовать поправку Уэлча для небольших выборок, если только нет веских оснований полагать, что дисперсии населения равны?
Если вы видите выбор методов как компромисс между властью и устойчивостью, утверждения об асимптотической эффективности непараметрических методов бесполезны . Эмпирическое правило, что « тесты Уилкоксона дают около 95% мощности t-теста, если данные действительно нормальные , и часто гораздо более мощные, если данные не так, так что просто используйте Уилкоксон», иногда звучит, но если 95% относится только к большим , это ошибочное рассуждение для небольших выборок.
Небольшие выборки могут сделать очень трудным или невозможным оценить, подходит ли преобразование для данных, поскольку трудно сказать, принадлежат ли преобразованные данные (достаточно) нормальному распределению. Так что, если график QQ показывает очень позитивно искаженные данные, которые выглядят более разумными после взятия журналов, безопасно ли использовать t-тест для зарегистрированных данных? На больших выборках это было бы очень заманчиво, но с малым я бы, вероятно, сдержался, если бы не было оснований ожидать логарифмически нормального распределения.
Как насчет проверки допущений для непараметрических параметров? Некоторые источники рекомендуют проверять симметричное распределение перед применением теста Уилкоксона (рассматривая его как тест на местоположение, а не стохастическое доминирование), что вызывает аналогичные проблемы с проверкой нормальности. Если причиной, по которой мы применяем непараметрический тест, в первую очередь является слепое подчинение мантре «безопасность прежде всего», то трудность оценки асимметрии из небольшой выборки, по-видимому, приведет нас к более низкой мощности теста парного знака. ,
Имея в виду эти проблемы с небольшими выборками, существует ли хорошая - надеюсь, пригодная для цитирования - процедура для проработки при выборе между t и непараметрическими тестами?
Было несколько превосходных ответов, но также приветствовался бы ответ, рассматривающий другие альтернативы ранговым тестам, таким как тесты перестановки.
Ответы:
Я собираюсь изменить порядок вопросов о.
К сожалению, некоторые обсуждения этого вопроса в книгах и т. Д. Опираются на полученную мудрость. Иногда полученная мудрость разумна, а иногда и меньше (по крайней мере, в том смысле, что она имеет тенденцию фокусироваться на более мелкой проблеме, когда игнорируется более крупная проблема); мы должны тщательно изучить обоснования, предложенные для совета (если оно вообще предлагается).
Это правда, но это несколько ошибочно по нескольким причинам, на которые я обращаюсь в этом ответе.
Это (использовать его, если у вас нет оснований полагать, что отклонения должны быть равны) - это совет многочисленных ссылок. Я указываю на некоторых в этом ответе.
Некоторые ссылки на это можно увидеть здесь и здесь , хотя есть и другие, которые говорят подобные вещи.
Проблема равных отклонений имеет много сходных характеристик с проблемой нормальности - люди хотят ее проверять, совет предполагает, что выбор тестов по результатам тестов может отрицательно повлиять на результаты обоих видов последующих тестов - лучше просто не предполагать, что Вы не можете адекватно обосновать (рассуждая о данных, используя информацию из других исследований, относящихся к тем же переменным и т. д.).
Тем не менее, есть различия. Одна из них заключается в том, что, по крайней мере, с точки зрения распределения тестовой статистики при нулевой гипотезе (и, следовательно, ее устойчивости по уровню), ненормальность менее важна в больших выборках (по крайней мере, в отношении уровня значимости, хотя мощность может все еще будет проблемой, если вам нужно найти небольшие эффекты), в то время как эффект неравных отклонений при предположении равной дисперсии на самом деле не исчезает при большом размере выборки.
С проверкой гипотезы, что имеет значение (при некотором наборе условий) прежде всего две вещи:
Какова фактическая частота ошибок типа I?
Как выглядит силовое поведение?
Мы также должны помнить, что если мы сравниваем две процедуры, то при изменении первой изменится вторая (то есть, если они не выполняются на одном и том же фактическом уровне значимости, можно ожидать, что более высокий связан с высшая сила).α
Я рассмотрю ряд ситуаций, в которых я дам несколько рекомендаций, учитывая как возможность ненормальности, так и неравные отклонения. В каждом случае, упомяните t-тест, чтобы подразумевать тест Уэлча:
Ненормальный (или неизвестный), вероятно, имеет примерно равную дисперсию:
Если у дистрибутива тяжелый хвост, вам, как правило, будет лучше с Манном-Уитни, хотя, если он только немного тяжелый, t-тест должен пройти хорошо. С легкими хвостами t-критерий может (часто) быть предпочтительным. Тесты перестановки - хороший вариант (вы можете даже выполнить тест перестановки, используя t-статистику, если вы так склонны). Bootstrap тесты также подходят.
Не нормальная (или неизвестная), неравная дисперсия (или отношение дисперсии неизвестно):
Если распределение с тяжелыми хвостами, вам, как правило, будет лучше с Манном-Уитни - если неравенство дисперсии связано только с неравенством среднего значения, т. Е. Если H0 истинно, разница в разбросе также должна отсутствовать. GLM часто являются хорошим вариантом, особенно если есть асимметрия и распространение связано со средним значением. Тест перестановки - это еще один вариант, с тем же предостережением, что и для тестов на основе рангов. Bootstrap тесты хорошая возможность здесь.
Циммерман и Зумбо (1993) предлагают критерий Уэлча-т для рангов, который, по их словам, работает лучше, чем Уилкоксон-Манн-Уитни в случаях, когда различия не равны.[ 1 ]
ранговые тесты являются разумными значениями по умолчанию, если вы ожидаете ненормальности (опять же с приведенным выше предупреждением). Если у вас есть внешняя информация о форме или отклонении, вы можете рассмотреть GLM. Если вы ожидаете, что вещи не слишком далеки от нормальных, t-тесты могут подойти.
Из-за проблемы с получением подходящих уровней значимости ни тесты перестановки, ни тесты ранга не могут быть подходящими, и при наименьших размерах t-тест может быть лучшим вариантом (есть некоторая возможность его слегка робастифицировать). Тем не менее, есть хороший аргумент в пользу использования более высоких уровней ошибок типа I с небольшими выборками (в противном случае вы позволяете коэффициентам ошибок типа II увеличиваться при сохранении коэффициентов ошибок типа I постоянными). Также см. Де Винтер (2013) .[ 2 ]
Рекомендация должна быть несколько изменена, когда распределения сильно искажены и очень дискретны, например, элементы шкалы Лайкерта, где большинство наблюдений относятся к одной из конечных категорий. Тогда Уилкоксон-Манн-Уитни не обязательно лучший выбор, чем т-тест.
Моделирование может помочь в дальнейшем выборе, когда у вас есть некоторая информация о вероятных обстоятельствах.
Это является трудно проверить нормальность в небольшом наборе данных, а также в какой - то степени , что это важный вопрос, но я думаю , что есть еще один вопрос о важности , которую мы должны рассмотреть. Основная проблема заключается в том, что попытка оценить нормальность как основу выбора между тестами отрицательно влияет на свойства тестов, между которыми вы выбираете.
Вот пример ссылки (есть и другие), которая однозначна (Fay and Proschan, 2010 ):[ 3 ]
Они точно так же недвусмысленно не проверяют на равенство дисперсии.
Даже в больших выборках - асимптотическая нормальность числителя не означает, что t-статистика будет иметь t-распределение. Однако это может не иметь большого значения, так как у вас все еще должна быть асимптотическая нормальность (например, CLT для числителя и теорема Слуцкого предполагают, что в конечном итоге t-статистика должна начать выглядеть нормально, если выполняются условия для обоих).
Это на самом деле тот совет, который я упоминаю (или ссылку на упоминания).
Оба эти аргумента являются хорошими аргументами, особенно когда они подкреплены тем фактом, что критерий Стьюдента достаточно устойчив к умеренным отклонениям от нормы. (Однако следует иметь в виду, что «умеренные отклонения» - хитрая фраза; некоторые виды отклонений от нормальности могут немного повлиять на показатели мощности t-теста, даже если эти отклонения визуально очень малы - t- Тест менее устойчив к некоторым отклонениям, чем к другим. Мы должны помнить об этом всякий раз, когда обсуждаем небольшие отклонения от нормы.)
Остерегайтесь, однако, фразы «предположить, что переменная нормальная». Быть в достаточной степени совместимым с нормой - это не то же самое, что нормальность. Мы часто можем отклонить фактическую нормальность без необходимости даже просматривать данные - например, если данные не могут быть отрицательными, распределение не может быть нормальным. К счастью, то, что имеет значение, ближе к тому, что мы могли бы фактически получить из предыдущих исследований или рассуждений о том, как составляются данные, а именно, что отклонения от нормы должны быть небольшими.
Ну, это то, что мы можем оценить влияние довольно легко (например, с помощью моделирования, как я упоминал ранее). Из того, что я видел, асимметрия, кажется, имеет значение больше, чем тяжелые хвосты (но с другой стороны, я видел некоторые утверждения об обратном - хотя я не знаю, на чем это основано).
Но мы можем легко проверить мощность малых образцов! Имитировать кривые мощности достаточно просто, как здесь .[ 2 ]
(Опять же, см. Также де Винтер (2013) ).
Проведя такое моделирование при различных обстоятельствах, как для случаев с двумя выборками, так и для одной выборки / парной разности, малая эффективность выборки при норме в обоих случаях, по-видимому, немного ниже асимптотической эффективности, но эффективность число подписанных рангов и тестов Вилкоксона-Манна-Уитни все еще очень высоко даже при очень малых размерах выборки.
По крайней мере, если тесты проводятся на одном и том же уровне значимости; Вы не можете выполнить 5% -ный тест с очень маленькими выборками (и, по крайней мере, не без рандомизированных тестов, например), но если вы готовы, возможно, сделать (скажем) тест 5,5% или 3,2%, тогда тесты ранга действительно очень хорошо выдерживают сравнение с t-тестом на этом уровне значимости.
Есть другая альтернатива: сделайте другое параметрическое предположение. Например, если есть искаженные данные, можно, например, в некоторых ситуациях разумно рассматривать гамма-распределение или другое искаженное семейство в качестве лучшего приближения - в умеренно больших выборках мы могли бы просто использовать GLM, но в очень небольших выборках может возникнуть необходимость обратиться к тесту малой выборки - во многих случаях имитация может оказаться полезной.
Альтернатива 2: опробовать критерий Стьюдента (но позаботиться о выборе надежной процедуры, чтобы не сильно дискретизировать результирующее распределение статистики теста) - это имеет некоторые преимущества по сравнению с непараметрической процедурой с очень малой выборкой, такой как способность рассмотреть тесты с низким уровнем ошибок типа I.
Здесь я подумываю о том, как использовать, скажем, M-оценки местоположения (и соответствующие оценки масштаба) в t-статистике для плавного робастирования против отклонений от нормальности. Что-то похожее на Уэлч, например:
где и , т. д. являются надежными оценками местоположения и масштаба соответственно.S~2п= с~2ИксNИкс+ с~2YNY Икс~ s~Икс
Я бы стремился уменьшить любую тенденцию статистики к дискретности - поэтому я бы избегал таких вещей, как усечение и Winsorizing, поскольку, если исходные данные были дискретными, усечение и т. Д. Усугубят это; используя подходы M-оценки с гладкой функцией вы достигаете аналогичных эффектов, не внося свой вклад в дискретность. Имейте в виду, что мы пытаемся справиться с ситуацией, когда действительно очень мало (около 3-5, скажем, в каждой выборке), поэтому даже M-оценка потенциально имеет свои проблемы.ψ n
Например, вы можете использовать симуляцию по нормали, чтобы получить p-значения (если размеры выборки очень малы, я бы предложил перезагружать - если размеры выборки не так малы, тщательно внедренная начальная загрузка может быть достаточно хорошей. , но тогда мы могли бы также вернуться к Уилкоксон-Манн-Уитни). Там будет коэффициент масштабирования, а также корректировка df, чтобы получить то, что я представляю, тогда было бы разумным t-приближением. Это означает, что мы должны получить тот тип свойств, который ищем, очень близкий к нормальному, и должны иметь разумную устойчивость в широкой окрестности нормального. Существует ряд проблем, которые выходят за рамки настоящего вопроса, но я думаю, что в очень небольших выборках выгоды должны перевешивать затраты и дополнительные усилия.
[Я не читал литературу по этому вопросу в течение очень долгого времени, поэтому у меня нет подходящих ссылок на этот счет.]
Конечно, если вы не ожидали, что распределение будет несколько нормальным, но скорее похожим на какое-то другое распределение, вы можете провести подходящее повторное тестирование другого параметрического теста.
На самом деле. Я полагаю, вы имеете в виду подписанный тест ранга *. В случае использования его в парных данных, если вы готовы предположить, что эти два распределения имеют одинаковую форму, кроме сдвига местоположения, вы в безопасности, так как различия должны быть симметричными. На самом деле, нам даже не нужно так много; чтобы тест работал, вам нужна симметрия под нулем; в альтернативе это не требуется (например, рассмотрим парную ситуацию с асимметричными непрерывными распределениями правильной формы на положительной полуоси, где шкалы различаются по альтернативе, но не по нулю; тест рангов со знаком должен работать в основном так, как ожидается в тот случай). Интерпретация теста легче, если альтернативой является смещение местоположения.
* (Имя Уилкоксона связано как с одним, так и с двумя выборочными тестами ранга - знаком ранга и суммы рангов; с их тестом U Манн и Уитни обобщили ситуацию, изученную Уилкоксоном, и представили важные новые идеи для оценки нулевого распределения, но приоритет между двумя группами авторов по Уилкоксону-Манну-Уитни явно принадлежит Уилкоксону - поэтому, по крайней мере, если мы рассмотрим только Уилкоксона против Манна и Уитни, Уилкоксон идет первым в моей книге. Однако, кажется , Закон Стиглера побеждает меня снова, и Уилкоксон возможно, следует поделиться некоторыми из этих приоритетов с рядом более ранних авторов, и (помимо Манна и Уитни) следует поделиться кредитом с несколькими первооткрывателями эквивалентного теста. [4] [5])
Рекомендации
[1]: Zimmerman DW и Zumbo BN, (1993), Ранговые
преобразования и сила t-критерия Стьюдента и t-критерия Уэлча для ненормальных групп населения,
Canadian Journal Experimental Psychology, 47 : 523–39.
[2]: JCF de Winter (2013),
«Использование t-критерия Стьюдента с очень малыми размерами выборки»,
Практическая оценка, исследования и оценка , 18 : 10, август, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & п = 10
[3]: Майкл П. Фэй и Майкл А. Прошан (2010),
«Уилкоксон-Манн-Уитни или t-критерий? О допущениях для проверки гипотез и множественных интерпретаций правил принятия решений»,
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]: Берри К.Дж., Мильке П.В. и Джонстон Дж.Е. (2012),
«Тест ранговых сумм с двумя выборками : раннее развитие»,
Электронный журнал истории вероятностей и статистики , том 8, декабрь
pdf
[5]: Kruskal, WH (1957),
«Исторические заметки о непарном тесте Уилкоксона с двумя образцами»,
журнал Американской статистической ассоциации , 52 , 356–360.
источник
На мой взгляд, принципиальный подход признает, что (1) тесты и графические оценки нормальности имеют недостаточную чувствительность, а интерпретация графика часто не объективна, (2) многошаговые процедуры имеют неопределенные рабочие характеристики, (3) многие непараметрические тесты имеют отличные эксплуатационные характеристики в ситуациях, когда параметрические тесты имеют оптимальную мощность, и (4) правильное преобразование обычно не является тождественной функцией, а непараметрическимk t PY k - выборочные тесты инвариантны к выбранному преобразованию (не так для тестов с одной выборкой, таких как критерий ранга Вилкоксона). Что касается (2), многоэтапные процедуры особенно проблематичны в таких областях, как разработка лекарств, где надзорные органы, такие как FDA, по праву обеспокоены возможным манипулированием результатами. Например, недобросовестный исследователь может удобно забыть сообщить о тесте нормальности, если тест приводит к низкому значению.t P
Собирая все это вместе, предлагаемое руководство выглядит следующим образом:
Существует два типа допущений статистического метода, которые часто рассматриваются. Первый - это предположения, необходимые для того, чтобы метод сохранил ошибку типа I. Второе относится к сохранению ошибки типа II (оптимальность; чувствительность). Я полагаю, что лучший способ раскрыть допущения, необходимые для второго, состоит в том, чтобы встроить непараметрический тест в полупараметрическую модель, как это было сделано выше. Фактическая связь между ними основана на тестах Рао, которые основаны на полупараметрической модели. Числитель критерия оценки из модели пропорциональных шансов для случая с двумя выборками является в точности статистикой ранговых сумм.
источник
Рэнд Уилкокс в своих публикациях и книгах делает несколько очень важных замечаний, многие из которых были перечислены Фрэнком Харреллом и Гленом в предыдущих постах.
Некоторые ключевые предложения:
Двумя хорошими ссылками являются Wilcox ( 2010 ) и Wilcox ( 2012 ).
источник
Брэдли в своей работе « Статистические тесты без распределения» (1968, с. 17–24) приводит тринадцать контрастов между тем, что он называет «классическими» и «тестами без распределения». Обратите внимание, что Брэдли проводит различие между «непараметрическим» и «не распространяемым», но для целей вашего вопроса это различие не имеет значения. В эти тринадцать включены элементы, которые относятся не только к производным тестов, но и к их приложениям. Они включают:
источник
Начинаю отвечать на этот очень интересный вопрос.
Для непарных данных:
Мортен В. Фагерлэнд, Лейв Сандвик (за платной платформой) выполнил пять тестов местоположения с двумя выборками для искаженных распределений с неравными отклонениями -Уитни и Бруннер-Мунцель) для различных комбинаций размера выборки, соотношения выборки, отклонения от нормы и так далее. В конце концов, в статье предлагается Уэлч У в целом,
Но в приложении A к статье перечислены результаты для каждой комбинации размеров выборки. А для небольших размеров выборки (m = 10 n = 10 или 25) результаты более запутанные (как и ожидалось) - в моей оценке результатов (не авторов) Welch U, Brunner-Munzel, кажется, работает одинаково хорошо, и t-критерий также хорошо в случае m = 10 и n = 10.
Это то, что я знаю до сих пор.
В качестве «быстрого» решения я использовал цитату « Повышение осведомленности врачей о влиянии статистики на результаты исследований: сравнительная сила t-критерия и критерия Уилкоксона для ранговых сумм в прикладных исследованиях малых выборок» Патрика Д. Бриджа и Шломо С. Савиловски (также за платным доступом) и идите прямо к Уилкоксону, независимо от размера выборки, но будьте осторожны , например, должны ли мы всегда выбирать непараметрический тест при сравнении двух явно ненормальных распределений? Ева Сковлунд и Грете У. Фенста .
Я не нашел аналогичных результатов для парных данных.
источник
Учитывая следующие ссылки:
Является ли тестирование нормальности «по существу бесполезным»?
Нужен и лучший способ определить нормальность данных
Для упрощения, поскольку непараметрические тесты достаточно хороши даже для обычных данных, почему бы не использовать их всегда для небольших выборок.
источник
Моделирование разницы средних значений гамма-популяций
Сравнение t-теста и теста Манна Уитни
Сводка результатов
Эксперимент 1) Различные средства, одна и та же разница
Источники:
Распределение населения
Результаты симуляции
обсуждение
Обсуждение : когда дисперсия двух популяций действительно одинакова, критерий Манна-Уитни значительно превосходит критерий Стьюдента по мощности для небольшого размера выборки, но имеет более высокую частоту ошибок типа 1
Эксперимент 2: разные отклонения, одно и то же среднее
Обсуждение Результаты моделирования показывают, что t-критерий очень устойчив к различным отклонениям, а ошибка типа I близка к 5% для всех размеров выборки. Как и ожидалось, тест Манна Уитни в этом случае работает плохо, так как он проверяет не разницу в средствах, а разницу в распределениях.
источник