Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках

96

Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий Уилкоксона-Манна-Уитни, или парный тест знака. Как мы можем принять принципиальное решение о том, какой тест является наиболее подходящим, особенно если размер выборки «маленький»?

Многие вводные учебники и конспекты лекций дают подход «блок-схемы», в котором нормальность проверяется (или - неосознанно - с помощью теста нормальности, или, в более широком смысле, с помощью графика QQ или аналогичного), чтобы выбрать между t -тестом или непараметрическим тестом. Для непарного t- критерия с двумя выборками может быть проведена дополнительная проверка однородности дисперсии, чтобы решить, следует ли применять поправку Уэлча. Одной из проблем этого подхода является то, как решение о том, какой тест применять, зависит от наблюдаемых данных и как это влияет на производительность (мощность, коэффициент ошибок типа I) выбранного теста.

Другая проблема заключается в том, насколько трудна проверка нормальности в небольших наборах данных: формальное тестирование имеет низкое энергопотребление, поэтому нарушения вполне могут быть не обнаружены, но схожие проблемы возникают при просмотре данных на графике QQ. Даже вопиющие нарушения могут остаться незамеченными, например, если распределение является смешанным, но не было получено никаких наблюдений по одному компоненту смеси. В отличие от больших , мы не можем опираться на сеть безопасности центральной предельной теоремы, а также на асимптотическую нормальность тестовой статистики и t- распределения.n

Одним из принципиальных ответов на это является «безопасность прежде всего»: без возможности надежной проверки предположения о нормальности в небольшой выборке придерживайтесь непараметрических методов. Другой - рассмотреть любые основания для предположения нормальности, теоретически (например, переменная является суммой нескольких случайных компонентов и применяется CLT) или эмпирически (например, предыдущие исследования с большим предполагают, что переменная является нормальной), и использовать t- тест, только если такие основания существуют , Но это обычно только оправдывает приблизительную нормальность, и на низких степенях свободы трудно судить, насколько близко она должна быть к нормальной, чтобы избежать аннулирования t- теста.n

Большинство руководств по выбору t-критерия или непараметрического критерия сосредоточены на проблеме нормальности. Но маленькие образцы также поднимают некоторые побочные проблемы:

  • Если вы проводите «несвязанные образцы» или «непарный» t-тест, следует ли использовать поправку Уэлча ? Некоторые люди используют тест гипотезы на равенство дисперсий, но здесь он будет иметь низкую мощность; другие проверяют, являются ли SD «разумно» близкими или нет (по различным критериям). Разве безопаснее просто всегда использовать поправку Уэлча для небольших выборок, если только нет веских оснований полагать, что дисперсии населения равны?

  • Если вы видите выбор методов как компромисс между властью и устойчивостью, утверждения об асимптотической эффективности непараметрических методов бесполезны . Эмпирическое правило, что « тесты Уилкоксона дают около 95% мощности t-теста, если данные действительно нормальные , и часто гораздо более мощные, если данные не так, так что просто используйте Уилкоксон», иногда звучит, но если 95% относится только к большим , это ошибочное рассуждение для небольших выборок.n

  • Небольшие выборки могут сделать очень трудным или невозможным оценить, подходит ли преобразование для данных, поскольку трудно сказать, принадлежат ли преобразованные данные (достаточно) нормальному распределению. Так что, если график QQ показывает очень позитивно искаженные данные, которые выглядят более разумными после взятия журналов, безопасно ли использовать t-тест для зарегистрированных данных? На больших выборках это было бы очень заманчиво, но с малым я бы, вероятно, сдержался, если бы не было оснований ожидать логарифмически нормального распределения.n

  • Как насчет проверки допущений для непараметрических параметров? Некоторые источники рекомендуют проверять симметричное распределение перед применением теста Уилкоксона (рассматривая его как тест на местоположение, а не стохастическое доминирование), что вызывает аналогичные проблемы с проверкой нормальности. Если причиной, по которой мы применяем непараметрический тест, в первую очередь является слепое подчинение мантре «безопасность прежде всего», то трудность оценки асимметрии из небольшой выборки, по-видимому, приведет нас к более низкой мощности теста парного знака. ,

Имея в виду эти проблемы с небольшими выборками, существует ли хорошая - надеюсь, пригодная для цитирования - процедура для проработки при выборе между t и непараметрическими тестами?

Было несколько превосходных ответов, но также приветствовался бы ответ, рассматривающий другие альтернативы ранговым тестам, таким как тесты перестановки.

тарпон
источник
2
Я должен объяснить, каким может быть «метод выбора теста» - вводные тексты часто используют блок-схемы. Для непарных данных, возможно: «1. Используйте какой-либо метод, чтобы проверить, нормально ли распределены обе выборки (если нет, переходите к 3), 2. Используйте некоторый метод, чтобы проверить неравные отклонения: если так, выполните t-тест с двумя выборками с Коррекция Уэлча, если нет, выполняется без коррекции. 3. Попробуйте преобразовать данные в нормальное состояние (если работы переходят к 2, переходят к 4). 4. Вместо этого выполните U-тест (возможно, после проверки различных предположений). " Но многие из этих шагов кажутся неудовлетворительными для малых n, как я надеюсь, моя Q объясняет!
Серебряная рыба
2
Интересный вопрос (+1) и смелый ход, чтобы назначить награду. Ждем некоторых интересных ответов. Кстати, то, что я часто применяю в своей области, это тест на перестановку (вместо t-критерия или Манна-Уитни-Уилкоксона). Я думаю, это тоже можно считать достойным соперником. Кроме того, вы никогда не указывали, что вы подразумеваете под «небольшим размером выборки».
говорит амеба: восстанови монику
1
@Alexis Во многих книгах утверждается, что критерий Уилкоксона предполагает симметрию относительно медианы, по крайней мере, если результаты рассматриваются как утверждение о местоположении (некоторые рекомендуют проверить коробочный график: см. Мое обсуждение с Гленом выше / ответ Фрэнка Харрелла ниже об опасностях многошагового шага процедура). Также некоторые источники утверждают, что Уилкоксон-Манн-Уитни U предполагает, что групповые распределения различаются только по трансляции (и предлагают визуальную проверку на гистограммах или эмпирических CDF). Подпись U-тест может быть обусловлен различными формами распределения, даже если медианы равны. См. Также статьи, цитируемые в комментариях под ответом Фрэнка Харрелла.
Серебряная рыба
3
@Silverfish "если результаты рассматриваются как утверждение о местонахождении" Это важное предостережение, так как эти тесты, как правило, являются утверждениями о доказательствах для H , Принятие дополнительных предположений о распределении сужает область вывода (например, тесты на медианную разницу), но, как правило, не является обязательным условием для тестов. 0:P(XA>XB)=0.5
Алексис
2
Возможно, стоит исследовать, насколько «ошибочна» аргументация «95% мощности для Уилкоксона» для небольших выборок (отчасти это зависит от того, что именно делают, а насколько мало - мало). Например, если вы готовы провести тесты, скажем, 5,5% вместо 5%, если это будет ближайший подходящий достижимый уровень значимости, мощность часто имеет тенденцию держаться достаточно хорошо. Как только вы, конечно, сможете - на этапе «расчета мощности», прежде чем собирать данные, - выясните, какими могут быть обстоятельства, и получите представление о том, каковы свойства Уилкоксона при размерах выборки, которые вы рассматриваете.
Glen_b

Ответы:

67

Я собираюсь изменить порядок вопросов о.

Я обнаружил, что учебники и конспекты лекций часто не согласны, и хотел бы, чтобы система работала с выбором, который можно было бы смело рекомендовать в качестве наилучшей практики, и особенно учебник или статья, на которую можно сослаться.

К сожалению, некоторые обсуждения этого вопроса в книгах и т. Д. Опираются на полученную мудрость. Иногда полученная мудрость разумна, а иногда и меньше (по крайней мере, в том смысле, что она имеет тенденцию фокусироваться на более мелкой проблеме, когда игнорируется более крупная проблема); мы должны тщательно изучить обоснования, предложенные для совета (если оно вообще предлагается).

Большинство руководств по выбору t-критерия или непараметрического критерия сосредоточены на проблеме нормальности.

Это правда, но это несколько ошибочно по нескольким причинам, на которые я обращаюсь в этом ответе.

Если вы проводите «несвязанные образцы» или «непарный» t-тест, следует ли использовать поправку Уэлча?

Это (использовать его, если у вас нет оснований полагать, что отклонения должны быть равны) - это совет многочисленных ссылок. Я указываю на некоторых в этом ответе.

Некоторые люди используют тест гипотезы на равенство дисперсий, но здесь он будет иметь низкую мощность. Как правило, я просто проверяю, достаточно ли близки выборочные значения SD (достаточно субъективно, поэтому должен быть более принципиальный способ сделать это), но, опять же, при низком n вполне возможно, что SD для популяций гораздо дальше кроме образцов.

Разве безопаснее просто всегда использовать поправку Уэлча для небольших выборок, если только нет веских оснований полагать, что дисперсии населения равны? Вот что такое совет. На свойства тестов влияет выбор, основанный на допущении теста.

Некоторые ссылки на это можно увидеть здесь и здесь , хотя есть и другие, которые говорят подобные вещи.

Проблема равных отклонений имеет много сходных характеристик с проблемой нормальности - люди хотят ее проверять, совет предполагает, что выбор тестов по результатам тестов может отрицательно повлиять на результаты обоих видов последующих тестов - лучше просто не предполагать, что Вы не можете адекватно обосновать (рассуждая о данных, используя информацию из других исследований, относящихся к тем же переменным и т. д.).

Тем не менее, есть различия. Одна из них заключается в том, что, по крайней мере, с точки зрения распределения тестовой статистики при нулевой гипотезе (и, следовательно, ее устойчивости по уровню), ненормальность менее важна в больших выборках (по крайней мере, в отношении уровня значимости, хотя мощность может все еще будет проблемой, если вам нужно найти небольшие эффекты), в то время как эффект неравных отклонений при предположении равной дисперсии на самом деле не исчезает при большом размере выборки.

Какой принципиальный метод может быть рекомендован для выбора наиболее подходящего теста, когда размер выборки «маленький»?

С проверкой гипотезы, что имеет значение (при некотором наборе условий) прежде всего две вещи:

  • Какова фактическая частота ошибок типа I?

  • Как выглядит силовое поведение?

Мы также должны помнить, что если мы сравниваем две процедуры, то при изменении первой изменится вторая (то есть, если они не выполняются на одном и том же фактическом уровне значимости, можно ожидать, что более высокий связан с высшая сила).α

Имея в виду эти проблемы с небольшими выборками, существует ли хороший - надеюсь, пригодный для цитирования - контрольный список для проработки при выборе между t и непараметрическими тестами?

Я рассмотрю ряд ситуаций, в которых я дам несколько рекомендаций, учитывая как возможность ненормальности, так и неравные отклонения. В каждом случае, упомяните t-тест, чтобы подразумевать тест Уэлча:

  • средне-крупный

Ненормальный (или неизвестный), вероятно, имеет примерно равную дисперсию:

Если у дистрибутива тяжелый хвост, вам, как правило, будет лучше с Манном-Уитни, хотя, если он только немного тяжелый, t-тест должен пройти хорошо. С легкими хвостами t-критерий может (часто) быть предпочтительным. Тесты перестановки - хороший вариант (вы можете даже выполнить тест перестановки, используя t-статистику, если вы так склонны). Bootstrap тесты также подходят.

Не нормальная (или неизвестная), неравная дисперсия (или отношение дисперсии неизвестно):

Если распределение с тяжелыми хвостами, вам, как правило, будет лучше с Манном-Уитни - если неравенство дисперсии связано только с неравенством среднего значения, т. Е. Если H0 истинно, разница в разбросе также должна отсутствовать. GLM часто являются хорошим вариантом, особенно если есть асимметрия и распространение связано со средним значением. Тест перестановки - это еще один вариант, с тем же предостережением, что и для тестов на основе рангов. Bootstrap тесты хорошая возможность здесь.

Циммерман и Зумбо (1993) предлагают критерий Уэлча-т для рангов, который, по их словам, работает лучше, чем Уилкоксон-Манн-Уитни в случаях, когда различия не равны.[1]

  • п умеренно маленький

ранговые тесты являются разумными значениями по умолчанию, если вы ожидаете ненормальности (опять же с приведенным выше предупреждением). Если у вас есть внешняя информация о форме или отклонении, вы можете рассмотреть GLM. Если вы ожидаете, что вещи не слишком далеки от нормальных, t-тесты могут подойти.

  • п очень маленький

Из-за проблемы с получением подходящих уровней значимости ни тесты перестановки, ни тесты ранга не могут быть подходящими, и при наименьших размерах t-тест может быть лучшим вариантом (есть некоторая возможность его слегка робастифицировать). Тем не менее, есть хороший аргумент в пользу использования более высоких уровней ошибок типа I с небольшими выборками (в противном случае вы позволяете коэффициентам ошибок типа II увеличиваться при сохранении коэффициентов ошибок типа I постоянными). Также см. Де Винтер (2013) .[2]

Рекомендация должна быть несколько изменена, когда распределения сильно искажены и очень дискретны, например, элементы шкалы Лайкерта, где большинство наблюдений относятся к одной из конечных категорий. Тогда Уилкоксон-Манн-Уитни не обязательно лучший выбор, чем т-тест.

Моделирование может помочь в дальнейшем выборе, когда у вас есть некоторая информация о вероятных обстоятельствах.

Я ценю, что это что-то из вечной темы, но большинство вопросов касаются конкретного набора данных спрашивающего, иногда более общего обсуждения силы, а иногда и того, что делать, если два теста не согласны, но я хотел бы, чтобы процедура выбрала правильный тест в первое место!

Основная проблема заключается в том, насколько сложно проверить допущение нормальности в небольшом наборе данных:

Это является трудно проверить нормальность в небольшом наборе данных, а также в какой - то степени , что это важный вопрос, но я думаю , что есть еще один вопрос о важности , которую мы должны рассмотреть. Основная проблема заключается в том, что попытка оценить нормальность как основу выбора между тестами отрицательно влияет на свойства тестов, между которыми вы выбираете.

Любой формальный тест на нормальность будет иметь низкую мощность, поэтому нарушения вполне могут быть не обнаружены. (Лично я не буду тестировать для этой цели, и я явно не одинок, но я нашел это небольшое применение, когда клиенты требуют проведения теста на нормальность, потому что это то, что их учебник или старые лекционные заметки или какой-то веб-сайт, который они нашли однажды объявить должно быть сделано. Это один из моментов, где приветствуется более весомая цитата.)

Вот пример ссылки (есть и другие), которая однозначна (Fay and Proschan, 2010 ):[3]

Выбор между t- и WMW DR не должен основываться на проверке нормальности.

Они точно так же недвусмысленно не проверяют на равенство дисперсии.

Что еще хуже, небезопасно использовать центральную предельную теорему в качестве защитной сетки: при малых n мы не можем полагаться на удобную асимптотическую нормальность тестовой статистики и t-распределения.

Даже в больших выборках - асимптотическая нормальность числителя не означает, что t-статистика будет иметь t-распределение. Однако это может не иметь большого значения, так как у вас все еще должна быть асимптотическая нормальность (например, CLT для числителя и теорема Слуцкого предполагают, что в конечном итоге t-статистика должна начать выглядеть нормально, если выполняются условия для обоих).

Одним из принципиальных ответов на это является «безопасность прежде всего»: поскольку нет способа надежно проверить допущение нормальности для небольшой выборки, вместо этого запустите эквивалентный непараметрический тест.

Это на самом деле тот совет, который я упоминаю (или ссылку на упоминания).

Другой подход, который я видел, но чувствую себя менее комфортно, состоит в том, чтобы выполнить визуальную проверку и выполнить t-тест, если ничего не наблюдается («нет причин отклонять нормальность», игнорируя низкую мощность этой проверки). Моя личная склонность состоит в том, чтобы рассмотреть, есть ли основания предполагать нормальность, теоретическую (например, переменная является суммой нескольких случайных компонентов и применяется CLT) или эмпирическую (например, предыдущие исследования с большим n предполагают, что переменная является нормальной).

Оба эти аргумента являются хорошими аргументами, особенно когда они подкреплены тем фактом, что критерий Стьюдента достаточно устойчив к умеренным отклонениям от нормы. (Однако следует иметь в виду, что «умеренные отклонения» - хитрая фраза; некоторые виды отклонений от нормальности могут немного повлиять на показатели мощности t-теста, даже если эти отклонения визуально очень малы - t- Тест менее устойчив к некоторым отклонениям, чем к другим. Мы должны помнить об этом всякий раз, когда обсуждаем небольшие отклонения от нормы.)

Остерегайтесь, однако, фразы «предположить, что переменная нормальная». Быть в достаточной степени совместимым с нормой - это не то же самое, что нормальность. Мы часто можем отклонить фактическую нормальность без необходимости даже просматривать данные - например, если данные не могут быть отрицательными, распределение не может быть нормальным. К счастью, то, что имеет значение, ближе к тому, что мы могли бы фактически получить из предыдущих исследований или рассуждений о том, как составляются данные, а именно, что отклонения от нормы должны быть небольшими.

Если это так, я бы использовал t-тест, если данные прошли визуальный осмотр, и в противном случае придерживался непараметрических параметров. Но любые теоретические или эмпирические основания обычно оправдывают лишь предположение о приблизительной нормальности, и по низким степеням свободы трудно судить, насколько это близко к норме, чтобы избежать аннулирования t-теста.

Ну, это то, что мы можем оценить влияние довольно легко (например, с помощью моделирования, как я упоминал ранее). Из того, что я видел, асимметрия, кажется, имеет значение больше, чем тяжелые хвосты (но с другой стороны, я видел некоторые утверждения об обратном - хотя я не знаю, на чем это основано).

Для людей, которые рассматривают выбор методов как компромисс между властью и надежностью, заявления об асимптотической эффективности непараметрических методов бесполезны. Например, практическое правило, согласно которому «тесты Уилкоксона дают около 95% мощности t-теста, если данные действительно нормальные, и часто гораздо более мощное, если данные не так, поэтому просто используйте Уилкоксон», иногда слышал, но если 95% относится только к большим n, это ошибочное рассуждение для небольших выборок.

Но мы можем легко проверить мощность малых образцов! Имитировать кривые мощности достаточно просто, как здесь .
(Опять же, см. Также де Винтер (2013) ).[2]

Проведя такое моделирование при различных обстоятельствах, как для случаев с двумя выборками, так и для одной выборки / парной разности, малая эффективность выборки при норме в обоих случаях, по-видимому, немного ниже асимптотической эффективности, но эффективность число подписанных рангов и тестов Вилкоксона-Манна-Уитни все еще очень высоко даже при очень малых размерах выборки.

По крайней мере, если тесты проводятся на одном и том же уровне значимости; Вы не можете выполнить 5% -ный тест с очень маленькими выборками (и, по крайней мере, не без рандомизированных тестов, например), но если вы готовы, возможно, сделать (скажем) тест 5,5% или 3,2%, тогда тесты ранга действительно очень хорошо выдерживают сравнение с t-тестом на этом уровне значимости.

Небольшие выборки могут сделать очень трудным или невозможным оценить, подходит ли преобразование для данных, поскольку трудно сказать, принадлежат ли преобразованные данные (достаточно) нормальному распределению. Так что, если график QQ показывает очень позитивно искаженные данные, которые выглядят более разумными после взятия журналов, безопасно ли использовать t-тест для зарегистрированных данных? На больших выборках это было бы очень заманчиво, но с малым n я бы, вероятно, сдержался, если бы не было оснований ожидать логарифмически нормального распределения.

Есть другая альтернатива: сделайте другое параметрическое предположение. Например, если есть искаженные данные, можно, например, в некоторых ситуациях разумно рассматривать гамма-распределение или другое искаженное семейство в качестве лучшего приближения - в умеренно больших выборках мы могли бы просто использовать GLM, но в очень небольших выборках может возникнуть необходимость обратиться к тесту малой выборки - во многих случаях имитация может оказаться полезной.

Альтернатива 2: опробовать критерий Стьюдента (но позаботиться о выборе надежной процедуры, чтобы не сильно дискретизировать результирующее распределение статистики теста) - это имеет некоторые преимущества по сравнению с непараметрической процедурой с очень малой выборкой, такой как способность рассмотреть тесты с низким уровнем ошибок типа I.

Здесь я подумываю о том, как использовать, скажем, M-оценки местоположения (и соответствующие оценки масштаба) в t-статистике для плавного робастирования против отклонений от нормальности. Что-то похожее на Уэлч, например:

xySp

где и , т. д. являются надежными оценками местоположения и масштаба соответственно.Sp2=sx2nx+sy2nyxsx

Я бы стремился уменьшить любую тенденцию статистики к дискретности - поэтому я бы избегал таких вещей, как усечение и Winsorizing, поскольку, если исходные данные были дискретными, усечение и т. Д. Усугубят это; используя подходы M-оценки с гладкой функцией вы достигаете аналогичных эффектов, не внося свой вклад в дискретность. Имейте в виду, что мы пытаемся справиться с ситуацией, когда действительно очень мало (около 3-5, скажем, в каждой выборке), поэтому даже M-оценка потенциально имеет свои проблемы.ψn

Например, вы можете использовать симуляцию по нормали, чтобы получить p-значения (если размеры выборки очень малы, я бы предложил перезагружать - если размеры выборки не так малы, тщательно внедренная начальная загрузка может быть достаточно хорошей. , но тогда мы могли бы также вернуться к Уилкоксон-Манн-Уитни). Там будет коэффициент масштабирования, а также корректировка df, чтобы получить то, что я представляю, тогда было бы разумным t-приближением. Это означает, что мы должны получить тот тип свойств, который ищем, очень близкий к нормальному, и должны иметь разумную устойчивость в широкой окрестности нормального. Существует ряд проблем, которые выходят за рамки настоящего вопроса, но я думаю, что в очень небольших выборках выгоды должны перевешивать затраты и дополнительные усилия.

[Я не читал литературу по этому вопросу в течение очень долгого времени, поэтому у меня нет подходящих ссылок на этот счет.]

Конечно, если вы не ожидали, что распределение будет несколько нормальным, но скорее похожим на какое-то другое распределение, вы можете провести подходящее повторное тестирование другого параметрического теста.

Что если вы хотите проверить допущения для непараметрических параметров? Некоторые источники рекомендуют проверять симметричное распределение перед применением теста Уилкоксона, что вызывает аналогичные проблемы с проверкой нормальности.

На самом деле. Я полагаю, вы имеете в виду подписанный тест ранга *. В случае использования его в парных данных, если вы готовы предположить, что эти два распределения имеют одинаковую форму, кроме сдвига местоположения, вы в безопасности, так как различия должны быть симметричными. На самом деле, нам даже не нужно так много; чтобы тест работал, вам нужна симметрия под нулем; в альтернативе это не требуется (например, рассмотрим парную ситуацию с асимметричными непрерывными распределениями правильной формы на положительной полуоси, где шкалы различаются по альтернативе, но не по нулю; тест рангов со знаком должен работать в основном так, как ожидается в тот случай). Интерпретация теста легче, если альтернативой является смещение местоположения.

* (Имя Уилкоксона связано как с одним, так и с двумя выборочными тестами ранга - знаком ранга и суммы рангов; с их тестом U Манн и Уитни обобщили ситуацию, изученную Уилкоксоном, и представили важные новые идеи для оценки нулевого распределения, но приоритет между двумя группами авторов по Уилкоксону-Манну-Уитни явно принадлежит Уилкоксону - поэтому, по крайней мере, если мы рассмотрим только Уилкоксона против Манна и Уитни, Уилкоксон идет первым в моей книге. Однако, кажется , Закон Стиглера побеждает меня снова, и Уилкоксон возможно, следует поделиться некоторыми из этих приоритетов с рядом более ранних авторов, и (помимо Манна и Уитни) следует поделиться кредитом с несколькими первооткрывателями эквивалентного теста. [4] [5])

Рекомендации

[1]: Zimmerman DW и Zumbo BN, (1993), Ранговые
преобразования и сила t-критерия Стьюдента и t-критерия Уэлча для ненормальных групп населения,
Canadian Journal Experimental Psychology, 47 : 523–39.

[2]: JCF de Winter (2013),
«Использование t-критерия Стьюдента с очень малыми размерами выборки»,
Практическая оценка, исследования и оценка , 18 : 10, август, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & п = 10

[3]: Майкл П. Фэй и Майкл А. Прошан (2010),
«Уилкоксон-Манн-Уитни или t-критерий? О допущениях для проверки гипотез и множественных интерпретаций правил принятия решений»,
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Берри К.Дж., Мильке П.В. и Джонстон Дж.Е. (2012),
«Тест ранговых сумм с двумя выборками : раннее развитие»,
Электронный журнал истории вероятностей и статистики , том 8, декабрь
pdf

[5]: Kruskal, WH (1957),
«Исторические заметки о непарном тесте Уилкоксона с двумя образцами»,
журнал Американской статистической ассоциации , 52 , 356–360.

Glen_b
источник
Несколько вещей, которые я хотел бы уточнить. Есть несколько моментов, в которых вы упоминаете, например, «Если дистрибутив тяжелохвост, ...» (или искажен и т. Д.) - вероятно, это следует читать как «если разумно предположить, что дистрибутив будет хэвлэйт» (из теории / предыдущие исследования / все, что угодно), а не "если выборка тяжелохвостая", в противном случае мы снова вернемся к многоэтапному тестированию, чего мы стараемся избегать? (Мне кажется, что центральным вопросом в этой теме является то, как обосновать убеждения или предположения о распределениях, не слишком вдаваясь в выборку.)
Silverfish
Да, это следует понимать как «население, как известно, с тяжелым хвостом, или можно разумно ожидать, что оно с тяжелым хвостом». Это, конечно, включает в себя такие вещи, как теория (или иногда даже общие рассуждения о ситуации, которая не совсем достигает статуса теории ), экспертные знания и предыдущие исследования. Это не означает, что нужно проводить тесты на тяжелую хвостность. В ситуациях, когда это просто неизвестно, возможно, стоит выяснить, насколько плохие вещи могут быть в разных дистрибутивах, что может быть правдоподобно для конкретной ситуации, в которой вы находитесь.
Glen_b
Есть ли шанс, что этот и без того превосходный ответ может содержать чуть больше подробностей о том, какие могут быть варианты для «робастизации» t-теста?
Серебряная рыба
Серебряная рыбка - я не уверена, достаточно ли я ответила на ваш вопрос, попросив подробностей об робостификации. Я добавлю немного больше сейчас.
Glen_b
Большое спасибо за добавление, я подумал, что многое добавило к качеству этого ответа. Теперь этот вопрос немного успокоился и породил хороший набор ответов. Я хотел бы дать оригинальному вопросу хорошее копирование-редактирование и удалить все, что могло бы ввести в заблуждение (в интересах читателей, которые не читают в прошлом вопрос!). Это нормально, когда я делаю соответствующие изменения в вашем ответе, чтобы цитаты соответствовали реорганизованному вопросу?
Серебряная
22

На мой взгляд, принципиальный подход признает, что (1) тесты и графические оценки нормальности имеют недостаточную чувствительность, а интерпретация графика часто не объективна, (2) многошаговые процедуры имеют неопределенные рабочие характеристики, (3) многие непараметрические тесты имеют отличные эксплуатационные характеристики в ситуациях, когда параметрические тесты имеют оптимальную мощность, и (4) правильное преобразование обычно не является тождественной функцией, а непараметрическимk t PYk- выборочные тесты инвариантны к выбранному преобразованию (не так для тестов с одной выборкой, таких как критерий ранга Вилкоксона). Что касается (2), многоэтапные процедуры особенно проблематичны в таких областях, как разработка лекарств, где надзорные органы, такие как FDA, по праву обеспокоены возможным манипулированием результатами. Например, недобросовестный исследователь может удобно забыть сообщить о тесте нормальности, если тест приводит к низкому значению.tP

Собирая все это вместе, предлагаемое руководство выглядит следующим образом:

  1. Если нет веских оснований предполагать распределение Гаусса перед проверкой данных, и нет необходимости в ковариатной корректировке, используйте непараметрический критерий.
  2. Если необходима ковариатная корректировка, используйте обобщенную полупараметрическую регрессию рангового критерия, который вы предпочитаете. Для теста Уилкоксона это модель пропорциональных шансов, а для теста с нормальными баллами - это порядковая регрессия пробита.

t3πY

kkloglogссылка порядковая модель кумулятивной вероятности распределения предполагаются в пропорциональной опасности. Для модели совокупной вероятности логит-линка (модели пропорциональных коэффициентов) предполагается, что распределения связаны с предположениями о пропорциональных коэффициентах, т. Е. Логиты функций накопленного распределения параллельны. Форма одного из распределений не имеет значения. Подробности можно найти в http://biostat.mc.vanderbilt.edu/CourseBios330 в главе 15 раздаточных материалов.

Существует два типа допущений статистического метода, которые часто рассматриваются. Первый - это предположения, необходимые для того, чтобы метод сохранил ошибку типа I. Второе относится к сохранению ошибки типа II (оптимальность; чувствительность). Я полагаю, что лучший способ раскрыть допущения, необходимые для второго, состоит в том, чтобы встроить непараметрический тест в полупараметрическую модель, как это было сделано выше. Фактическая связь между ними основана на тестах Рао, которые основаны на полупараметрической модели. Числитель критерия оценки из модели пропорциональных шансов для случая с двумя выборками является в точности статистикой ранговых сумм.

Фрэнк Харрелл
источник
1
Спасибо за это, я очень сочувствую философии этого ответа - например, многие источники предлагают, чтобы я хотя бы проверил данные на предмет нормальности, прежде чем выбрать тест. Но этот вид многоэтапной процедуры явно, хотя и незаметно, влияет на работу тестов.
Серебряная рыба
1
nn=15
3
10000p
4
Тесты перестановки - это способы контроля ошибки типа I, но они не учитывают ошибку типа II. Тест перестановки, основанный на неоптимальной статистике (например, обычное среднее значение и дисперсия, когда данные поступают из лог-гауссова распределения), пострадает с точки зрения мощности.
Фрэнк Харрелл
3
Да Глава 15 в раздаточных материалах расширена в новую главу в следующем 2-м издании моей книги, которую я представлю издателю в следующем месяце.
Фрэнк Харрелл
13

Рэнд Уилкокс в своих публикациях и книгах делает несколько очень важных замечаний, многие из которых были перечислены Фрэнком Харреллом и Гленом в предыдущих постах.

  1. Среднее значение не обязательно является количеством, о котором мы хотим сделать выводы. Возможно, есть и другие величины, которые лучше иллюстрируют типичное наблюдение.
  2. Для t-тестов мощность может быть низкой даже при небольших отклонениях от нормы.
  3. Для t-тестов наблюдаемое покрытие вероятности может существенно отличаться от номинального.

Некоторые ключевые предложения:

  1. Надежной альтернативой является сравнение усеченных средних или М-оценок с использованием t-критерия. Уилкокс предлагает 20% обрезанные средства.
  2. Методы эмпирического правдоподобия теоретически более выгодны ( Owen, 2001 ), но не обязательно так для средних и малых n.
  3. Тесты перестановок хороши, если нужно контролировать ошибку типа I, но нельзя получить CI.
  4. Для многих ситуаций Wilcox предлагает bootstrap-t для сравнения обрезанных средств. В R это реализовано в функциях yuenbt , yhbt в пакете WRS .
  5. Проценттичный бутстрап может быть лучше, чем процентиль-т, когда количество обрезки> / = 20%. В R это реализовано в функции pb2gen в вышеупомянутом пакете WRS .

Двумя хорошими ссылками являются Wilcox ( 2010 ) и Wilcox ( 2012 ).

Томас Шпайдель
источник
8

Брэдли в своей работе « Статистические тесты без распределения» (1968, с. 17–24) приводит тринадцать контрастов между тем, что он называет «классическими» и «тестами без распределения». Обратите внимание, что Брэдли проводит различие между «непараметрическим» и «не распространяемым», но для целей вашего вопроса это различие не имеет значения. В эти тринадцать включены элементы, которые относятся не только к производным тестов, но и к их приложениям. Они включают:

  • Выбор уровня значимости: классические тесты имеют постоянные уровни значимости; Тесты без распределения обычно имеют дискретные наблюдения уровней значимости, поэтому классические тесты предлагают большую гибкость в настройке указанного уровня.
  • Логическая обоснованность области отклонения. Области отклонения теста без распределения могут быть менее интуитивно понятными (не обязательно гладкими или непрерывными) и могут привести к путанице относительно того, когда следует считать, что тест отклонил нулевую гипотезу.
  • Тип статистики, которая подлежит проверке: Процитируем непосредственно Брэдли: « Статистические данные, определенные в виде арифметических операций по величинам наблюдения, могут быть проверены классическими методами, тогда как эти, определяемые отношениями порядка (ранга) или частотами категорий и т. Д., Могут быть проверены Методы без распределения. Средние значения и отклонения являются примерами первого и средних и межквартильных диапазонов второго. «Особенно при работе с ненормальными распределениями становится полезной способность проверять другие статистические данные, придавая вес тестам без распределения. ,
  • Тестируемость взаимодействий высшего порядка: намного проще в классических тестах, чем в тестах без распространения.
  • Влияние размера выборки:Это довольно важный, на мой взгляд. Когда размеры выборки малы (Брэдли говорит около n = 10), может быть очень трудно определить, были ли нарушены параметрические предположения, лежащие в основе классических тестов, или нет. В тестах без распространения эти допущения не нарушаются. Более того, даже если предположения не были нарушены, тесты без распространения часто почти так же просты в применении и почти так же эффективны, как тесты. Таким образом, для небольших размеров выборки (менее 10, возможно до 30) Брэдли предпочитает почти обычное применение тестов без распространения. Для больших размеров выборки Центральная предельная теорема имеет тенденцию подавлять параметрические нарушения в том смысле, что среднее значение выборки и дисперсия выборки будут стремиться к норме, а параметрические тесты могут быть более эффективными с точки зрения эффективности.
  • Сфера применения. Будучи свободными от распространения, такие тесты применимы к гораздо большему классу групп населения, чем классические тесты, предполагающие конкретное распределение.
  • Обнаруживаемость нарушения предположения о непрерывном распределении: Легко увидеть в тестах без распределения (например, наличие связанных оценок), сложнее в параметрических тестах.
  • Эффект нарушения предположения о непрерывном распределении: если допущение нарушено, проверка становится неточной. Брэдли тратит время, объясняя, как можно оценить границы неточности для тестов без распределения, но для классических тестов аналогичной процедуры нет.
Авраам
источник
1
Спасибо за цитату! Работа Брэдли кажется довольно старой, поэтому я подозреваю, что в современных исследованиях по моделированию не так много работы для сравнения эффективности и частоты ошибок типа I / II в различных сценариях? Мне также было бы интересно узнать, что он предлагает о тестах Бруннера-Мунцеля - следует ли их использовать вместо теста U, если известно, что дисперсии в двух группах не равны?
Серебряная рыба
1
Брэдли действительно обсуждает эффективность, хотя в большинстве случаев речь идет об асимптотической относительной эффективности. Иногда он приводит источники для заявлений о конечной эффективности выборки, но поскольку работа началась в 1968 году, я уверен, что с тех пор был проведен гораздо лучший анализ. Говоря о том, что, если я правильно понял, Бруннер и Мунцель написали свою статью в 2000 году , которая объясняет, почему в Брэдли нет упоминаний об этом.
Авраам
Да, это действительно объясняет это! :) Знаете ли вы, есть ли более актуальный опрос, чем Брэдли?
Серебряная рыба
Краткий поиск показывает, что в последнее время есть много текстов по непараметрической статистике. Например: Непараметрические статистические методы (Холландер и др., 2013), Непараметрическая проверка гипотез: методы ранга и перестановки с приложениями в R (Боннини и др., 2014), Непараметрический статистический вывод, пятое издание (Гиббонс и Чакраборти, 2010). Есть много других, которые встречаются в различных поисках. Так как у меня их нет, я не могу давать никаких рекомендаций. Сожалею.
Авраам
5

Начинаю отвечать на этот очень интересный вопрос.

Для непарных данных:

Мортен В. Фагерлэнд, Лейв Сандвик (за платной платформой) выполнил пять тестов местоположения с двумя выборками для искаженных распределений с неравными отклонениями -Уитни и Бруннер-Мунцель) для различных комбинаций размера выборки, соотношения выборки, отклонения от нормы и так далее. В конце концов, в статье предлагается Уэлч У в целом,

Но в приложении A к статье перечислены результаты для каждой комбинации размеров выборки. А для небольших размеров выборки (m = 10 n = 10 или 25) результаты более запутанные (как и ожидалось) - в моей оценке результатов (не авторов) Welch U, Brunner-Munzel, кажется, работает одинаково хорошо, и t-критерий также хорошо в случае m = 10 и n = 10.

Это то, что я знаю до сих пор.

В качестве «быстрого» решения я использовал цитату « Повышение осведомленности врачей о влиянии статистики на результаты исследований: сравнительная сила t-критерия и критерия Уилкоксона для ранговых сумм в прикладных исследованиях малых выборок» Патрика Д. Бриджа и Шломо С. Савиловски (также за платным доступом) и идите прямо к Уилкоксону, независимо от размера выборки, но будьте осторожны , например, должны ли мы всегда выбирать непараметрический тест при сравнении двух явно ненормальных распределений? Ева Сковлунд и Грете У. Фенста .

Я не нашел аналогичных результатов для парных данных.

Жак Вайнер
источник
Я ценю цитаты! Для пояснения, упоминается ли «Welch U», тот же самый тест, также известный как «Welch t» или «Welch-Aspin t» или (как я, возможно, неправильно назвал это в вопросе) «t тест с поправкой Уэлча» ?
Серебряная рыба
Насколько я понимаю из статьи, Уэлч У - не обычный Уэлч-Аспин - он использует не уравнение Уэлча-Саттерсвэйта для степеней свободы, а формулу, которая имеет разность куба и квадрата образца. размер.
Жак Вайнер,
Это все еще т-тест, несмотря на его название? Везде, где я ищу «Уэлч У», я нахожу, что это относится к Уэлчу-Аспину, что разочаровывает.
Серебряная рыба
3

Учитывая следующие ссылки:

Является ли тестирование нормальности «по существу бесполезным»?

Нужен и лучший способ определить нормальность данных

Для упрощения, поскольку непараметрические тесты достаточно хороши даже для обычных данных, почему бы не использовать их всегда для небольших выборок.

rnso
источник
1

Моделирование разницы средних значений гамма-популяций

Сравнение t-теста и теста Манна Уитни

Сводка результатов

  • Когда дисперсия двух популяций одинакова, критерий Манна-Уитни имеет большую истинную мощность, но также и большую истинную ошибку типа 1, чем t-критерий.
  • H0
  • Когда дисперсия двух популяций различна, тогда критерий Манна-Уитни приводит к большой ошибке типа 1, даже если средние значения одинаковы. Это ожидается, поскольку Манн Уитни проверяет разницу в распределениях, а не в средствах.
  • Т-тест устойчив к различиям в дисперсии, но идентичные средние

Эксперимент 1) Различные средства, одна и та же разница

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Источники:

Распределение населения

введите описание изображения здесь

Результаты симуляции

введите описание изображения здесь

обсуждение

  • N=10
  • Для всех размеров выборки критерий Манна-Уитни имеет большую мощность, чем критерий Стьюдента, а в некоторых случаях в 2 раза
  • Для всех размеров выборок тест Манна Уитни имеет большую ошибку типа I, и это в 2–3 раза
  • t-тест имеет низкую мощность для небольшого размера выборки

Обсуждение : когда дисперсия двух популяций действительно одинакова, критерий Манна-Уитни значительно превосходит критерий Стьюдента по мощности для небольшого размера выборки, но имеет более высокую частоту ошибок типа 1


Эксперимент 2: разные отклонения, одно и то же среднее

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Обсуждение Результаты моделирования показывают, что t-критерий очень устойчив к различным отклонениям, а ошибка типа I близка к 5% для всех размеров выборки. Как и ожидалось, тест Манна Уитни в этом случае работает плохо, так как он проверяет не разницу в средствах, а разницу в распределениях.

введите описание изображения здесь

Ксавье Бурре Сикотт
источник