Я читал, что t- тест является «достаточно надежным», когда распределение выборок отклоняется от нормального. Конечно, важны именно выборочные распределения различий. У меня есть данные для двух групп. Одна из групп сильно отклонена от зависимой переменной. Размер выборки довольно мал для обеих групп (n = 33 в одной и 45 в другой). Должен ли я считать, что в этих условиях мой t- тест будет устойчив к нарушениям предположения о нормальности?
t-test
assumptions
normality-assumption
robust
археоптерикс
источник
источник
Ответы:
На вопросы об устойчивости очень трудно ответить хорошо - потому что предположения могут быть нарушены очень многими способами, и в каждом случае в различной степени. Имитационная работа может лишь отобрать очень небольшую часть возможных нарушений.
Учитывая состояние вычислений, я думаю, что часто стоит потратить как параметрический, так и непараметрический тест, если оба они доступны. Затем вы можете сравнить результаты.
Если вы действительно амбициозны, вы можете даже сделать тест на перестановку.
Что если Алан Тьюринг выполнил свою работу раньше, чем Рональд Фишер? :-).
источник
@PeterFlom ударил по гвоздю первым предложением.
Я постараюсь дать краткое изложение того, какие исследования я видел (если вы хотите ссылки, это может быть какое-то время):
В целом, t-критерий из двух выборок является достаточно устойчивым к симметричной ненормальности (на истинный коэффициент ошибок типа I в некоторой степени влияет эксцесс, на мощность в основном влияет это).
Когда два образца слегка наклонены в одном и том же направлении, односторонний критерий Стьюдента больше не смещается. T-статистика перекошена противоположно распределению и имеет гораздо большую мощность, если тест выполняется в одном направлении, чем в другом. Если они искажены в противоположных направлениях, уровень ошибок типа I может сильно пострадать.
Сильная асимметрия может иметь большее влияние, но, вообще говоря, умеренная асимметрия с двусторонним тестом не так уж и плоха, если вы не возражаете против своего теста, по сути, выделяя большую часть его мощности в одном направлении, чем в другом.
Короче говоря, двухсторонний t-критерий с двумя выборками достаточно устойчив к таким вещам, если вы можете терпеть некоторое влияние на уровень значимости и умеренное смещение.
Тем не менее, существует множество способов ненормального распространения, которые не рассматриваются в этих комментариях.
источник
@PeterFlom уже упоминал, что имитационные исследования никогда не могут охватить все сценарии и возможности и, следовательно, не могут привести к определенному ответу. Тем не менее, я все еще считаю полезным на самом деле исследовать такую проблему, выполняя некоторые симуляции (это также является именно тем типом упражнения, которое мне нравится использовать при ознакомлении студентов с идеей симуляции Монте-Карло). Итак, давайте попробуем это на самом деле. Я буду использовать R для этого.
Код
объяснение
Сначала мы устанавливаем размер группы (
n1
иn2
), истинное значение группы (mu1
иmu2
) и истинные стандартные отклонения (sd1
иsd2
).Затем мы определяем количество итераций для запуска и устанавливаем векторы для хранения значений p.
Затем я моделирую данные по 5 сценариям:
Обратите внимание, что я использую распределения хи-квадрат для генерации искаженных распределений. С одной степенью свободы это сильно искаженные распределения. Поскольку истинное среднее значение и дисперсия распределения хи-квадрат с одной степенью свободы равны 1 и 2 соответственно ( см. Википедию ), я изменяю масштаб, чтобы сначала эти распределения имели среднее значение 0 и стандартное отклонение 1, а затем масштабировали их, чтобы получить желаемое истинное среднее и стандартное отклонение (это может быть сделано за один шаг, но сделать это таким образом может быть более ясным).
В каждом случае я применяю t-критерий (версия Уэлча - конечно, можно также рассмотреть версию Стьюдента, которая допускает равные отклонения в двух группах) и сохранить значение p в векторах, установленных ранее.
Наконец, когда все итерации завершены, я вычисляю для каждого вектора, как часто значение p равно или меньше 0,05 (т. Е. Тест является «значимым»). Это эмпирический показатель отклонения.
Некоторые результаты
Моделирование точно так же, как описано выше, дает:
Таким образом, когда асимметрия в обеих группах одинакова, частота ошибок типа I оказывается достаточно близкой к тому, чтобы ее можно было хорошо контролировать (т. Е. Она довольно близка к номинальной ). Когда асимметрия в противоположных направлениях, есть небольшая инфляция в частоте ошибок типа I.α = 0,05
Если мы изменим код на
mu1 <- .5
, то получим:Таким образом, по сравнению со случаем, когда оба распределения являются нормальными (как предполагается при тестировании), мощность фактически оказывается немного выше, когда асимметрия в одном и том же направлении! Если вас это удивляет, вы можете повторить это несколько раз (конечно, каждый раз, получая немного разные результаты), но закономерность останется.
Обратите внимание, что мы должны быть осторожны с интерпретацией эмпирических значений мощности в двух сценариях, где асимметрия в противоположных направлениях, поскольку частота ошибок типа I не совсем номинальная (в крайнем случае, предположим, что я всегда отклоняю независимо от того, какие данные покажите, тогда у меня всегда будет тест с максимальной мощностью, но, конечно, тест также имеет довольно завышенную частоту ошибок типа I).
Можно начать исследовать диапазон значений
mu1
(иmu2
- но на самом деле важно различие между ними) и, что более важно, начать изменять истинные стандартные отклонения двух групп (т. Е.sd1
Иsd2
) и особенно сделать их неравными. Я также придерживался размеров выборки, упомянутых в ОП, но, конечно, это также можно было бы скорректировать. И асимметрия, конечно, может принимать много других форм, чем то, что мы видим в распределении хи-квадрат с одной степенью свободы. Я все еще думаю, что подходить к таким вещам полезно, несмотря на то, что он не может дать однозначного ответа.источник
В вашей ситуации t-критерий, скорее всего, будет надежным с точки зрения частоты ошибок типа I, но не частоты ошибок типа II. Вы, вероятно, достигнете большей мощности либо через a) критерий Крускала-Уоллиса, либо b) нормализующее преобразование до t-теста.
Я основываю этот вывод на двух исследованиях Монте-Карло. В первом ( Khan & Rayner, 2003 ) косо и эксцессы были косвенно изменены с помощью параметров семейства распределения g-and-k, и полученная мощность была исследована. Важно отметить, что мощность теста Крускала-Уоллиса была меньше повреждена ненормальностью, особенно при n> = 15.
Несколько предостережений / оговорок об этом исследовании: Сила часто страдала от высокого эксцесса, но она меньше влияла на перекос. На первый взгляд, эта модель может показаться менее релевантной вашей ситуации, учитывая, что вы отметили проблему с перекосом, а не с эксцессом. Тем не менее, я держу пари, что избыточный эксцесс также является экстремальным в вашем случае. Имейте в виду, что избыточный эксцесс будет по меньшей мере таким же высоким, как и перекос ^ 2 - 2. (Пусть избыточный эксцесс равен 4-му стандартизированному моменту минус 3, так что избыточный эксцесс = 0 для нормального распределения.) Отметим также, что Хан и Рейнер ( 2003) исследовали ANOVA с 3 группами, но их результаты, вероятно, будут обобщены для t-критерия с двумя выборками.
Второе соответствующее исследование ( Бизли, Эриксон и Аллисон, 2009) исследовал ошибки как типа I, так и типа II с различными ненормальными распределениями, такими как хи-квадрат (1) и Вейбулл (1, .5). Для размеров выборки не менее 25 t-критерий адекватно контролировал частоту ошибок типа I на уровне или ниже номинального альфа-уровня. Тем не менее, мощность была самой высокой либо с помощью теста Крускала-Уоллиса, либо с помощью обратного нормального преобразования на основе ранга (баллы Блома), примененного до t-теста. Бизли и его коллеги в целом выступали против подхода нормализации, но следует отметить, что подход нормализации контролировал частоту ошибок типа I для n> = 25, а его мощность иногда немного превышала мощность теста Крускала-Уоллиса. То есть нормализующий подход кажется многообещающим для вашей ситуации. Смотрите таблицы 1 и 4 в их статье для деталей.
Ссылки:
Хан А. и Райнер Г.Д. (2003) . Устойчивость к ненормальности общих тестов для задачи определения местоположения множества образцов. Журнал прикладной математики и принятия решений, 7 , 187-206.
Бизли Т.М., Эриксон С. и Аллисон Д.Б. (2009) . Основанные на ранге обратные нормальные преобразования все чаще используются, но они заслужены? Поведенческая генетика, 39 , 580-595.
источник
Прежде всего, если вы предполагаете, что распределение двух выборок отличается, убедитесь, что вы используете версию t-критерия Уэлча, которая предполагает неравные различия между группами. Это, по крайней мере, попытается учесть некоторые различия, возникающие из-за распределения.
Если мы посмотрим на формулу для t-критерия Уэлча:
мы можем видеть , что каждый раз есть S , мы знаем , что дисперсия учитываются. Давайте представим, что две дисперсии на самом деле одинаковы, но одна отклоняется, что приводит к другой оценке дисперсии. Если эта оценка отклонения фактически не является представительной для ваших данных из-за перекоса, то фактически эффект смещения будет по существу квадратным корнем этого смещения, деленным на число точек данных, использованных для его вычисления. Таким образом, эффект плохих оценочных дисперсий немного приглушается квадратным корнем и более высоким n, и, вероятно, поэтому консенсус заключается в том, что он остается надежным тестом.
Другая проблема искаженных распределений состоит в том, что вычисление среднего значения также будет затронуто, и, вероятно, именно в этом и заключаются настоящие проблемы нарушений тестовых допущений, поскольку средние значения относительно чувствительны к перекосу. И надежность теста может быть приблизительно определена путем расчета разницы в средних по сравнению с разницей в медианах (как идея). Возможно, вы могли бы даже попытаться заменить разницу в средних значениями на медиану в t-тесте в качестве более надежной меры (я уверен, что кто-то обсуждал это, но я не смог найти что-то в Google достаточно быстро, чтобы сослаться).
Я бы также предложил запустить тест перестановки, если все, что вы делаете, это t-тест. Тест перестановки является точным тестом, не зависящим от предположений о распределении. Самое главное, тесты перестановки и t-критерий приведут к одинаковым результатам, если будут выполнены предположения параметрического критерия . Таким образом, мера надежности, которую вы ищите, может быть 1 - разница между p-значениями перестановки и t-критерия, где оценка 1 означает абсолютную надежность, а 0 означает отсутствие надежности вообще.
источник