Насколько надежен независимый выборочный t-критерий, когда распределение образцов ненормальное?

24

Я читал, что t- тест является «достаточно надежным», когда распределение выборок отклоняется от нормального. Конечно, важны именно выборочные распределения различий. У меня есть данные для двух групп. Одна из групп сильно отклонена от зависимой переменной. Размер выборки довольно мал для обеих групп (n = 33 в одной и 45 в другой). Должен ли я считать, что в этих условиях мой t- тест будет устойчив к нарушениям предположения о нормальности?

археоптерикс
источник
3
«Конечно, важны именно выборочные распределения различий» - различия в чем? У меня возникло искушение отредактировать это вне вопроса, так как я боюсь, что это вводит в заблуждение будущих читателей (и касается сути вопроса). Моей первой мыслью было ошибочное упоминание парного t- теста, где мы предполагаем, что различия между парами нормальны, но это не применимо в тесте независимых выборок. У нас даже нет пар на разницу! Возможно, «разница в средствах» предназначена? В остальной части Q рассматривается нормальность двух образцов, а не различий.
Серебряная рыба
Вопрос о том, насколько надежным является t- тест на такие нарушения, является важным и законным. Но связанная с этим проблема заключается в том, что сначала не рекомендуется проверять нарушения в ваших данных, а только потом решать, применять ли t- тест или какой-либо альтернативный тест. Такая многошаговая процедура имеет неопределенные рабочие характеристики. Смотрите эту ветку: Принципиальный метод для выбора между t-тестом или непараметрическим, например, Уилкоксоном в небольших выборках
Silverfish
Какой надежный источник? (Я так понимаю, мы оба согласились бы, что официального источника не существует). Мы смотрим на устойчивость уровня или также на мощность? И если «также власть» ... о какой альтернативе мы говорим ?
Glen_b
@Glen_b Извините, сообщение о вознаграждении «официальных источников» явно больше для StackOverflow! Я просто чувствую, что эта тема является практически важной (плюс довольно высокий трафик и плохой в Википедии), чтобы заслужить несколько цитат. Шаблон награды «канонический ответ» был бы неуместным, как ясно показывает ответ Питера Флома. У меня такое ощущение, что в этой теме есть «общий набор знаний» - если бы мне задавали этот вопрос Q-off, мой список был бы очень похож на список Даллала (я бы добавил эксцесс, но не рискнул бы с тем же размером выборки защищает от общего ненормальности)
Silverfish
@Glen_b Ваш ответ разрабатывает аналогичную вену, поэтому кажется, что есть некоторые основные положения, широко известные / принятые. Моя степень покрывала предположения, но не последствия нарушения: мои знания основаны на разнообразных источниках, разбросанных по кусочкам и бобам (книги типа «статистика для психологов» могут уделять больше внимания последствиям, чем многие тексты теории статистики) - иначе я бы разместил ответ не щедрость! Если кто-нибудь знает приличное одностраничное резюме в хорошем учебнике, это хорошо для меня. Если это пара статей с результатами моделирования, это тоже хорошо. Все, что будущие читатели могли бы сослаться и ссылаться.
Серебряная рыба

Ответы:

16

На вопросы об устойчивости очень трудно ответить хорошо - потому что предположения могут быть нарушены очень многими способами, и в каждом случае в различной степени. Имитационная работа может лишь отобрать очень небольшую часть возможных нарушений.

Учитывая состояние вычислений, я думаю, что часто стоит потратить как параметрический, так и непараметрический тест, если оба они доступны. Затем вы можете сравнить результаты.

Если вы действительно амбициозны, вы можете даже сделать тест на перестановку.

Что если Алан Тьюринг выполнил свою работу раньше, чем Рональд Фишер? :-).

Питер Флом - Восстановить Монику
источник
1
Питер, ты вдохновил меня написать историческую беллетристику, чтобы ответить именно на этот вопрос!
Sycorax говорит восстановить Monica
12

@PeterFlom ударил по гвоздю первым предложением.

Я постараюсь дать краткое изложение того, какие исследования я видел (если вы хотите ссылки, это может быть какое-то время):

В целом, t-критерий из двух выборок является достаточно устойчивым к симметричной ненормальности (на истинный коэффициент ошибок типа I в некоторой степени влияет эксцесс, на мощность в основном влияет это).

Когда два образца слегка наклонены в одном и том же направлении, односторонний критерий Стьюдента больше не смещается. T-статистика перекошена противоположно распределению и имеет гораздо большую мощность, если тест выполняется в одном направлении, чем в другом. Если они искажены в противоположных направлениях, уровень ошибок типа I может сильно пострадать.

Сильная асимметрия может иметь большее влияние, но, вообще говоря, умеренная асимметрия с двусторонним тестом не так уж и плоха, если вы не возражаете против своего теста, по сути, выделяя большую часть его мощности в одном направлении, чем в другом.

Короче говоря, двухсторонний t-критерий с двумя выборками достаточно устойчив к таким вещам, если вы можете терпеть некоторое влияние на уровень значимости и умеренное смещение.

Тем не менее, существует множество способов ненормального распространения, которые не рассматриваются в этих комментариях.

Glen_b - Восстановить Монику
источник
Я не уверен, что правильно сказать, что это достаточно мощный! Это разумно устойчивый уровень, уровень значимости будет примерно правильным, но, например, тесты Уилкоксона могут иметь гораздо более высокую мощность для альтернатив, достаточно близких к нормальным, которые трудно обнаружить. Это также зависит от таких факторов, как, например, наличие равного количества наблюдений в каждой группе: надежность гораздо более хрупкая в случае неравного n!
kjetil b halvorsen
1
@kjetilbhalvorsen В исследованиях, которые я видел - включая некоторые симуляции, которые я делал сам (и я давно не смотрел ни на одну из них; вы, возможно, хорошо видели то, чего я не видел), большинство эффектов на мощность казалось в основном подталкивать уровень вверх и вниз (что не повлияло на Уилкоксона). Учитывая в целом хорошие энергетические свойства Уилкоксона в этих условиях (особенно с тяжелыми хвостами), этого достаточно, чтобы Уилкоксон выиграл у власти - если вы отрегулируете уровни так, чтобы они были похожими, меня удивило, насколько часто сделал.
Glen_b
7

@PeterFlom уже упоминал, что имитационные исследования никогда не могут охватить все сценарии и возможности и, следовательно, не могут привести к определенному ответу. Тем не менее, я все еще считаю полезным на самом деле исследовать такую ​​проблему, выполняя некоторые симуляции (это также является именно тем типом упражнения, которое мне нравится использовать при ознакомлении студентов с идеей симуляции Монте-Карло). Итак, давайте попробуем это на самом деле. Я буду использовать R для этого.

Код

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

объяснение

  1. Сначала мы устанавливаем размер группы ( n1и n2), истинное значение группы ( mu1и mu2) и истинные стандартные отклонения ( sd1и sd2).

  2. Затем мы определяем количество итераций для запуска и устанавливаем векторы для хранения значений p.

  3. Затем я моделирую данные по 5 сценариям:

    1. Оба распределения нормальные.
    2. Оба распределения перекошены вправо.
    3. Оба распределения перекошены влево.
    4. Первый дистрибутив перекошен влево, второй справа.
    5. Первый дистрибутив перекошен вправо, второй слева.

    Обратите внимание, что я использую распределения хи-квадрат для генерации искаженных распределений. С одной степенью свободы это сильно искаженные распределения. Поскольку истинное среднее значение и дисперсия распределения хи-квадрат с одной степенью свободы равны 1 и 2 соответственно ( см. Википедию ), я изменяю масштаб, чтобы сначала эти распределения имели среднее значение 0 и стандартное отклонение 1, а затем масштабировали их, чтобы получить желаемое истинное среднее и стандартное отклонение (это может быть сделано за один шаг, но сделать это таким образом может быть более ясным).

  4. В каждом случае я применяю t-критерий (версия Уэлча - конечно, можно также рассмотреть версию Стьюдента, которая допускает равные отклонения в двух группах) и сохранить значение p в векторах, установленных ранее.

  5. Наконец, когда все итерации завершены, я вычисляю для каждого вектора, как часто значение p равно или меньше 0,05 (т. Е. Тест является «значимым»). Это эмпирический показатель отклонения.

Некоторые результаты

  1. Моделирование точно так же, как описано выше, дает:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    Таким образом, когда асимметрия в обеих группах одинакова, частота ошибок типа I оказывается достаточно близкой к тому, чтобы ее можно было хорошо контролировать (т. Е. Она довольно близка к номинальной ). Когда асимметрия в противоположных направлениях, есть небольшая инфляция в частоте ошибок типа I.α=+0,05

  2. Если мы изменим код на mu1 <- .5, то получим:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Таким образом, по сравнению со случаем, когда оба распределения являются нормальными (как предполагается при тестировании), мощность фактически оказывается немного выше, когда асимметрия в одном и том же направлении! Если вас это удивляет, вы можете повторить это несколько раз (конечно, каждый раз, получая немного разные результаты), но закономерность останется.

    Обратите внимание, что мы должны быть осторожны с интерпретацией эмпирических значений мощности в двух сценариях, где асимметрия в противоположных направлениях, поскольку частота ошибок типа I не совсем номинальная (в крайнем случае, предположим, что я всегда отклоняю независимо от того, какие данные покажите, тогда у меня всегда будет тест с максимальной мощностью, но, конечно, тест также имеет довольно завышенную частоту ошибок типа I).

Можно начать исследовать диапазон значений mu1mu2- но на самом деле важно различие между ними) и, что более важно, начать изменять истинные стандартные отклонения двух групп (т. Е. sd1И sd2) и особенно сделать их неравными. Я также придерживался размеров выборки, упомянутых в ОП, но, конечно, это также можно было бы скорректировать. И асимметрия, конечно, может принимать много других форм, чем то, что мы видим в распределении хи-квадрат с одной степенью свободы. Я все еще думаю, что подходить к таким вещам полезно, несмотря на то, что он не может дать однозначного ответа.

Wolfgang
источник
2
Поскольку в настоящее время у нас есть множество надежных полупараметрических методов, почему это обсуждение стоит?
Фрэнк Харрелл
(+1) Я думаю, что, возможно, стоило бы включить случай, когда одна выборка была взята из искаженной популяции, а другая - нет, так как именно это, по мнению ОП, могло происходить с их данными. Но приятно видеть ответ с явным кодом. (Небольшое обобщение фактически позволило бы читателю исследовать, насколько надежные методы сравниваются с традиционным t-тестом, который является полезным педагогическим упражнением, если вы пытаетесь научить кого-то опасностям применения теста, допущения которого были нарушены. .)
Серебряная рыба
2

В вашей ситуации t-критерий, скорее всего, будет надежным с точки зрения частоты ошибок типа I, но не частоты ошибок типа II. Вы, вероятно, достигнете большей мощности либо через a) критерий Крускала-Уоллиса, либо b) нормализующее преобразование до t-теста.

Я основываю этот вывод на двух исследованиях Монте-Карло. В первом ( Khan & Rayner, 2003 ) косо и эксцессы были косвенно изменены с помощью параметров семейства распределения g-and-k, и полученная мощность была исследована. Важно отметить, что мощность теста Крускала-Уоллиса была меньше повреждена ненормальностью, особенно при n> = 15.

Несколько предостережений / оговорок об этом исследовании: Сила часто страдала от высокого эксцесса, но она меньше влияла на перекос. На первый взгляд, эта модель может показаться менее релевантной вашей ситуации, учитывая, что вы отметили проблему с перекосом, а не с эксцессом. Тем не менее, я держу пари, что избыточный эксцесс также является экстремальным в вашем случае. Имейте в виду, что избыточный эксцесс будет по меньшей мере таким же высоким, как и перекос ^ 2 - 2. (Пусть избыточный эксцесс равен 4-му стандартизированному моменту минус 3, так что избыточный эксцесс = 0 для нормального распределения.) Отметим также, что Хан и Рейнер ( 2003) исследовали ANOVA с 3 группами, но их результаты, вероятно, будут обобщены для t-критерия с двумя выборками.

Второе соответствующее исследование ( Бизли, Эриксон и Аллисон, 2009) исследовал ошибки как типа I, так и типа II с различными ненормальными распределениями, такими как хи-квадрат (1) и Вейбулл (1, .5). Для размеров выборки не менее 25 t-критерий адекватно контролировал частоту ошибок типа I на уровне или ниже номинального альфа-уровня. Тем не менее, мощность была самой высокой либо с помощью теста Крускала-Уоллиса, либо с помощью обратного нормального преобразования на основе ранга (баллы Блома), примененного до t-теста. Бизли и его коллеги в целом выступали против подхода нормализации, но следует отметить, что подход нормализации контролировал частоту ошибок типа I для n> = 25, а его мощность иногда немного превышала мощность теста Крускала-Уоллиса. То есть нормализующий подход кажется многообещающим для вашей ситуации. Смотрите таблицы 1 и 4 в их статье для деталей.

Ссылки:

Хан А. и Райнер Г.Д. (2003) . Устойчивость к ненормальности общих тестов для задачи определения местоположения множества образцов. Журнал прикладной математики и принятия решений, 7 , 187-206.

Бизли Т.М., Эриксон С. и Аллисон Д.Б. (2009) . Основанные на ранге обратные нормальные преобразования все чаще используются, но они заслужены? Поведенческая генетика, 39 , 580-595.

Энтони
источник
(excess) kurtosisskew22
Это похоже на вопрос, достойный его собственной темы. Возможно, вы обеспокоены тем, что избыточный эксцесс будет уменьшен в небольших выборках? Конечно, это также имело место в исследованиях, проведенных выше, и куртоз все еще вызывал низкую мощность в t-тесте в этих ситуациях. Ваш вопрос указывает на более общее ограничение большинства исследований Монте-Карло: выводы часто основаны на характеристиках популяции, характеристиках, которые прикладной исследователь не может наблюдать. Было бы более полезно иметь возможность прогнозировать относительную мощность, основываясь на перекосе образца, эксцессе и т. Д.
Энтони
Я опубликовал отдельный вопрос об этой проблеме: stats.stackexchange.com/questions/133247/…
Энтони,
0

Прежде всего, если вы предполагаете, что распределение двух выборок отличается, убедитесь, что вы используете версию t-критерия Уэлча, которая предполагает неравные различия между группами. Это, по крайней мере, попытается учесть некоторые различия, возникающие из-за распределения.

Если мы посмотрим на формулу для t-критерия Уэлча:

Tзнак равноИкс¯1-Икс¯2sИкс¯1-Икс¯2

sИкс¯1-Икс¯2

sИкс¯1-Икс¯2знак равноs12N1+s22N2

мы можем видеть , что каждый раз есть S , мы знаем , что дисперсия учитываются. Давайте представим, что две дисперсии на самом деле одинаковы, но одна отклоняется, что приводит к другой оценке дисперсии. Если эта оценка отклонения фактически не является представительной для ваших данных из-за перекоса, то фактически эффект смещения будет по существу квадратным корнем этого смещения, деленным на число точек данных, использованных для его вычисления. Таким образом, эффект плохих оценочных дисперсий немного приглушается квадратным корнем и более высоким n, и, вероятно, поэтому консенсус заключается в том, что он остается надежным тестом.

Другая проблема искаженных распределений состоит в том, что вычисление среднего значения также будет затронуто, и, вероятно, именно в этом и заключаются настоящие проблемы нарушений тестовых допущений, поскольку средние значения относительно чувствительны к перекосу. И надежность теста может быть приблизительно определена путем расчета разницы в средних по сравнению с разницей в медианах (как идея). Возможно, вы могли бы даже попытаться заменить разницу в средних значениями на медиану в t-тесте в качестве более надежной меры (я уверен, что кто-то обсуждал это, но я не смог найти что-то в Google достаточно быстро, чтобы сослаться).

Я бы также предложил запустить тест перестановки, если все, что вы делаете, это t-тест. Тест перестановки является точным тестом, не зависящим от предположений о распределении. Самое главное, тесты перестановки и t-критерий приведут к одинаковым результатам, если будут выполнены предположения параметрического критерия . Таким образом, мера надежности, которую вы ищите, может быть 1 - разница между p-значениями перестановки и t-критерия, где оценка 1 означает абсолютную надежность, а 0 означает отсутствие надежности вообще.

Mensen
источник