Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда?
Если это правда, это из-за центральной предельной теоремы?
Ответы:
Допущение нормальности t-теста
Рассмотрим большую популяцию, из которой вы можете взять много разных образцов определенного размера. (В конкретном исследовании вы обычно собираете только один из этих образцов.)
T-критерий предполагает, что средства разных образцов обычно распределены; это не предполагает, что население нормально распределено.
По центральной предельной теореме средние значения выборок из совокупности с конечной дисперсией приближаются к нормальному распределению независимо от распределения совокупности. Эмпирические правила гласят, что средние значения выборки обычно распределяются при условии, что размер выборки составляет не менее 20 или 30. Чтобы критерий Стьюдента действовал на выборке меньшего размера, распределение популяции должно быть приблизительно нормальным.
T-критерий недействителен для небольших выборок из ненормальных распределений, но он действителен для больших выборок из ненормальных распределений.
Небольшие выборки из ненормальных распределений
Как отмечает Майкл ниже, размер выборки, необходимый для распределения средств для приблизительной нормальности, зависит от степени ненормальности населения. Для примерно нормальных дистрибутивов вам не понадобится такая большая выборка, как очень ненормальный дистрибутив.
Вот некоторые симуляции, которые вы можете запустить в R, чтобы почувствовать это. Во-первых, вот пара распределений населения.
Далее приведены некоторые модели выборок из распределения населения. В каждой из этих строк «10» - это размер выборки, «100» - это количество выборок, а функция после этого определяет распределение населения. Они производят гистограммы выборочных средств.
Чтобы t-критерий был действительным, эти гистограммы должны быть нормальными.
Утилита t-теста
Я должен отметить, что все знания, которые я только что передал, несколько устарели; теперь, когда у нас есть компьютеры, мы можем сделать лучше, чем t-тесты. Как отмечает Фрэнк, вы, вероятно, захотите использовать тесты Уилкоксона везде, где вас учили запускать t-тест.
источник
Центральная предельная теорема менее полезна, чем можно подумать в этом контексте. Во-первых, как уже отмечалось, никто не знает, является ли текущий размер выборки «достаточно большим». Во-вторых, CLT больше относится к достижению желаемой ошибки типа I, чем к ошибке типа II. Другими словами, t-критерий может быть неконкурентоспособным по мощности. Вот почему тест Уилкоксона так популярен. Если нормальность сохраняется, она на 95% эффективнее t-критерия. Если нормальность не выполняется, она может быть произвольно более эффективной, чем критерий Стьюдента.
источник
Смотрите мой предыдущий ответ на вопрос о надежности t-теста .
В частности, я рекомендую поиграть с апплетом onlinestatsbook .
Изображение ниже основано на следующем сценарии:
Полученное моделирование показывает, что вместо 5% ошибок типа I я получал только 4,5% ошибок типа I.
Считаете ли вы это надежным, зависит от вашей точки зрения.
источник
edit : duh, за уловку @ whuber в комментарии, пример, который я привел, не имел среднего нуля, поэтому тестирование среднего нуля не имеет ничего общего с типом I.
Поскольку пример лотереи часто имеет стандартное отклонение образца, равное нулю, t-критерий дросселирования. Поэтому вместо этого я приведу пример кода с использованием распределения Лерберта W x Гаусса Гёрга . Распределение, которое я здесь использую, имеет перекос около 1355.
Этот код дает эмпирическую процент брака на номинальном уровне 0,05 для разных размеров выборки. Для выборки размером 50 эмпирический показатель составляет 0,40 (!); для выборки 250 - 0,29; для выборки 1000 - 0,21; для выборки 2000, 0,18. Очевидно, что t-критерий с одним образцом страдает от перекоса.
источник
Центральная предельная теорема устанавливает (при необходимых условиях), что числитель t-статистики асимптотически нормален. Т-статистика также имеет знаменатель. Чтобы иметь t-распределение, вам нужно, чтобы знаменатель был независимым и имел квадратный корень из-за-чи-квадрат-на-своем-df.
И мы знаем, что он не будет независимым (что характеризует нормальное!)
Теорема Слуцкого в сочетании с CLT даст вам, что t-статистика асимптотически нормальна (но не обязательно с очень полезной скоростью).
Какая теорема установит, что t-статистика приблизительно t-распределена, когда есть ненормальность, и как быстро она поступает? (Конечно, в конечном итоге t- тоже приблизится к нормали, но мы предполагаем, что приближение к другому приближению будет лучше, чем просто использование нормального приближения ...)
источник
Да, Центральная предельная теорема говорит нам, что это правда. До тех пор, пока вы избегаете черт с чрезвычайно тяжелыми хвостами, ненормальность не представляет проблем в выборках от среднего до большого.
Вот полезный обзорный документ;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
Тест Уилкоксона (упомянутый другими) может иметь ужасную силу, когда альтернатива не является изменением местоположения исходного распределения. Кроме того, способ измерения различий между распределениями не является транзитивным.
источник
Об использовании теста Уилкоксона-Манна-Уитни в качестве альтернативы Я рекомендую статью « Тест Уилкоксона-Манна-Уитни» под пристальным вниманием
В качестве критерия средних или средних значений критерий Уилкоксона – Манна – Уитни (WMW) может быть крайне ненадежным для отклонений от модели чистого сдвига.
Вот рекомендации авторов статьи:
Преобразование ранга может по-разному изменять средние значения, стандартные отклонения и асимметрию двух выборок. Единственная ситуация, в которой преобразование ранга гарантированно обеспечивает положительный эффект, - это когда распределения идентичны, а размеры выборки равны. Для отклонений от этих довольно строгих предположений влияние преобразования ранга на выборочные моменты непредсказуемо. В имитационном исследовании статьи тест WMW сравнивался с тестом Флингера-Полиселло (FP), тестом Бруннера-Мунцеля (BM), T-тестом для двух образцов (T), U-тестом Уэлча (U), и тест Уэлча на звание (RU). Четыре ранговых теста (WMW, FP, BM и RU) выполнялись аналогично, хотя тест BM часто был немного лучше, чем другие. Когда размеры выборки были равны, параметрические тесты (T и U) превосходили ранговые тесты при нулевой гипотезе равных средних, но не при нулевой гипотезе равных медиан. Когда размеры выборки были неодинаковыми, тесты BM, RU и U показали лучшие результаты. Для некоторых параметров небольшие изменения свойств популяции привели к значительным изменениям в производительности тестов. Таким образом, приблизительный тест WMW для большой выборки может быть плохим методом для сравнения средних или медианных значений двух популяций, если только эти два распределения не имеют одинаковую форму и равные масштабы. Эта проблема также, по-видимому, в разной степени относится к точному тесту WMW, тесту FP, тесту BM и тесту Уэлча U по рангу. При использовании теста WMW авторы рекомендуют тщательно исследовать свойства ранжированных образцов на наличие признаков асимметрии и дисперсии неоднородности.
источник