Допустим, я хочу проверить, имеют ли два независимых образца разные значения. Я знаю, что базовое распределение не нормально .
Если я правильно понимаю, моя статистика теста является средним значением , и для достаточно больших размеров выборки среднее значение должно стать нормально распределенным, даже если образцы не являются. Таким образом, тест параметрической значимости должен быть действительным в этом случае, верно? Я прочитал противоречивую и запутанную информацию об этом, поэтому я был бы признателен за некоторое подтверждение (или объяснение, почему я не прав).
Кроме того, я прочитал, что для больших размеров выборки я должен использовать z-статистику вместо t-статистики. Но на практике t-распределение просто сходится к нормальному распределению и две статистики должны быть одинаковыми, нет?
Изменить : Ниже приведены некоторые источники, описывающие Z-тест. Они оба заявляют, что население должно быть нормально распределено:
Здесь говорится: «Независимо от типа используемого Z-критерия предполагается, что популяции, из которых взяты образцы, являются нормальными». И здесь требования к z-критерию перечислены как «Две нормально распределенные, но независимые совокупности, σ известны».
Ответы:
Я думаю, что это распространенное недоразумение CLT. Мало того, что CLT не имеет ничего общего с сохранением ошибки типа II (о чем никто не упомянул здесь), это часто не применимо, когда необходимо оценить дисперсию населения. Дисперсионная дисперсия может быть очень далека от масштабированного распределения хи-квадрат, когда данные не являются гауссовыми, поэтому CLT может не применяться, даже если размер выборки превышает десятки тысяч. Для многих распределений SD даже не является хорошей мерой дисперсии.
Чтобы действительно использовать CLT, должно быть верно одно из двух: (1) стандартное отклонение выборки служит мерой дисперсии для истинного неизвестного распределения или (2) известно истинное стандартное отклонение популяции. Это очень часто не так. И пример того, что n = 20000 слишком мал для того, чтобы CLT «работал», взят из рисунков из логарифмического распределения, как обсуждалось в другом месте на этом сайте.
Стандартное отклонение выборки «работает» как мера дисперсии, если, например, распределение симметрично и не имеет хвостов, которые тяжелее гауссовского распределения.
Я не хочу полагаться на CLT для любого из моих анализов.
источник
Я оставляю этот абзац, чтобы комментарии имели смысл: возможно, предположение о нормальности в исходных популяциях слишком ограничительно, и его можно отказаться от сосредоточения на распределении выборки, и благодаря центральной теореме о пределе, особенно для больших выборок.
Как вы упомянули, t-распределение сходится к нормальному распределению при увеличении выборки, поскольку этот быстрый график R демонстрирует:
Таким образом, применение z-теста, вероятно, будет хорошо с большими выборками.
Решение вопросов с моим первоначальным ответом. Спасибо, Glen_b за вашу помощь с ОП (вероятные новые ошибки в интерпретации полностью мои).
Оставляя в стороне сложности в формулах для одной выборки против двух выборок (парных и непарных), общая t-статистика, сфокусированная на случае сравнения выборочного среднего со средним для популяции :
Тенденция к нормальному распределению выборки означает, что при увеличении размера выборки можно оправдать предположение о нормальном распределении числителя, даже если популяция не является нормальной. Однако это не влияет на два других условия (распределение хи-квадрат знаменателя и независимость числителя от знаменателя).
Но не все потеряно, в этом посте обсуждается, как теорема Слуцкого поддерживает асимптотическую сходимость к нормальному распределению, даже если распределение ци знаменателя не выполняется.
Савиловский С.С. и Блэр Р.К. в Психологическом бюллетене, 1992, т. 22, с. «Более реалистичный взгляд на свойства робастности и ошибки типа II критерия Стьюдента при отклонениях от нормальных условий населения» . 111, No. 2, 352–360 , где они тестировали менее идеальные или более «реальные» (менее нормальные) распределения для мощности и ошибок типа I, можно найти следующие утверждения: «Несмотря на консервативный характер в отношении типа В результате t-теста для некоторых из этих реальных распределений было мало влияния на уровни мощности для различных изученных условий обработки и размеров выборки. Исследователи могут легко компенсировать небольшую потерю мощности, выбрав немного больший размер выборки ». ,
« По-видимому, преобладающее мнение состоит в том, что t-тест независимых выборок является достаточно надежным, поскольку ошибки типа I связаны с негауссовой формой совокупности, если (а) размеры выборки равны или почти совпадают, (б) выборка размеры довольно велики (Boneau, 1960, упоминает размеры выборки от 25 до 30), и (c) тесты являются двусторонними, а не односторонними. Отметим также, что при выполнении этих условий различия между номинальной альфа и фактической альфой составляют встречаются несоответствия, как правило, консервативного, а не либерального характера ".
Авторы подчеркивают противоречивые аспекты этой темы, и я с нетерпением жду работы над некоторыми симуляциями, основанными на логнормальном распределении, как упомянул профессор Харрелл. Я также хотел бы предложить некоторые сравнения Монте-Карло с непараметрическими методами (например, U-критерий Манна-Уитни). Так что работа в процессе ...
МОДЕЛИРОВАНИЕ:
Отказ от ответственности: далее следует одно из этих упражнений, так или иначе «доказав это». Результаты не могут быть использованы для обобщения (по крайней мере, не мной), но я думаю, я могу сказать, что эти два (возможно, ошибочные) моделирования MC, кажется, не слишком обескураживающие относительно использования t-теста в данных обстоятельствах. описано.
Ошибка типа I:
На самом деле график плотности полученных t-тестов, похоже, перекрывает фактическое pdf t-распределения:
Самая интересная часть смотрела на «знаменатель» t-теста, часть, которая должна была следовать распределению хи-квадрат:
Здесь мы используем общее стандартное отклонение, как в этой записи в Википедии :
И, как ни странно (или нет), сюжет был очень непохож на наложенный хи-квадрат pdf:
Ошибка типа II и мощность:
Проведение сравнительных t-тестов на симуляции, аналогичной Монте-Карло, которая аналогична ошибкам типа I между этими фиктивными группами, и с уровнем значимости5 % мы заканчиваем с 0,024 % ошибки типа II, и сила только 99 % ,
Код здесь .
источник