T-тест независимых выборок: действительно ли необходимо нормально распределять данные для выборок большого размера?

13

Допустим, я хочу проверить, имеют ли два независимых образца разные значения. Я знаю, что базовое распределение не нормально .

Если я правильно понимаю, моя статистика теста является средним значением , и для достаточно больших размеров выборки среднее значение должно стать нормально распределенным, даже если образцы не являются. Таким образом, тест параметрической значимости должен быть действительным в этом случае, верно? Я прочитал противоречивую и запутанную информацию об этом, поэтому я был бы признателен за некоторое подтверждение (или объяснение, почему я не прав).

Кроме того, я прочитал, что для больших размеров выборки я должен использовать z-статистику вместо t-статистики. Но на практике t-распределение просто сходится к нормальному распределению и две статистики должны быть одинаковыми, нет?

Изменить : Ниже приведены некоторые источники, описывающие Z-тест. Они оба заявляют, что население должно быть нормально распределено:

Здесь говорится: «Независимо от типа используемого Z-критерия предполагается, что популяции, из которых взяты образцы, являются нормальными». И здесь требования к z-критерию перечислены как «Две нормально распределенные, но независимые совокупности, σ известны».

Лиза
источник
То, что вы говорите, имеет смысл. Вы используете центральную предельную теорему, чтобы предположить нормальность в распределении выборочных средних. Кроме того, вы используете t-критерий, потому что у вас нет дисперсии населения, и вы оцениваете его на основе выборочной дисперсии. Но можете ли вы связать или опубликовать любой из этих противоречивых источников?
Антони Пареллада
Спасибо за ответ! Здесь, например, требования к z-критерию перечислены как «Две нормально распределенные, но независимые совокупности, σ известна», поэтому они говорят о распределении совокупности, а не о средней - это неправильно?
Лиза
@AntoniParellada Я включил несколько источников в оригинальной записи!
Лиза
Проверьте Википедию
Антони Пареллада
Если известно, что первоначальная популяция нормальная, у нас идеальная, неоспоримая ситуация. Тем не менее, CLT часто там, особенно в больших образцах, чтобы избежать зависимости от этого очень высокого порядка условий, указанных на вашей связанной бумаге.
Антони Пареллада

Ответы:

7

Я думаю, что это распространенное недоразумение CLT. Мало того, что CLT не имеет ничего общего с сохранением ошибки типа II (о чем никто не упомянул здесь), это часто не применимо, когда необходимо оценить дисперсию населения. Дисперсионная дисперсия может быть очень далека от масштабированного распределения хи-квадрат, когда данные не являются гауссовыми, поэтому CLT может не применяться, даже если размер выборки превышает десятки тысяч. Для многих распределений SD даже не является хорошей мерой дисперсии.

Чтобы действительно использовать CLT, должно быть верно одно из двух: (1) стандартное отклонение выборки служит мерой дисперсии для истинного неизвестного распределения или (2) известно истинное стандартное отклонение популяции. Это очень часто не так. И пример того, что n = 20000 слишком мал для того, чтобы CLT «работал», взят из рисунков из логарифмического распределения, как обсуждалось в другом месте на этом сайте.

Стандартное отклонение выборки «работает» как мера дисперсии, если, например, распределение симметрично и не имеет хвостов, которые тяжелее гауссовского распределения.

Я не хочу полагаться на CLT для любого из моих анализов.

Фрэнк Харрелл
источник
3
CLT может быть немного красной сельди. Часто может случиться так, что среднее значение выборки имеет явно ненормальное распределение, а SD образца имеет явно нешифальную форму, но, тем не менее, t-статистика полезно аппроксимируется t-распределением Стьюдента (частично из-за зависимости между двумя статистика). Является ли это так, следует оценить в любой конкретной ситуации. Однако, поскольку CLT мало утверждает о конечных выборках (и ничего не говорит о них количественно ), его вызов в поддержку предположений о распределении обычно недопустим.
whuber
Было бы справедливо сказать, что мы обсуждаем (и изучаем в моем случае) процедуру (сравнивающую два выборочных средства из неизвестных распределений с t-тестом), которая выполняется регулярно (и, возможно, бездумно) ежедневно повсеместно, хотя ее оправдание может быть слабым? И есть ли какие-либо применения CLT на практике, которые были бы терпимыми / приемлемыми, даже если не идеальными?
Антони Пареллада
-статистики очень часто имеет распределение, которое очень далеко от т распределения , когда данные поступают из негауссовым распределения. И да, я бы сказал, что обоснование использования t- критерия слабее, чем думает большинство практиков. Вот почему я предпочитаю полу- и непараметрические методы. TTT
Фрэнк Харрелл
2
CLT - это действительно асимптотическое утверждение, и, когда большинство людей вызывает его, я подозреваю, что идея в их голове действительно напоминает теорему Берри-Эссеена (они считают, что сближение с нормальностью происходит с «разумной» скоростью, и, следовательно, размер выборки "достаточно хорошо"). Но даже это немного более сложное рассуждение может привести к неверному выводу о достоверности t-критерия. Интересно, стоит ли упоминать / подчеркивать в этом ответе, что даже Берри-Эссин не «спасает» ошибочное обращение к CLT.
Серебряная рыба
3
@FrankHarrell Что вы подразумеваете под «стандартным отклонением выборки, которое служит мерой дисперсии для истинного неизвестного распределения»? Было бы полезно, если бы вы добавили краткое объяснение (возможно, только одно предложение) в свой ответ.
mark999
9

Я оставляю этот абзац, чтобы комментарии имели смысл: возможно, предположение о нормальности в исходных популяциях слишком ограничительно, и его можно отказаться от сосредоточения на распределении выборки, и благодаря центральной теореме о пределе, особенно для больших выборок.

T

Как вы упомянули, t-распределение сходится к нормальному распределению при увеличении выборки, поскольку этот быстрый график R демонстрирует:

введите описание изображения здесь

T

Таким образом, применение z-теста, вероятно, будет хорошо с большими выборками.


Решение вопросов с моим первоначальным ответом. Спасибо, Glen_b за вашу помощь с ОП (вероятные новые ошибки в интерпретации полностью мои).

  1. Т СТАТИСТИКА СЛЕДУЕТ ПРИ РАСПРЕДЕЛЕНИИ ПРИ ПОЛОЖЕНИИ НОРМАЛЬНОСТИ:

Оставляя в стороне сложности в формулах для одной выборки против двух выборок (парных и непарных), общая t-статистика, сфокусированная на случае сравнения выборочного среднего со средним для популяции :

(1)Т-тестзнак равноИкс¯-μsNзнак равноИкс¯-μσ/Ns2σ2знак равноИкс¯-μσ/NΣИксзнак равно1N(Икс-Икс¯)2N-1σ2

Иксμσ2

  1. (1) ~N(1,0)
  2. (1)s2/σ2N-1~1N-1χN-12(N-1)s2/σ2~χN-12
  3. Числитель и знаменатель должны быть независимыми.

т-статистика~T(dезнак равноN-1)

  1. ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА:

Тенденция к нормальному распределению выборки означает, что при увеличении размера выборки можно оправдать предположение о нормальном распределении числителя, даже если популяция не является нормальной. Однако это не влияет на два других условия (распределение хи-квадрат знаменателя и независимость числителя от знаменателя).

Но не все потеряно, в этом посте обсуждается, как теорема Слуцкого поддерживает асимптотическую сходимость к нормальному распределению, даже если распределение ци знаменателя не выполняется.

  1. НАДЕЖНОСТЬ:

Савиловский С.С. и Блэр Р.К. в Психологическом бюллетене, 1992, т. 22, с. «Более реалистичный взгляд на свойства робастности и ошибки типа II критерия Стьюдента при отклонениях от нормальных условий населения» . 111, No. 2, 352–360 , где они тестировали менее идеальные или более «реальные» (менее нормальные) распределения для мощности и ошибок типа I, можно найти следующие утверждения: «Несмотря на консервативный характер в отношении типа В результате t-теста для некоторых из этих реальных распределений было мало влияния на уровни мощности для различных изученных условий обработки и размеров выборки. Исследователи могут легко компенсировать небольшую потерю мощности, выбрав немного больший размер выборки ». ,

« По-видимому, преобладающее мнение состоит в том, что t-тест независимых выборок является достаточно надежным, поскольку ошибки типа I связаны с негауссовой формой совокупности, если (а) размеры выборки равны или почти совпадают, (б) выборка размеры довольно велики (Boneau, 1960, упоминает размеры выборки от 25 до 30), и (c) тесты являются двусторонними, а не односторонними. Отметим также, что при выполнении этих условий различия между номинальной альфа и фактической альфой составляют встречаются несоответствия, как правило, консервативного, а не либерального характера ".

Авторы подчеркивают противоречивые аспекты этой темы, и я с нетерпением жду работы над некоторыми симуляциями, основанными на логнормальном распределении, как упомянул профессор Харрелл. Я также хотел бы предложить некоторые сравнения Монте-Карло с непараметрическими методами (например, U-критерий Манна-Уитни). Так что работа в процессе ...


МОДЕЛИРОВАНИЕ:

Отказ от ответственности: далее следует одно из этих упражнений, так или иначе «доказав это». Результаты не могут быть использованы для обобщения (по крайней мере, не мной), но я думаю, я могу сказать, что эти два (возможно, ошибочные) моделирования MC, кажется, не слишком обескураживающие относительно использования t-теста в данных обстоятельствах. описано.

Ошибка типа I:

Nзнак равно50μзнак равно0σзнак равно1

введите описание изображения здесь

5%4.5%

На самом деле график плотности полученных t-тестов, похоже, перекрывает фактическое pdf t-распределения:

введите описание изображения здесь

Самая интересная часть смотрела на «знаменатель» t-теста, часть, которая должна была следовать распределению хи-квадрат:

(N-1)s2/σ2знак равно98(49(SDA2+SDA2))/98(еσ2-1)е2μ+σ2

Здесь мы используем общее стандартное отклонение, как в этой записи в Википедии :

SИкс1Икс2знак равно(N1-1)SИкс12+(N2-1)SИкс22N1+N2-2

И, как ни странно (или нет), сюжет был очень непохож на наложенный хи-квадрат pdf:

введите описание изображения здесь

Ошибка типа II и мощность:

10 мм рт.ст. (SD примерно 9 мм рт.ст. был выбран):

введите описание изображения здесь Проведение сравнительных t-тестов на симуляции, аналогичной Монте-Карло, которая аналогична ошибкам типа I между этими фиктивными группами, и с уровнем значимости 5% мы заканчиваем с 0,024% ошибки типа II, и сила только 99%,

Код здесь .

Антони Пареллада
источник
1
Я думаю, что это распространенное недоразумение CLT. Мало того, что CLT не имеет ничего общего с сохранением ошибки типа II (о чем никто не упомянул здесь), это часто не применимо, когда необходимо оценить дисперсию населения. Дисперсионная дисперсия может быть очень далека от масштабированного распределения хи-квадрат, когда данные не являются гауссовыми, поэтому CLT может не применяться, даже если размер выборки превышает десятки тысяч. Для многих распределений SD даже не является хорошей мерой дисперсии.
Фрэнк Харрелл
1
Профессор Харрелл, я буду рад снять этот пост, если он неправильный. Это может быть очень фундаментальным недоразумением. Я предположил, что CLT, примененный к распределению выборки, означает, что в больших выборках проверяется сравнение средних с z-тестом или t-тестом независимо от распределения происхождения образцов. Это не правильно?
Антони Пареллада
1
Это было бы правильно, если (1) стандартное отклонение выборки служит мерой дисперсии для истинного неизвестного распределения или (2) известно истинное стандартное отклонение популяции. Это очень часто не так. И пример п = 20000 будучи далеко слишком мал для ЦПТА к «работе» происходит от составления выборок из распределения логнормального. Непонимание по этим пунктам широко распространено среди докторов наук в области статистики с 20-летним опытом работы.
Фрэнк Харрелл
5
Вопрос, Лиза, в том, нужно ли вам сравнивать средства или вы просто хотите сравнить местоположения двух групп населения. В некоторых приложениях интерес сосредоточен на среднем значении или сумме, поэтому замена его другим параметром будет бесполезной. Это особенно актуально в тех случаях, когда численность населения является естественной кумулятивной величиной, такой как деньги или загрязнение окружающей среды.
whuber
3
Антони, твой последний раздел о надежности вполне уместен. Я сделал много исследований, похожих на те, что описаны Савилоски и Блэром, и прочитал еще много, и поэтому подозреваю, что их выводы должны быть ограничены очень специальными видами данных. T-критерий с треском проваливается, особенно с точки зрения мощности, при наличии сильно искаженных распределений. Что меня удивило за эти годы, так это то, что он действительно достаточно устойчив к другим отклонениям от нормального состояния, и я вижу некоторую обоснованность в утверждениях, что это непараметрическая процедура.
whuber