Должен ли я использовать t-тест для сильно искаженных данных? Научное доказательство, пожалуйста?

15

У меня есть образцы из сильно искаженного (похожего на экспоненциальный дистрибутив) набора данных об участии пользователей (например, количество постов), которые имеют разные размеры (но не менее 200), и я хочу сравнить их среднее значение. Для этого я использую непарные t-тесты с двумя образцами (и t-тесты с коэффициентом Уэлча, когда образцы имели различные отклонения). Как я слышал, для действительно больших выборок не имеет значения, что выборка распределяется не нормально.

Кто-то, просматривая мои действия, сказал, что используемые мной тесты не подходят для моих данных. Они предложили лог-трансформировать мои образцы перед использованием t-тестов.

Я новичок, поэтому мне кажется странным, что я отвечаю на мои вопросы об исследовании с помощью «метрики участия».

Они не правы? Я ошибаюсь? Если они не правы, есть ли книга или научная статья, которую я мог бы процитировать / показать им? Если я ошибаюсь, какой тест я должен использовать?

Милена Араужо
источник
1
T-тест имеет нормальное предположение о распределении csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Вы можете подумать, что t-распределение, которое приближается к нормальному, когда выборка достаточно велика.
rdorlearn
6
Что означает «научное доказательство» в этом контексте?
Glen_b
1
Я думал, что предположение состояло в том, что все средства всех возможных выборок из определенной популяции должны быть нормальными. Так, по CLT, это будет верно и для моего набора данных.
Милена Араужо
1
научное доказательство = академическая значимость: книга, статья и т. д.
Милена Араужо

Ответы:

36

Я бы не назвал «экспоненциальным», особенно сильно искаженным. Например, его бревно явно наклонено влево, а его моментное отклонение составляет всего 2.

1) С помощью Т-тест с экспоненциальными данными и N вблизи 500 находится в порядке :

a) Числитель тестовой статистики должен быть точным: если данные являются независимой экспоненциальной с общей шкалой (и не имеют значительно более сложного хвоста), то их средние значения гамма-распределены с параметром формы, равным количеству наблюдений. Его распределение выглядит очень нормально для параметра формы больше 40 или около того (в зависимости от того, как далеко в хвост вам нужна точность).

Это способно к математическому доказательству, но математика не наука. Конечно, вы можете проверить это эмпирически с помощью симуляции, но если вы ошибаетесь в экспоненциальности, вам могут потребоваться большие выборки. Вот как выглядит распределение выборочных сумм (и, следовательно, выборочных средних) экспоненциальных данных, когда n = 40:

введите описание изображения здесь

Очень слегка перекос. Эта асимметрия уменьшается как квадратный корень от размера выборки. Так что при n = 160 это в два раза меньше перекоса. При n = 640 это четверть перекоса:

введите описание изображения здесь

То, что это эффективно симметрично, можно увидеть, перевернув его относительно среднего значения и нанеся его сверху:

введите описание изображения здесь

Синий оригинал, красный перевернут. Как видите, они почти случайны.

-

Nзнак равно40

введите описание изображения здесь

Nзнак равно500

-

в) Однако на самом деле имеет значение распределение всей статистики под нулем. Нормальности числителя недостаточно для того, чтобы t-статистика имела t-распределение. Однако, в случае экспоненциальных данных, это тоже не большая проблема:

введите описание изображения здесь

Nзнак равно40Nзнак равно500Nзнак равно500

Однако обратите внимание, что для фактически экспоненциальных данных стандартное отклонение будет отличаться только в том случае, если средние значения различны. Если имеет место экспоненциальная презумпция, то при нулевом значении нет особой необходимости беспокоиться о различных дисперсиях населения, поскольку они встречаются только при альтернативе. Таким образом, t-критерий с равной дисперсией должен быть в порядке (в этом случае приведенное выше хорошее приближение, которое вы видите на гистограмме, может даже быть немного лучше).


2) Взятие логов может все же позволить вам разобраться в этом, хотя

журналλ1журналλ2λ1λ2

[Если вы проведете этот тест в журналах, я был бы склонен предложить провести тест на равную дисперсию в этом случае.]

Итак, простым вмешательством, возможно, одного или двух предложений, оправдывающих связь, аналогично тому, что у меня было выше, вы сможете написать свои выводы не о журнале показателя участия, а о самом показателе участия.


3) Есть много других вещей, которые вы можете сделать!

а) вы можете сделать тест, подходящий для экспоненциальных данных. Тест на основе отношения правдоподобия легко получить. Как это случается, для экспоненциальных данных вы получаете F-тест для небольшой выборки (на основе отношения средних) для этой ситуации в случае с одним хвостом; LLT с двумя хвостами, как правило, не имеют одинаковой пропорции в каждом хвосте для небольших размеров выборки. (Мощность должна быть лучше, чем у t-критерия, но мощность для t-критерия должна быть вполне разумной, и я ожидаю, что при размерах выборки не будет большой разницы.)

б) вы можете сделать перестановочный тест - даже если хотите, основывать его на t-тесте. Таким образом, единственное, что меняется, это вычисление p-значения. Или вы можете сделать какой-нибудь другой тест на повторную выборку, такой как тест на основе начальной загрузки. Это должно иметь хорошую силу, хотя отчасти это будет зависеть от того, какую статистику теста вы выберете относительно вашего распределения.

в) вы можете выполнить непараметрический тест на основе рангов (такой как критерий Уилкоксона-Манна-Уитни). Если вы предполагаете, что если распределения различаются, то они отличаются только масштабным коэффициентом (подходит для различных искаженных распределений, включая экспоненциальные), тогда вы даже можете получить доверительный интервал для отношения параметров масштаба.

[Для этой цели я бы предложил работать с логарифмическим масштабом (смещение местоположения в логах является журналом смещения шкалы). Это не изменит p-значение, но позволит вам возвести в степень оценку точки и пределы CI, чтобы получить интервал для сдвига шкалы.]

Это также должно иметь достаточно хорошую мощность, если вы находитесь в экспоненциальной ситуации, но, вероятно, не так хорошо, как при использовании t-критерия.


Ссылка, которая рассматривает значительно более широкий набор случаев для альтернативы смещения местоположения (например, с неоднородностью дисперсии и асимметрии при нулевом значении)

Fagerland, MW и L. Sandvik (2009),
" Проведение пяти тестов с двумя выборками для асимметричных распределений с неравными отклонениями",
Modern Clinical Trials , 30 , 490–496

Обычно он рекомендует U-тест Уэлча (конкретный из нескольких тестов, рассмотренных Уэлчем и единственный, который они тестировали). Если вы не используете точно такую ​​же статистику Уэлча, рекомендации могут несколько отличаться (хотя, вероятно, не сильно). [Обратите внимание, что если ваши дистрибутивы экспоненциальны, вас интересует альтернатива масштаба, если вы не берете журналы ... в этом случае у вас не будет неравных отклонений.]

Glen_b - Восстановить Монику
источник
4
Отличный ответ! Я был действительно ошеломлен, сколько информации вы собрали в одном посте
Кристиан Зауэр
@Glen_b, это отличный ответ! Большое спасибо. Еще один вопрос: мои образцы взяты из того же набора данных. Я хочу сравнить выборки пользователей с характеристикой X и пользователей с характеристиками Y. Выборки для пользователей X составляют около ~ 500, а выборки для пользователей Y - около ~ 10000. Существует огромная разница в размерах, но она, похоже, не имеет большой разницы в их форме (если смотреть на графики плотности и вероятности). Будет ли проблемой в любом случае использовать t-тесты?
Милена Араужо
Когда вы говорите «огромная разница в размере», вы говорите о размере выборки (10000 против 500) или о типичных значениях в каждой группе? (Кстати, являются ли они непрерывными или дискретными? Насколько малы типичные минимальные значения для данных такого типа?
Похожи
1
Вам может быть лучше с таблицей для таких данных. Важная информация заключается в том, что она не просто дискретна, но почти все значения находятся в самом низком числе вопросов. Если вы построите гистограмму, постройте ее без колебаний, и убедитесь, что все низкие значения являются отдельными (столбцы для каждого из 0, 1, 2, а не для их объединения). Лучше отрезать правое и распределить левее больше (там, где находятся почти все данные), если вы четко дадите понять, что если вы отрежете что-то еще, то справа. Включите информацию о том, что вы измеряете и чего вы пытаетесь достичь ... (ctd)
Glen_b
1
@ScottH часть 1.c моего ответа обращается к этому явным образом и рассматривает, насколько это важно в обсуждаемом случае (приблизительно экспоненциальное распределение при аналогичных размерах выборки)
Glen_b