У меня есть образцы из сильно искаженного (похожего на экспоненциальный дистрибутив) набора данных об участии пользователей (например, количество постов), которые имеют разные размеры (но не менее 200), и я хочу сравнить их среднее значение. Для этого я использую непарные t-тесты с двумя образцами (и t-тесты с коэффициентом Уэлча, когда образцы имели различные отклонения). Как я слышал, для действительно больших выборок не имеет значения, что выборка распределяется не нормально.
Кто-то, просматривая мои действия, сказал, что используемые мной тесты не подходят для моих данных. Они предложили лог-трансформировать мои образцы перед использованием t-тестов.
Я новичок, поэтому мне кажется странным, что я отвечаю на мои вопросы об исследовании с помощью «метрики участия».
Они не правы? Я ошибаюсь? Если они не правы, есть ли книга или научная статья, которую я мог бы процитировать / показать им? Если я ошибаюсь, какой тест я должен использовать?
источник
Ответы:
Я бы не назвал «экспоненциальным», особенно сильно искаженным. Например, его бревно явно наклонено влево, а его моментное отклонение составляет всего 2.
1) С помощью Т-тест с экспоненциальными данными иN вблизи 500 находится в порядке :
a) Числитель тестовой статистики должен быть точным: если данные являются независимой экспоненциальной с общей шкалой (и не имеют значительно более сложного хвоста), то их средние значения гамма-распределены с параметром формы, равным количеству наблюдений. Его распределение выглядит очень нормально для параметра формы больше 40 или около того (в зависимости от того, как далеко в хвост вам нужна точность).
Это способно к математическому доказательству, но математика не наука. Конечно, вы можете проверить это эмпирически с помощью симуляции, но если вы ошибаетесь в экспоненциальности, вам могут потребоваться большие выборки. Вот как выглядит распределение выборочных сумм (и, следовательно, выборочных средних) экспоненциальных данных, когда n = 40:
Очень слегка перекос. Эта асимметрия уменьшается как квадратный корень от размера выборки. Так что при n = 160 это в два раза меньше перекоса. При n = 640 это четверть перекоса:
То, что это эффективно симметрично, можно увидеть, перевернув его относительно среднего значения и нанеся его сверху:
Синий оригинал, красный перевернут. Как видите, они почти случайны.
-
-
в) Однако на самом деле имеет значение распределение всей статистики под нулем. Нормальности числителя недостаточно для того, чтобы t-статистика имела t-распределение. Однако, в случае экспоненциальных данных, это тоже не большая проблема:
Однако обратите внимание, что для фактически экспоненциальных данных стандартное отклонение будет отличаться только в том случае, если средние значения различны. Если имеет место экспоненциальная презумпция, то при нулевом значении нет особой необходимости беспокоиться о различных дисперсиях населения, поскольку они встречаются только при альтернативе. Таким образом, t-критерий с равной дисперсией должен быть в порядке (в этом случае приведенное выше хорошее приближение, которое вы видите на гистограмме, может даже быть немного лучше).
2) Взятие логов может все же позволить вам разобраться в этом, хотя
[Если вы проведете этот тест в журналах, я был бы склонен предложить провести тест на равную дисперсию в этом случае.]
Итак, простым вмешательством, возможно, одного или двух предложений, оправдывающих связь, аналогично тому, что у меня было выше, вы сможете написать свои выводы не о журнале показателя участия, а о самом показателе участия.
3) Есть много других вещей, которые вы можете сделать!
а) вы можете сделать тест, подходящий для экспоненциальных данных. Тест на основе отношения правдоподобия легко получить. Как это случается, для экспоненциальных данных вы получаете F-тест для небольшой выборки (на основе отношения средних) для этой ситуации в случае с одним хвостом; LLT с двумя хвостами, как правило, не имеют одинаковой пропорции в каждом хвосте для небольших размеров выборки. (Мощность должна быть лучше, чем у t-критерия, но мощность для t-критерия должна быть вполне разумной, и я ожидаю, что при размерах выборки не будет большой разницы.)
б) вы можете сделать перестановочный тест - даже если хотите, основывать его на t-тесте. Таким образом, единственное, что меняется, это вычисление p-значения. Или вы можете сделать какой-нибудь другой тест на повторную выборку, такой как тест на основе начальной загрузки. Это должно иметь хорошую силу, хотя отчасти это будет зависеть от того, какую статистику теста вы выберете относительно вашего распределения.
в) вы можете выполнить непараметрический тест на основе рангов (такой как критерий Уилкоксона-Манна-Уитни). Если вы предполагаете, что если распределения различаются, то они отличаются только масштабным коэффициентом (подходит для различных искаженных распределений, включая экспоненциальные), тогда вы даже можете получить доверительный интервал для отношения параметров масштаба.
[Для этой цели я бы предложил работать с логарифмическим масштабом (смещение местоположения в логах является журналом смещения шкалы). Это не изменит p-значение, но позволит вам возвести в степень оценку точки и пределы CI, чтобы получить интервал для сдвига шкалы.]
Это также должно иметь достаточно хорошую мощность, если вы находитесь в экспоненциальной ситуации, но, вероятно, не так хорошо, как при использовании t-критерия.
Ссылка, которая рассматривает значительно более широкий набор случаев для альтернативы смещения местоположения (например, с неоднородностью дисперсии и асимметрии при нулевом значении)
Fagerland, MW и L. Sandvik (2009),
" Проведение пяти тестов с двумя выборками для асимметричных распределений с неравными отклонениями",
Modern Clinical Trials , 30 , 490–496
Обычно он рекомендует U-тест Уэлча (конкретный из нескольких тестов, рассмотренных Уэлчем и единственный, который они тестировали). Если вы не используете точно такую же статистику Уэлча, рекомендации могут несколько отличаться (хотя, вероятно, не сильно). [Обратите внимание, что если ваши дистрибутивы экспоненциальны, вас интересует альтернатива масштаба, если вы не берете журналы ... в этом случае у вас не будет неравных отклонений.]
источник