Учитывая, что ваши две метрики: 1) двоичные и 2) тяжелые, вы должны избегать t-критерия, который предполагает нормальное распределение.
Я думаю, что Mann-Whitney U - ваш лучший выбор, и он должен быть достаточно эффективным, даже если ваши дистрибутивы были почти нормальными.
По поводу вашего второго вопроса:
Что произойдет, если один тест предполагает значительную разницу между когортами, а другой - незначительную разницу?
Это не редкость, если статистическая разница является пограничной, а данные имеют «грязное» распределение выборок. Эта ситуация требует от аналитика тщательного рассмотрения всех допущений и ограничений каждого статистического теста и придания наибольшего значения статистическому тесту, который имеет наименьшее количество нарушений допущений.
Возьмите предположение о нормальном распределении. Существуют различные тесты на нормальность, но это еще не конец истории. Некоторые тесты работают довольно хорошо на симметричных распределениях, даже если есть некоторые отклонения от нормальности, но не работают хорошо на косых распределениях.
Как правило, я бы рекомендовал вам не запускать тесты, если какие-либо из его предположений явно нарушены.
РЕДАКТИРОВАТЬ: Для второй переменной может быть целесообразным преобразовать переменную в переменную, которая обычно распределяется (или, по крайней мере, близко), пока преобразование сохраняет порядок. Вы должны быть уверены, что преобразование дает нормальное распределение для обеих когорт. Если вы подгоняете вторую переменную к логарифмически нормальному распределению, то функция логарифма преобразует ее в нормальное распределение. Но если распределение - это Парето (степенной закон), то преобразования в нормальное распределение не происходит.
РЕДАКТИРОВАТЬ: Как предлагается в этом комментарии , вы должны определенно рассмотреть байесовскую оценку в качестве альтернативы t-тестированию и другим тестам значимости нулевой гипотезы (NHST).
Для реальных данных вы также можете рассмотреть возможность создания собственной статистики теста на основе начальной загрузки ваших данных. Этот подход имеет тенденцию давать точные результаты, когда вы имеете дело с ненормальными распределениями населения или пытаетесь создать доверительный интервал вокруг параметра, который не имеет удобного аналитического решения. (Первое верно в вашем случае. Я упоминаю только второе для контекста.)
Для ваших реальных данных вы должны сделать следующее:
Получив это распределение, рассчитайте разницу в средних для ваших фактических выборок и вычислите значение p.
источник
Я второй @ ответ MrMeritology. На самом деле мне было интересно, будет ли тест MWU менее мощным, чем тест независимых пропорций, поскольку в учебниках, которые я изучал и использовал для обучения, говорилось, что MWU можно применять только к порядковым (или интервальным / соотношением) данным.
Но мои результаты моделирования, приведенные ниже, показывают, что тест MWU на самом деле немного более мощный, чем тест пропорции, при этом хорошо контролируя ошибку типа I (при доле населения группы 1 = 0,50).
Доля населения группы 2 сохраняется на уровне 0,50. Количество итераций составляет 10000 в каждой точке. Я повторил симуляцию без коррекции Йейт, но результаты были такими же.
источник