Я пытаюсь понять причину, выбирая конкретный подход к тестированию при работе с простым A / B-тестом - (т.е. две вариации / группы с двоичным респоном (преобразованным или нет). В качестве примера я буду использовать данные ниже
Version Visits Conversions
A 2069 188
B 1826 220
Верхний ответ здесь хорош и говорит о некоторых базовых допущениях для тестов z, t и хи-квадрат. Но что меня смущает, так это то, что разные онлайн-ресурсы будут ссылаться на разные подходы, и вы думаете, что предположения для базового A / B-теста должны быть примерно одинаковыми?
- Например, эта статья использует z-счет :
- В этой статье используется следующая формула (которую я не уверен, если она отличается от вычисления zscore?):
- Эта статья ссылается на критерий Стьюдента (стр. 152):
Так что же можно сделать в пользу этих разных подходов? Почему у кого-то есть предпочтения?
Чтобы добавить еще одного кандидата, приведенную выше таблицу можно переписать как таблицу на случай непредвиденных обстоятельств 2x2, где можно использовать точный критерий Фишера (p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Но в соответствии с этой нитью точный критерий Фишера следует использовать только для образцов меньшего размера (что такое отсечение?)
И еще есть парные t и z тесты, f test (и логистическая регрессия, но я хочу пока об этом забыть) .... Я чувствую, что тону в разных подходах к тестированию, и я просто хочу иметь возможность приведите аргументы для различных методов в этом простом тестовом примере.
Используя данные примера, я получаю следующие p-значения
https://vwo.com/ab-split-test-significance-calculator/ дает p-значение 0,001 (z-оценка)
http://www.evanmiller.org/ab-testing/chi-squared.html (с использованием критерия хи-квадрат) дает значение р 0,00259
И в R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
дает р-значение 0,002785305
Который, я думаю, все довольно близко ...
В любом случае - просто надеяться на полезную дискуссию о том, какие подходы использовать в онлайн-тестировании, когда размеры выборки обычно исчисляются тысячами, а соотношение ответов часто составляет 10% или менее. Мой инстинкт подсказывает мне использовать хи-квадрат, но я хочу точно ответить, почему я выбираю его из множества других способов сделать это.
Ответы:
Мы используем эти тесты по разным причинам и при разных обстоятельствах.
С и тестами ваша альтернативная гипотеза будет состоять в том, что среднее значение вашей популяции (или доля населения) одной группы либо не равно, меньше или больше, чем среднее значение популяции (или пропорция) или другой группы. Это будет зависеть от типа анализа, который вы хотите сделать, но ваши нулевые и альтернативные гипотезы напрямую сравнивают средние / пропорции от двух групп.z t
Тест хи-квадрат. В то время как и тесты касаются количественных данных (или пропорций в случае ), тесты хи-квадрат подходят для качественных данных. Опять же, предполагается, что наблюдения не зависят друг от друга. В этом случае вы не ищете конкретные отношения. Ваша нулевая гипотеза состоит в том, что не существует никакой связи между переменной один и переменной два. Ваша альтернативная гипотеза заключается в том, что отношения существуют. Это не дает вам конкретной информации о том, как существуют эти отношения (т. Е. В каком направлении они развиваются), но предоставит доказательства того, что отношения существуют (или не существуют) между вашей независимой переменной и вашими группами.z t z
Точный тест Фишера. Одним из недостатков теста хи-квадрат является то, что он асимптотический. Это означает, что значение является точным для очень больших размеров выборки. Однако, если ваши размеры выборки невелики, значение может быть не совсем точным. Таким образом, точный тест Фишера позволяет вам точно рассчитать значение ваших данных и не полагаться на аппроксимации, которые будут неудовлетворительными, если размеры выборки будут небольшими.p p p
Я продолжаю обсуждать размеры выборки - разные ссылки дадут вам разные метрики относительно того, когда ваши образцы достаточно велики. Я бы просто нашел авторитетный источник, посмотрел на их правило и применил их, чтобы найти нужный тест. Я бы не стал «ходить по магазинам», так сказать, до тех пор, пока вы не найдете правило, которое вам «нравится».
В конечном итоге выбранный вами тест должен основываться на: а) размере вашей выборки и б) в какой форме вы хотите принять свои гипотезы. Если вы ищете конкретный эффект в своем тесте A / B (например, моя группа B имеет более высокие оценки), я бы выбрал размер выборки -test или test, ожидающий рассмотрения, и знания населения. дисперсия. Если вы хотите показать, что отношения просто существуют (например, моя группа A и группа B различаются в зависимости от независимой переменной, но мне все равно, какая группа имеет более высокие оценки), то точный критерий хи-квадрат или точный критерий Фишера уместно, в зависимости от размера выборки.z t
Имеет ли это смысл? Надеюсь это поможет!
источник
Для 3-х стороннего теста вы обычно используете ANOVA, а не 3 отдельных теста. Пожалуйста, проверьте исправление Бонферрони перед многократным тестированием. Используйте этот https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i60l3j69i61j0.3564j0j7&sourceid=Frome&sourceid=chrome
источник