A / B тесты: z-тест против t-теста против хи-квадрат против точного теста Фишера

38

Я пытаюсь понять причину, выбирая конкретный подход к тестированию при работе с простым A / B-тестом - (т.е. две вариации / группы с двоичным респоном (преобразованным или нет). В качестве примера я буду использовать данные ниже

Version  Visits  Conversions
A        2069     188
B        1826     220

Верхний ответ здесь хорош и говорит о некоторых базовых допущениях для тестов z, t и хи-квадрат. Но что меня смущает, так это то, что разные онлайн-ресурсы будут ссылаться на разные подходы, и вы думаете, что предположения для базового A / B-теста должны быть примерно одинаковыми?

  1. Например, эта статья использует z-счет :введите описание изображения здесь
  2. В этой статье используется следующая формула (которую я не уверен, если она отличается от вычисления zscore?):

введите описание изображения здесь

  1. Эта статья ссылается на критерий Стьюдента (стр. 152):

введите описание изображения здесь

Так что же можно сделать в пользу этих разных подходов? Почему у кого-то есть предпочтения?

Чтобы добавить еще одного кандидата, приведенную выше таблицу можно переписать как таблицу на случай непредвиденных обстоятельств 2x2, где можно использовать точный критерий Фишера (p5)

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Но в соответствии с этой нитью точный критерий Фишера следует использовать только для образцов меньшего размера (что такое отсечение?)

И еще есть парные t и z тесты, f test (и логистическая регрессия, но я хочу пока об этом забыть) .... Я чувствую, что тону в разных подходах к тестированию, и я просто хочу иметь возможность приведите аргументы для различных методов в этом простом тестовом примере.

Используя данные примера, я получаю следующие p-значения

  1. https://vwo.com/ab-split-test-significance-calculator/ дает p-значение 0,001 (z-оценка)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (с использованием критерия хи-квадрат) дает значение р 0,00259

  3. И в R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valueдает р-значение 0,002785305

Который, я думаю, все довольно близко ...

В любом случае - просто надеяться на полезную дискуссию о том, какие подходы использовать в онлайн-тестировании, когда размеры выборки обычно исчисляются тысячами, а соотношение ответов часто составляет 10% или менее. Мой инстинкт подсказывает мне использовать хи-квадрат, но я хочу точно ответить, почему я выбираю его из множества других способов сделать это.

L Xandor
источник
Что касается и тестов, на ваш вопрос уже есть ответ здесь: stats.stackexchange.com/questions/85804/…zt
Tim
Я нашел эту демонстрацию довольно полезной. Что показывает, что z-критерий для пропорций по существу эквивалентен критерию хи-квадрат однородности в таблице сопряженности 2x2. rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

Ответы:

24

Мы используем эти тесты по разным причинам и при разных обстоятельствах.

  1. z тест. -test предполагает , что наши наблюдения независимо взяты из нормального распределения с неизвестным средним и известной дисперсией. -test используется в основном , когда мы имеем количественные данные. (т. е. вес грызунов, возраст особей, систолическое артериальное давление и т. д.) Тем не менее, тесты также могут быть использованы при заинтересованности в пропорциях. (т.е. доля людей, которые спят не менее восьми часов и т. д.)zzz

  2. t тест. -test предполагает , что наши наблюдения независимо взяты из нормального распределения с неизвестным средним и неизвестной дисперсией. Обратите внимание, что с тестом мы не знаем дисперсию населения. Это гораздо чаще, чем знание дисперсии совокупности, поэтому критерий, как правило, более уместен, чем критерий, но практически не будет большой разницы между ними, если размеры выборки велики.tttz

С и тестами ваша альтернативная гипотеза будет состоять в том, что среднее значение вашей популяции (или доля населения) одной группы либо не равно, меньше или больше, чем среднее значение популяции (или пропорция) или другой группы. Это будет зависеть от типа анализа, который вы хотите сделать, но ваши нулевые и альтернативные гипотезы напрямую сравнивают средние / пропорции от двух групп.zt

  1. Тест хи-квадрат. В то время как и тесты касаются количественных данных (или пропорций в случае ), тесты хи-квадрат подходят для качественных данных. Опять же, предполагается, что наблюдения не зависят друг от друга. В этом случае вы не ищете конкретные отношения. Ваша нулевая гипотеза состоит в том, что не существует никакой связи между переменной один и переменной два. Ваша альтернативная гипотеза заключается в том, что отношения существуют. Это не дает вам конкретной информации о том, как существуют эти отношения (т. Е. В каком направлении они развиваются), но предоставит доказательства того, что отношения существуют (или не существуют) между вашей независимой переменной и вашими группами.ztz

  2. Точный тест Фишера. Одним из недостатков теста хи-квадрат является то, что он асимптотический. Это означает, что значение является точным для очень больших размеров выборки. Однако, если ваши размеры выборки невелики, значение может быть не совсем точным. Таким образом, точный тест Фишера позволяет вам точно рассчитать значение ваших данных и не полагаться на аппроксимации, которые будут неудовлетворительными, если размеры выборки будут небольшими.ppp

Я продолжаю обсуждать размеры выборки - разные ссылки дадут вам разные метрики относительно того, когда ваши образцы достаточно велики. Я бы просто нашел авторитетный источник, посмотрел на их правило и применил их, чтобы найти нужный тест. Я бы не стал «ходить по магазинам», так сказать, до тех пор, пока вы не найдете правило, которое вам «нравится».

В конечном итоге выбранный вами тест должен основываться на: а) размере вашей выборки и б) в какой форме вы хотите принять свои гипотезы. Если вы ищете конкретный эффект в своем тесте A / B (например, моя группа B имеет более высокие оценки), я бы выбрал размер выборки -test или test, ожидающий рассмотрения, и знания населения. дисперсия. Если вы хотите показать, что отношения просто существуют (например, моя группа A и группа B различаются в зависимости от независимой переменной, но мне все равно, какая группа имеет более высокие оценки), то точный критерий хи-квадрат или точный критерий Фишера уместно, в зависимости от размера выборки.zt

Имеет ли это смысл? Надеюсь это поможет!

Мэтт Бремс
источник
Спасибо за подробный ответ! Я собираюсь рассмотреть это подробно - я уверен, у меня будет несколько вопросов!
L Xandor
Не могли бы вы объяснить, как критерий хи-квадрат и точный критерий Фишера не указывают направление эффекта? Если все тесты логической статистики обеспечивают уровень достоверности того, взяты ли два набора выборок из разных популяций или из одной и той же популяции, то что математическая теория не позволяет сказать, что разность направлений в средних значениях сохранится (группа B имеет более высокий балл)?
Крис Ф
Для ясности, критерий хи-квадрат и точный критерий Фишера выполняют одно и то же, но значение p вычисляется немного по-разному. (Это приближение по хи-квадрату и точное вычисление по точному Фишеру.) Я обращусь к хи-квадрату, и оно будет обобщено до Фишера. Проблема здесь заключается в предпосылке. «Если все тесты логической логики обеспечивают уровень достоверности того, взяты ли две выборки из ...» - это не то, что делает тест хи-квадрат. Нулевая гипотеза для критерия хи-квадрат состоит в том, что нет ассоциации и альтернативная гипотеза ...
Мэтт Бремс
... есть какая-то связь между двумя категориальными переменными. Вы просто проверяете наличие ассоциации, а не заранее определяете определенное направление. (Существуют некоторые малоизвестные статистические данные, которые ДОЛЖНЫ определять определенную взаимосвязь, поэтому это возможно; однако это не то, для чего предназначен критерий хи-квадрат.) Позже сделать вывод, что существует определенная направленная зависимость, основанная на р-значение, которое рассчитывалось по другому набору гипотез, предназначенных для проверки существования ассоциации, было бы ошибкой.
Мэтт Бремс
В качестве примера рассмотрим гипотезу против и скажем, что вы выполняете тест и получаете значение 0,04. Вы бы отвергли нулевую гипотезу и пришли бы к выводу, что есть разница. Если ваша оценка для была выше 0, вы могли бы прийти к выводу, что истинное среднее значение выше 0. Однако, если вы рассматривали гипотезы против с те же данные, ваше значение будет равно 0,08, и вы не отклоните ноль, предполагая, что , что означает, что вы не можете сделать вывод, что больше 0.H A : μ 0 t p μ μ H 0 : μ 0 H A : μ > 0 p α = 0,05 μH0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ
Мэтт Бремс
-3

Для 3-х стороннего теста вы обычно используете ANOVA, а не 3 отдельных теста. Пожалуйста, проверьте исправление Бонферрони перед многократным тестированием. Используйте этот https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i60l3j69i61j0.3564j0j7&sourceid=Frome&sourceid=chrome

харини
источник