Проверка веб-тестов a / b путем повторного запуска эксперимента - это действительно ли так?

На вебинаре, проведенном на днях компанией по тестированию a / b, их резидент «Data Scientist» объяснил, что вам следует проверить свои результаты, повторно выполнив эксперимент. Исходя из этого, если вы выбрали 95% достоверности, существует вероятность 5% (1/20) ложного срабатывания. Если вы повторно запустите свой эксперимент с теми же ограничениями, то теперь будет 1/400 (я предполагаю, что они определили это как 0,05 ^ 2 = 1/400)

Это правильное утверждение? (т. е. «выполнить дважды, две статистически значимые победы = 1/400 вероятности ложного срабатывания»)? Это был бы лучший подход для повышения вашего уровня значимости?

С точки зрения бизнеса, меня беспокоит повторный запуск эксперимента, когда вы открываете большему количеству пользователей низкую страницу (обработку) и тем самым теряете потенциальные продажи.

probability hypothesis-testing statistical-significance ab-test Джон
источник

Привет Джон, добро пожаловать в Stats.SE! Если вы удовлетворены каким-либо из ответов, вам следует принять один из них или предоставить более четкие вопросы о том, что вы ищете.

Кристофер Аден

Джон, я подозреваю, что реальная проблема касается контекста. Редко люди тратят ресурсы на изучение только одной вещи за один раз: они хотят получить максимум от своих данных по уважительной причине. Это означает, что каждый набор данных будет использоваться для нескольких тестов. Более того, иногда тесты проводятся постфактумно : они были вдохновлены шаблонами, которые видны в данных. В таких случаях тесты на самом деле не имеют желаемой 95% (или любой другой) достоверности, и репликация необходима. Итак: что именно вы подразумеваете под «экспериментом»? Ответ зависит от этой маленькой детали!

whuber

О повторениях эксперимента и значениях значимости проверьте этот комикс XKCD : xkcd.com/882 После прочтения этого проверьте комментарий выше.

Лукас Галлиндо

whuber: извините за отсутствие подробностей, я ссылаюсь на оптимизацию веб-сайта, поэтому в качестве примера эксперимента можно было бы попробовать две версии моей домашней страницы с 50/50 разделением пользователей на каждую.

Джон

Ответы:

Игнорируя вероятности ложного срабатывания на данный момент, я бы посмотрел на это так:

Если вы проводите эксперимент дважды и получаете один и тот же результат, вы не представляете, были ли два подряд положительных результата или два ложноположительных результата подряд.
Если вы проведете эксперимент дважды и получите два разных результата, то вы не знаете, какой из них является истинно положительным, а какой - ложноположительным.

В любом случае вам следует провести третий эксперимент, чтобы быть уверенным. Это может быть хорошо для экспериментов, которые относительно недороги, но там, где стоимость потенциально высока (например, потеря клиентов), вам действительно нужно учитывать выгоду.

Глядя на вероятности, при первом запуске эксперимента вероятность ложного срабатывания составляет 1/20. Во второй раз, когда вы запускаете эксперимент, вероятность ложного срабатывания все еще составляет 1/20 (представьте, что это бросок кубика, где каждый бросок имеет 1/6 вероятности получить определенное число). Есть только 1/400 шансов получить два ложных срабатывания подряд.

Реальная проблема заключается в том, чтобы иметь четко определенную гипотезу со строгими процедурами и иметь размер выборки, уровень ошибок и доверительный интервал, с которым вы можете жить или позволить. Повтор эксперимента следует оставить для изучения

клиенты со временем
изменения, внесенные организацией
изменения, внесенные конкурсом

а не второй гадать результаты. Хотя объяснить это менеджерам легче, чем сделать.

ЕКМ
источник

mjc, большое спасибо за комментарий - это именно то, что я искал.

Джон

Да, это утверждение верно, если предположить, что ваш эксперимент идеален. Но получить идеальный эксперимент намного сложнее, чем это чувство дает доверие. Данные «реального мира» беспорядочны, сложны и, во-первых, их трудно интерпретировать. Существует огромный простор для некорректного анализа, скрытых переменных (очень редко "одни и те же ограничения") или недопонимания между специалистом по данным, выполняющим свою работу, и специалистом по маркировке, выполняющим свою.

С точки зрения бизнеса обеспечить хорошую методологию и не быть слишком уверенным в результатах; сложнее, чем вы думаете. Как только вы это сделаете, работайте над этими 5%.

Эрик Чианг
источник

Спасибо, что отвечает на первый вопрос. А как насчет второго вопроса: «Был бы лучший способ повысить уровень значимости?» Просто выполняя быстрое моделирование в R (сохраняя тот же размер эффекта и мощность, только изменяя значение значимости), я мог бы собрать на ~ 4,8% меньше данных, просто выбрав значимость 97,5%, вместо того, чтобы проводить 2X эксперименты со значением 95%. Я должен уточнить - когда я спрашиваю: «Было бы лучше ...», я имею в виду, мог бы я достичь того же конечного результата, собирая меньше данных.

Джон