Определить размер выборки перед началом эксперимента или запустить эксперимент на неопределенный срок?

12

Я изучал статистику несколько лет назад и забыл все это, поэтому они могут показаться общими концептуальными вопросами, а не чем-то конкретным, но вот моя проблема.

Я работаю на сайте электронной коммерции как UX Designer. У нас есть система A / B-тестирования, созданная много лет назад, и я начинаю сомневаться в этом.

Метрика, по которой мы принимаем все решения, называется конверсией и основана на проценте пользователей, которые посещают сайт и в конечном итоге что-то покупают.

Итак, мы хотим проверить изменение цвета кнопки «Купить» с зеленого на синий.

Контроль - это то, что у нас уже есть, Зеленая кнопка, где мы знаем, каков наш средний коэффициент конверсии. Эксперимент заменяет зеленую кнопку синей кнопкой.

Мы согласны с тем, что 95% значимость - это уровень доверия, которым мы довольны, и мы включаем эксперимент, оставляем его в покое.

Когда пользователи посещают сайт, за кулисами существует вероятность 50/50, что они будут отправлены в контрольную версию (зеленая кнопка) по сравнению с экспериментальной версией (синяя кнопка).

Посмотрев на эксперимент через 7 дней, я вижу увеличение конверсии на 10,2% в пользу эксперимента с размером выборки 3000 (1500 для контроля, 1500 для эксперимента) и статистической значимостью 99,2%. Отлично, я думаю.

Эксперимент продолжается, размер выборки увеличивается, и затем я вижу увеличение конверсии на + 9% при значении 98,1%. Хорошо, продолжайте эксперимент дольше, и теперь эксперимент показывает увеличение конверсии всего на 5% при статистической значимости всего 92%, а структура говорит мне, что мне нужно еще 4600 выборок, прежде чем я достигну 95% значимости?

В какой момент эксперимент убедителен?

Если я подумаю, скажем, о процессе клинического испытания, в котором вы заранее согласуетесь с размером выборки и после завершения эксперимента вы увидите улучшение показателя на 10% от любого показателя до значения 99%, то принимается решение о том, что этот препарат затем поступит в продажу. Но затем, если они выполнили эксперимент на 4000 человек и увидели, что показатель улучшился на 5% до 92%, то этот препарат не был бы выпущен на рынок.

Должны ли мы заранее договориться о размере выборки и остановиться, как только размер этой выборки будет достигнут, и порадоваться результатам, если значение было 99% на момент выключения эксперимента?

Tech 75
источник
1
Вы можете рассмотреть возможность использования другого подхода, основанного на ранжировании и выборе .
PJS
Я наткнулся на этот фильм ( youtube.com/watch?v=fl9V0U2SGeI ). Звучит так, будто именно так и отвечает на ваш вопрос.
Натан
Также стоит отметить, что предметом исследования является высокая рефлексивность, быстрота и необходимость постоянного повторного тестирования. Макеты, цвета, кнопки и т. Д. Быстро меняются по мере появления новых сайтов, стандартов и стилей. Также высокий уровень комбинаторных проблем (эта кнопка может возвращать различные результаты с небольшим изменением цвета фона и т. Д.). В результате, независимо от уровней значимости, у вас не может быть очень высокого «истинного» уровня достоверности (и, конечно, не в течение длительных периодов) результатов, даже если они выглядят очень сильными.
Филипп

Ответы:

11

Я думаю, что концепция, которую вы ищете, это последовательный анализ. На этом сайте есть ряд вопросов, помеченных термином, который может оказаться полезным, возможно, корректировка значения p для адаптивного последовательного анализа (для критерия хи-квадрат)? было бы местом для начала. Вы также можете ознакомиться со статьей Википедии здесь . Еще один полезный поисковый термин - это альфа-расходы, которые вытекают из того факта, что при каждом повторном просмотре следует учитывать, что он расходует часть вашего альфа (уровень значимости). Если вы продолжаете смотреть на свои данные, не принимая во внимание множественные сравнения, вы сталкиваетесь с проблемой, которую вы изложили в своем вопросе.

mdewey
источник
Спасибо, это хорошие рекомендации по чтению. Я бы даже не знал, что искать в противном случае. Будет потреблять это.
Tech 75
5

В какой момент эксперимент убедителен?

Я думаю, что это ошибка мышления. Нет никакого смысла в том, чтобы эксперимент мог быть «убедительным», если принять это как «дедуктивно доказать причинность». Когда вы проводите эксперимент, который включает в себя статистический тест, вы должны взять на себя обязательство относительно того, какие доказательства вы считаете достаточно хорошими.

Статистически обоснованные экспериментальные процедуры дают результаты с известными показателями ложных срабатываний и ложных отрицательных результатов. Если вы выбрали процедуру, в которой в качестве порога значимости используется 0,05, вы говорите, что готовы принять, что в 5% случаев, когда на самом деле нет разницы, ваш тест скажет вам, что есть разница.

Если вы отклоняетесь от процедуры описанными вами способами (не выбирая точку остановки досрочно, просто запустите тест, пока ваше вычисленное значение p не упадет ниже 0,05, или проведите весь эксперимент несколько раз, пока вы не получите положительный результат и т. д.), вы повышаете вероятность того, что ваш тест скажет вам, что разница существует, когда на самом деле ее нет. Вы повышаете вероятность того, что вы будете обмануты, думая, что ваши изменения были эффективными. Не дай себя обмануть.

Прочитайте эту статью: Ложно-позитивная психология Не раскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное

В нем выделено несколько способов, которыми вы можете ненадлежащим образом вмешиваться в процедуру тестирования, что повышает вероятность того, что вас одурачат, включая конкретный сценарий, который вы описываете (не зная, когда прекратить эксперимент).

Другие ответы дают вам некоторые решения для смягчения этих проблем (последовательный анализ, коррекция Бонферрони для множественных сравнений). Но эти решения, в то время как в состоянии контролировать ложноположительных, как правило , уменьшить мощность эксперимента, что делает его менее вероятно , чтобы обнаружить различия , когда они делают существует.


Есть еще одна ошибка, которую вы делаете. Вы говорите о «10% улучшении любого показателя до значения 99%». Только тесты значимости могут сказать вам , может ли наблюдаемая разница в вашей выборке быть вызвана реальной базовой разницей или просто случайным шумом; они не дают вам доверительных интервалов относительно истинной величины разницы.

наука
источник
3

Я думаю, что вы задаете неправильный вопрос здесь. Вопрос, который вы задаете, касается статистических тестов; Я думаю, что правильный вопрос «почему эффект меняется со временем?»

Если вы измеряете переменную 0/1 для конвертации (они покупали вообще?), То люди, которые не покупали в начальной сессии, могут вернуться и купить позже. Это означает, что с течением времени коэффициент конверсии будет увеличиваться, и любой эффект от покупки покупателя при первом посещении будет утрачен.

Другими словами, сначала поймите правильно, что вы измеряете, затем беспокойтесь о том, как вы измеряете.

efreeman
источник
3

Именно поэтому необходимо определить четкий критерий перед испытаниями. Как указывает @mdewey, существуют установленные методы для периодической оценки испытания, но все они требуют четкого критерия остановки, чтобы не допустить какого-либо искажения решения. Две критические проблемы заключаются в том, что вам нужно исправить множественные сравнения, и что каждый анализ не является независимым, но его результаты сильно зависят от результатов вашего предыдущего анализа.

В качестве альтернативы может оказаться целесообразным определить размер выборки на основе коммерчески значимых аргументов.

Во-первых, компания должна согласиться с тем, что является коммерчески значимым изменением коэффициента конверсии (т. Е. Какой размер разницы необходим для обоснования коммерческого обоснования изменения, которое будет развернуто на постоянной основе). Без этого нет разумного ориентира.

Как только определен минимальный коммерчески значимый размер эффекта (обратите внимание, что он может изменяться в каждом конкретном случае в зависимости от того, насколько критичен тестируемый шаг), тогда вы соглашаетесь с уровнем риска, который компания готова принять за отсутствие истинного эффекта ( бета) и для принятия ложного эффекта (альфа).

Как только вы наберете эти цифры, подключите их к калькулятору размера выборки и вуаля, у вас будет установленный размер выборки для принятия решения.


РЕДАКТИРОВАТЬ

Использование небольших размеров выборки и надежда на то, что они покажут достаточно большой эффект, является ложной экономией (поскольку ваша цель - действенные надежные результаты, а не создание противоречивой гипотезы для академической публикации). Предполагая несмещенную выборку, при малых размерах выборки вероятность случайного выбора выборок, которые оказываются все в противоположных крайностях, выше, чем при больших объемах выборки. Это приводит к более высокой вероятности отклонения нулевой гипотезы, когда на самом деле нет разницы. Таким образом, это будет означать проталкивание изменений, которые на самом деле не оказывают реального воздействия или, что еще хуже, оказывают слегка отрицательное влияние. Это другой способ объяснить, о чем говорит @Science, когда они заявляют

«вы повышаете вероятность того, что ваш тест скажет вам, что разница существует, когда на самом деле нет никакой разницы»

Точка предварительного задания вашего статистического анализа (будь то фиксированный размер выборки, как я описываю, или стратегия множественной оценки) заключается в том, чтобы вы надлежащим образом сбалансировали требования как ошибок типа I, так и II. Ваша текущая стратегия направлена ​​на ошибки типа I и полностью игнорирует тип II.

Поскольку многие другие авторы заявили, что результаты никогда не являются окончательными, но если вы рассмотрели ошибки как I, так и II типов и их влияние на ваш бизнес, то у вас будет больше уверенности в том, сможете ли вы внести изменения на основе результатов. В конце концов, принятие решения заключается в том, чтобы чувствовать себя комфортно с вашим уровнем риска и никогда не воспринимать ваши «факты» как неизменные.

Я заинтригован другими аспектами дизайна вашего исследования, которые могут влиять на результаты, которые вы видите. Они могут раскрывать некоторые тонкие факторы, которые вам не нужны.

Являются ли люди, отобранные для выборки, всеми новыми посетителями, всеми возвращающимися посетителями или это недифференцировано? У устоявшихся клиентов может появиться тенденция к чему-то новому (так что они склонны к изменению не определенного цвета), но для новых клиентов все новое.

Реальные люди, щелкающие рецидивом в течение периода исследования?

Если люди посещают несколько раз в течение периода исследования, получают ли они одну и ту же версию или они распределяются случайным образом на лету?

Если сюда включены повторяющиеся посетители, существует опасность усталости от воздействия (это больше не отвлекает, потому что это больше не ново)

ReneBt
источник
Спасибо за это. Вы заранее согласны с коммерчески значимым изменением конверсии. Но, как и в случае с электронной коммерцией, небольшие изменения в конверсии могут повлиять на продажи, это будет довольно низкая стоимость.
Tech 75
Минимальное различие, необходимое для того, чтобы быть маленьким, не является проблемой, оно обеспечит правильное питание.
ReneBt
0

Обычная практика обычно требует, чтобы вы сначала определились с размером выборки (для контроля статистической мощности вашего теста на гипотезу), а затем провели эксперимент.

В ответ на ваше текущее положение звучит так, будто вы после объединения серии тестов гипотез. Я рекомендую вам взглянуть на метод Фишера. Кроме того, вы, вероятно, захотите взглянуть на методы Брауна или Кости для приспособления метода Фишера к статистике зависимых тестов. Как уже упоминал другой респондент, конверсия (или неконверсия) клиента будет влиять на то, совершит ли он покупку (или нет) при следующем посещении, независимо от цвета кнопки.

запоздалые мысли:

  1. Дополнительную информацию и источники о методах Фишера и их расширениях можно найти в статье в Википедии о методе Фишера.
  2. Я чувствую , что важно отметить , что эксперимент никогда действительно убедителен. Небольшое значение p не означает, что ваш результат является окончательным - только то, что нулевая гипотеза вряд ли основана на полученных вами данных.
Октавио Уриста
источник