Мы запустили сплит-тест новой функции продукта и хотим оценить, является ли увеличение выручки значительным. Наши наблюдения, как правило, не распределяются нормально (большинство наших пользователей не тратят, а среди тех, кто их тратит, они сильно отклоняются от множества мелких и очень больших расходов).
Мы решили использовать начальную загрузку для сравнения средств, чтобы обойти проблему с тем, что данные не распределяются нормально (дополнительный вопрос: это законное использование начальной загрузки?)
У меня вопрос: нужно ли обрезать выбросы из набора данных (например, несколько очень больших затрат) перед запуском начальной загрузки, или это не имеет значения?
Ответы:
Прежде чем заняться этим, важно признать, что статистическая халатность «устранения выбросов» была ошибочно обнародована в большей части прикладной статистической педагогики. Традиционно выбросы определяются как наблюдения с высоким левереджем и высоким влиянием. Можно и нужно идентифицировать такие наблюдения при анализе данных, но одни эти условия не требуют удаления этих наблюдений. «Истинный выброс» - это наблюдение с высоким левереджем / высоким влиянием, которое несовместимо с копиями экспериментального плана. Чтобы считать наблюдение таким, как таковое, необходимы специальные знания этой группы населения и научные знания о «механизме генерирования данных». Наиболее важным аспектом является то, что вы должны быть в состоянии выявить потенциальные выбросы априори .
Что касается аспекта самозагрузки, то самозагрузка предназначена для имитации независимых повторяющихся операций извлечения из выборочной совокупности. Если вы заранее указали критерии исключения в плане анализа, вы все равно должны оставить исключенные значения в референтном распределении выборки начальной загрузки . Это связано с тем, что вы будете учитывать потерю мощности из-за применения исключений после выборки ваших данных. Однако, если нет , предписанным критерии исключения и выпадающие удаляются с помощью постфактум судебного решения, так как я , очевидно , сплочение против, убрав эти значения будут распространяться те же ошибки в умозаключения, которые вызваны удаления выбросов.
Рассмотрим исследование богатства и счастья в простой стратифицированной случайной выборке из 100 человек. Если бы мы буквально взяли утверждение «1% населения владеет 90% мирового богатства», то мы бы наблюдали в среднем одну очень влиятельную ценность. Предположим далее, что помимо обеспечения базового качества жизни не было никакого излишнего счастья, связанного с большим доходом (непостоянная линейная тенденция). Таким образом, этот человек также высокий рычаг.
Коэффициент регрессии наименьших квадратов соответствует неподтвержденным данным, оценивает усредненный тренд первого порядка в этих данных. Это сильно ослаблено нашим 1 человеком в выборке, счастье которого согласуется с теми, кто близок к среднему уровню дохода. Если мы удалим этого индивида, наклон регрессии по методу наименьших квадратов будет намного больше, но дисперсия регрессора уменьшится, следовательно, вывод об ассоциации примерно такой же. Сложность в этом заключается в том, что я не указывал условия, при которых отдельные лица будут исключены. Если бы другой исследователь повторил этот дизайн исследования, он бы выбрал в среднем одного человека с высоким доходом, умеренно счастливого человека и получил бы результаты, которые не соответствовали моим «усеченным» результатам.
Если бы мы изначально интересовались ассоциацией счастья со средним доходом, то нам следовало бы заранее указать, что мы будем, например, «сравнивать людей, зарабатывающих менее 100 000 долларов годового дохода семьи». Таким образом, удаление выброса заставляет нас оценивать ассоциацию, которую мы не можем описать, поэтому значения p не имеют смысла.
С другой стороны, неверно откалиброванное медицинское оборудование и ложная самооценка могут быть удалены. Чем точнее эти критерии исключения могут быть описаны до проведения фактического анализа, тем более достоверными и последовательными будут результаты, которые даст такой анализ.
источник
Смотреть на это как на проблему со стороны мне кажется неправильным. Если «<10% пользователей тратят на все», вам необходимо смоделировать этот аспект. Регрессия Тобита или Хекмана была бы двумя вариантами.
источник