Самозагрузка - нужно ли сначала удалять выбросы?

19

Мы запустили сплит-тест новой функции продукта и хотим оценить, является ли увеличение выручки значительным. Наши наблюдения, как правило, не распределяются нормально (большинство наших пользователей не тратят, а среди тех, кто их тратит, они сильно отклоняются от множества мелких и очень больших расходов).

Мы решили использовать начальную загрузку для сравнения средств, чтобы обойти проблему с тем, что данные не распределяются нормально (дополнительный вопрос: это законное использование начальной загрузки?)

У меня вопрос: нужно ли обрезать выбросы из набора данных (например, несколько очень больших затрат) перед запуском начальной загрузки, или это не имеет значения?

user31228
источник
1
Хороший вопрос: я могу поспорить за и против удаления выбросов. Почему бы не использовать медианы, если вы беспокоитесь о выбросах, и то, что вы ищете, является лишь «центральной тенденцией»? Учитывая, что переменные, связанные с деньгами, часто имеют сильно искаженное распределение (например, Парето), что, во-первых, может быть неоправданным.
usεr11852 говорит восстановить Monic
1
@ user11852 Медианы мало что говорят о значении, которое имеет отношение к доходу. Было бы интересно увидеть ваш аргумент в пользу устранения «выбросов», особенно когда они, вероятно, вносят основной вклад в общий доход.
whuber
1
К сожалению, медиана всегда будет равна нулю, так как <10% пользователей вообще тратят
user31228
2
@ user11852 Ваш общий аргумент, что выбросы являются законными, полезен. Но, что касается возможности усиления, мне кажется, что все наоборот: начальная загрузка имеет шанс работать только при использовании полной выборки. В противном случае он представляет собой сказку, рассказывающую о том, как все было бы, если бы выбросов не было - но, очевидно, они существуют. Большая проблема заключается в том, что у начальной загрузки мало теоретического обоснования применительно к малым выборкам: теория асимптотическая .
whuber
2
Это важный вопрос (+1). Можете ли вы добавить небольшой образец вашего набора данных или имитированный образец, напоминающий его к вопросу? Я думаю, что предоставление иллюстрации будет более плодотворным в этом случае.
user603

Ответы:

6

Прежде чем заняться этим, важно признать, что статистическая халатность «устранения выбросов» была ошибочно обнародована в большей части прикладной статистической педагогики. Традиционно выбросы определяются как наблюдения с высоким левереджем и высоким влиянием. Можно и нужно идентифицировать такие наблюдения при анализе данных, но одни эти условия не требуют удаления этих наблюдений. «Истинный выброс» - это наблюдение с высоким левереджем / высоким влиянием, которое несовместимо с копиями экспериментального плана. Чтобы считать наблюдение таким, как таковое, необходимы специальные знания этой группы населения и научные знания о «механизме генерирования данных». Наиболее важным аспектом является то, что вы должны быть в состоянии выявить потенциальные выбросы априори .

Что касается аспекта самозагрузки, то самозагрузка предназначена для имитации независимых повторяющихся операций извлечения из выборочной совокупности. Если вы заранее указали критерии исключения в плане анализа, вы все равно должны оставить исключенные значения в референтном распределении выборки начальной загрузки . Это связано с тем, что вы будете учитывать потерю мощности из-за применения исключений после выборки ваших данных. Однако, если нет , предписанным критерии исключения и выпадающие удаляются с помощью постфактум судебного решения, так как я , очевидно , сплочение против, убрав эти значения будут распространяться те же ошибки в умозаключения, которые вызваны удаления выбросов.

Рассмотрим исследование богатства и счастья в простой стратифицированной случайной выборке из 100 человек. Если бы мы буквально взяли утверждение «1% населения владеет 90% мирового богатства», то мы бы наблюдали в среднем одну очень влиятельную ценность. Предположим далее, что помимо обеспечения базового качества жизни не было никакого излишнего счастья, связанного с большим доходом (непостоянная линейная тенденция). Таким образом, этот человек также высокий рычаг.

Коэффициент регрессии наименьших квадратов соответствует неподтвержденным данным, оценивает усредненный тренд первого порядка в этих данных. Это сильно ослаблено нашим 1 человеком в выборке, счастье которого согласуется с теми, кто близок к среднему уровню дохода. Если мы удалим этого индивида, наклон регрессии по методу наименьших квадратов будет намного больше, но дисперсия регрессора уменьшится, следовательно, вывод об ассоциации примерно такой же. Сложность в этом заключается в том, что я не указывал условия, при которых отдельные лица будут исключены. Если бы другой исследователь повторил этот дизайн исследования, он бы выбрал в среднем одного человека с высоким доходом, умеренно счастливого человека и получил бы результаты, которые не соответствовали моим «усеченным» результатам.

Если бы мы изначально интересовались ассоциацией счастья со средним доходом, то нам следовало бы заранее указать, что мы будем, например, «сравнивать людей, зарабатывающих менее 100 000 долларов годового дохода семьи». Таким образом, удаление выброса заставляет нас оценивать ассоциацию, которую мы не можем описать, поэтому значения p не имеют смысла.

С другой стороны, неверно откалиброванное медицинское оборудование и ложная самооценка могут быть удалены. Чем точнее эти критерии исключения могут быть описаны до проведения фактического анализа, тем более достоверными и последовательными будут результаты, которые даст такой анализ.

Adamo
источник
Я не уверен, что понимаю, почему « если вы заранее зададите критерии исключения в плане анализа, вы все равно должны оставить исключенные значения в референтном распределении выборки начальной загрузки. « Вы упоминаете, что это так », потому что вы будете учитывать потерю мощности из-за применение исключений после выборки ваших данных. «Я не понимаю, почему предполагается, что применение критериев исключения после выборки ведет к потере мощности, и как / почему оставление исключенных случаев в образце начальной загрузки« объясняет »(?) это, и далее, почему это то, что явно должно быть «учтено». Может быть, я плотный здесь.
Джейк Уэстфолл
Ну, это зависит от вашего правила отбора проб. Если вы соберете данные о 100 человек и 5 из них не имеют права на участие и исключены, вы могли бы заново собрать 95 наблюдений от 95 подходящих участников, но это не отразило бы тот факт, что, если вы случайным образом произвели выборку из 100 человек из 10 человек, потенциально 10 или 8, 4 или 0 из них не будут соответствовать критериям вашего исследования. Такая неопределенность влияет на распределение и интерпретацию значения в соответствии с нулевой гипотезой. Помните, что бутстрап предназначен для имитации такого рода семплирования. п
AdamO
Хм, я подумал, что если кто-то определит критерии исключения заранее - так что мы явно не заинтересованы в определенных типах случаев, и, вероятно, в будущих исследованиях будут использоваться те же критерии исключения - тогда было бы целесообразно оставить эти случаи из выборки начальной загрузки, поскольку они представляют собой часть населения, о которой мы не хотим делать никаких выводов. Я вижу , как в будущем репликации могут в конечном итоге исключить другую часть случаев, но я не могу достаточно сделать связь , почему это имеет значение для тех случаев , которые мы явно являемся заинтересованными в ..
Джейке Вестфоле
1
«тогда было бы целесообразно исключить эти случаи из выборки, так как они являются частью населения, о котором мы не хотим делать какие-либо выводы». Я говорю, чтобы позволить начальной загрузке отобрать эти случаи, удалить их из модели, подходящей для выборочной популяции начальной загрузки. Это позволяет варьировать эффективный размер выборки каждой итерации БС. Таким образом, распределение значения в зависит от неопределенности размера выборки (т.е. не зная, сколько случаев в фиксированной выборке из несовершенной популяции необходимо будет отбросить)H 0пЧАС0
AdamO
0

Смотреть на это как на проблему со стороны мне кажется неправильным. Если «<10% пользователей тратят на все», вам необходимо смоделировать этот аспект. Регрессия Тобита или Хекмана была бы двумя вариантами.

JKP
источник
2
В настоящее время это скорее комментарий, чем ответ. Не могли бы вы немного расширить его, чтобы сделать его более понятным?
gung - Восстановить Монику