У меня есть набор данных. Скажите наблюдений и переменные:3
obs A B C
1 0 0 1
2 0 1 0
3 1 0 1
4 1 1 0
5 1 0 1
6 1 0 0
7 1 1 0
8 0 0 1
9 0 1 1
10 0 1 1
Скажем, это клиентов, которые купили ( ) или нет ( ) в каждой категории . Там их , поэтому эти покупателей покупают в среднем по товарным категориям.16 10 1,61
0
A, B, C
Обратите внимание, что клиенты могут купить больше, чем один из A, B и C.
Если я смотрю только на тех, кто покупает A
, то есть клиентов, которые купили в товарных категориях, то есть в среднем .9 1,8
B
это снова, или .1.8
C
является
Все они выше
что кажется странным Я понимаю это, но нужно объяснить это маркетингу на следующей неделе и поэтому нужна помощь!
Как называется эта вещь?
Я знаю, что это не парадокс Симпсона. Для меня это похоже на логику проблемы Монти Холла и условной вероятности.
proportion
descriptive-statistics
paradox
Джеймс Адамс
источник
источник
Ответы:
Среднее значение для каждой подкатегории может быть выше общего среднего, если подкатегории перекрываются для более крупных клиентов.
Простой пример обрести интуицию:
Множество индивидов, где истинно, перекрывает множество индивидов, где истинно. Это НЕ непересекающиеся множества.BA В
Тогда то время как иE [ X ∣ A ] = 1,5 E [ X ∣ B ] = 1,5Е[ X] ≈ 1,33 Е[ X∣ A ] = 1,5 Е[ X∣ B ] = 1,5
Утверждение, которое было бы правдой:
Вы не можете просто вычислить поскольку множества и перекрываются, выражение double подсчитывает человека кто покупает оба предмета и !A B A BP(A)E[X∣A]+P(B)E[X∣B] A B A B
Название для иллюзии / парадокса?
Я бы сказал, что это связано с парадоксом большинства иллюзий в социальных сетях.
У вас может быть один чувак, который общается / общается со всеми. Этот человек может быть одним из миллиона в целом, но он будет одним из друзей каждого человека .k
Точно так же у вас есть 1 из 3, кто покупает обе категории A и B. Но в пределах категории A или B 1 из 2 покупателей является суперпокупателем.
Крайний случай:
Давайте создадим наборов лотерейных билетов. Каждый набор включает в себя два билета: проигрышный билет и билет с выигрышем джекпота.S i in Si i
Средний выигрыш в каждом наборе равен где - джекпот. Среднее значение по каждой категории на ПУТЬ выше среднего выигрыша за билет в целом .JSi JJJ2 J Jn+1
Это та же концептуальная динамика, что и в случае продаж. Каждый набор включает в себя джекпот-билет так же, как и в каждую категорию A, B или C входят крупные покупатели.Si
Суть в том, что интуиция, основанная на непересекающихся наборах, полное разбиение выборочного пространства не переносит на ряд перекрывающихся наборов. Если вы используете перекрывающиеся категории, каждая категория может быть выше средней.
Если вы разбиваете выборочное пространство и условие на непересекающиеся наборы, то категории должны усредняться до общего среднего, но это не так для перекрывающихся наборов.
источник
Я бы назвал это парадоксом размера семьи или чем-то подобным
Предположим, для простого примера, у каждого был один партнер и число детей с распределением Пуассона с параметром :2
Реальные демографические данные и данные опросов дают разные цифры, но сходные модели
Очевидный парадокс заключается в том, что средний размер групп братьев и сестер выше среднего числа детей в семье; при стабильной динамике населения у людей, как правило, меньше детей, чем у их родителей
Объяснение заключается в том, берется ли среднее значение по родителям и семьям или братьям и сестрам: для многодетных семей применяются разные весовые коэффициенты. В вашем примере есть разница между взвешиванием по отдельным лицам или по покупкам; Ваши условные средние значения увеличиваются тем фактом, что вы указали конкретную сделанную покупку.
источник
Другие ответы задумываются о том, что происходит. Предположим, есть один продукт и два клиента. Один купил продукт (один раз), а другой нет. Среднее количество покупаемых товаров составляет 0,5, но если вы посмотрите только на покупателя, покупатель получает среднее значение до 1.
Это не кажется мне парадоксом или нелогичным; Условие покупки товара, как правило, поднимет среднее количество покупаемых товаров.
источник
Разве это не просто замаскированное «среднее из средних» (например, предыдущий вопрос об обмене стека )? Ваш соблазн, по-видимому, заключается в том, что средние значения по выборке должны в итоге усредняться по среднему значению для населения, но это случается редко.
В классическом «среднем значении» кто-то находит среднее из N взаимоисключающих подмножеств, а затем поражен тем, что эти значения не усредняются по среднему населению. Этот способ усреднения усредняется только в том случае, если ваши неперекрывающиеся подмножества имеют одинаковый размер. В противном случае вам нужно взять средневзвешенное значение.
Ваша проблема усложняется путаницей подмножеств с традиционным усреднением средних значений, но мне кажется, что это просто классическая ошибка с изюминкой. С перекрывающимися подмножествами еще сложнее получить средние значения по выборке, которые усредняются по среднему населению.
В вашем примере, поскольку пользователи, которые появляются в нескольких подвыборках (и, следовательно, купили много вещей), увеличат эти средние значения. По сути, вы учитываете каждого крупного спонсора несколько раз, в то время как скромные люди, которые покупают только один предмет, встречаются только один раз, поэтому вы склонны к большим значениям. Вот почему ваши конкретные подмножества имеют значения выше среднего, но я думаю, что это все еще только проблема «среднего из средних».
Вы также можете построить все виды других подмножеств из ваших данных, где средние значения подвыборки принимают другие значения. Например, давайте возьмем подмножества, несколько похожие на ваши подмножества. Если вы возьмете подмножество людей, которые не покупали А, вы получите в среднем 7/5 = 1,4 товара. С подмножеством, не купившим B, вы также получаете в среднем 1,4 предмета. Те, кто не покупал С, покупали в среднем 1,5 вещи. Все они ниже среднего по населению в 1,6 единиц на одного покупателя. При правильном наборе данных и правильном наборе подмножеств вы можете получить перекрывающиеся подмножества, средние значения которых от среднего значения по населению; однако, это было бы необычно в обычных приложениях.
Это только я, или среднее слово теперь кажется странным после стольких повторений ... Надеюсь, мой ответ был полезным, и извините, если я испортил среднее слово для вас!
источник
Поскольку проблема заключается в том, что « я понимаю это, но нужно объяснить это маркетингу », OP, похоже, обеспокоен тем, как непрофессионал будет интерпретировать эти факты - (не то, являются ли факты правдой или как показать, что они есть). Этот вопрос относится к 10 категориям продуктов (AJ), так как насчет этого примера:
[на встрече с маркетинговой группой]
ОП : Итак, как вы можете видеть здесь , клиенты, которые покупают А, В и С, все ценнее, чем в среднем.
Layman : Подожди ?! Как все могут быть выше среднего?
ОП : Хороший вопрос. Этот слайд ориентирован на клиентов A, B и C, но есть другие, неэффективные группы, которые не показаны. Например, клиенты категорий D и G стоят примерно половину среднего.
Это должно подавить внутреннюю внутреннюю тревогу о том, что «все выше среднего».
источник
Проигнорируйте другие ответы здесь. На самом деле это вовсе не парадокс. Реальная проблема, которую все здесь игнорируют, заключается в том, что вы ошибаетесь, на какую вероятность вы действительно смотрите. На самом деле здесь действуют два совершенно разных средних и статистических показателя, которые имеют свои собственные применения и интерпретации в предложенном вами примере (маркетинг)!
Во-первых, это среднее количество продуктов, купленных на одного клиента. Таким образом, в среднем один покупатель покупает 1,6 товара. Конечно, клиент не может не иметь 0,6 продукта (при условии, что это не что-то вроде риса или зерна, которое имеет постоянное измерение, связанное с ним).
Во-вторых, есть среднее количество покупателей, которые покупают тот или иной товар. Звучит странно, правда? Таким образом, в среднем продукт имеет 5,33333333 ... покупатели покупают его. Это отличается однако. Здесь мы описываем не количество купленных продуктов (их всего три!), А количество людей, фактически покупающих указанный продукт.
Подумайте о двух значениях следующим образом: что бы представляли эти два значения, если бы был только один клиент или только один продукт? В конце концов, среднее значение для одной точки данных - это просто заданная точка данных.
Или, что еще лучше, подумайте о графике, как если бы он давал вам суммы в долларах, потраченные на покупку продукта. Очевидно, что средняя сумма, потраченная отдельным клиентом, будет намного меньше, чем сумма денег, сделанная в среднем продуктом, поставляемым крупной корпорацией (или даже небольшим бизнесом). Я уверен, что вы можете придумать хорошие способы использования обеих ценностей при обсуждении благополучия компании.
Когда вы будете объяснять это маркетологам, объясните им, как я сказал. Это не парадокс. Это просто совершенно другая статистика. Единственная проблема здесь заключалась в том, что было замечено, что на самом деле существует два разных способа чтения диаграммы (то есть количество людей, покупающих за продукт, против количества продуктов, купленных на человека).
tl; dr первое, что вы описали, - это средняя сумма, которую отдельный покупатель готов потратить на покупку вашей продукции. Второе - это средний спрос населения на данный продукт. Я уверен, что теперь вы понимаете, почему оба, безусловно, не одно и то же. Сравнение их как таковых просто даст вам мусорную информацию.
РЕДАКТИРОВАТЬ
Казалось бы, вопрос на самом деле задает вопрос о средних деньгах, потраченных клиентами, которые покупают какой-либо продукт a, b или c. Хорошо. На самом деле это просто ошибка в расчетах. Я бы не назвал это парадоксом. Это на самом деле просто тонкий вздор.
Посмотри на свои колонки. Есть люди, которые разделяются между столбцами. Давайте предположим, что вы сделали правильное средневзвешенное значение. Вы все еще складываете людей дважды. Это означает, что среднее будет содержать дополнительных людей со значением, большим или равным 2. Теперь, каково было ваше среднее значение? Это было 1.6! По сути, ваш средний выглядит так:
Это определенно не правильная формула. Это средневзвешенное значение, хотя и допускающее взаимную исключительность, то есть то, как вы бы приспособились, чтобы получить истинное среднее в вашей ситуации.
В любом случае вы получите среднюю ошибку. Одной из ошибок было игнорирование необходимости взвешенного среднего, поскольку одна категория имеет больший «вес» с точки зрения среднего. Это как плотность. Одно значение плотнее в людях представляет. Другая проблема - дублирование, которое искажает среднее значение. Я не называю ни один из этих "парадоксов" все же. Когда я увидел, что ты делаешь, для меня стало очевидным, почему это не сработает. Средневзвешенное значение самоочевидно для его потребности, и теперь я думаю, что вы видите, что вы добавили значения несколько раз ... это не может работать. Вы в основном взяли среднее значение квадратов их значений.
источник