Я планирую свою свадьбу. Я хочу оценить, сколько людей придет на мою свадьбу. Я создал список людей и вероятность того, что они будут присутствовать в процентах. Например
Dad 100%
Mom 100%
Bob 50%
Marc 10%
Jacob 25%
Joseph 30%
У меня есть список около 230 человек с процентами. Как я могу оценить, сколько людей посетит мою свадьбу? Могу ли я просто сложить проценты и разделить их на 100? Например, если я приглашаю 10 человек с вероятностью прихода 10%, могу ли я ожидать 1 человека? Если я приглашаю 20 человек с вероятностью 50%, могу ли я ожидать 10 человек?
ОБНОВЛЕНИЕ: 140 человек пришли на мою свадьбу :). Используя методы, описанные ниже, я предсказал около 150. Не слишком потертый!
probability
Behacad
источник
источник
Ответы:
Предполагая, что решения приглашенных лиц прийти на свадьбу независимы, число гостей, которые придут на свадьбу, можно смоделировать как сумму случайных величин Бернулли, которые не обязательно имеют одинаковую вероятность успеха. Это соответствует биномиальному распределению Пуассона .
Пусть будет случайной величиной, соответствующей общему количеству людей, которые придут на вашу свадьбу из N приглашенных. Ожидаемое количество участников действительно является суммой индивидуальных вероятностей «появления» p i , то есть E ( X ) = N ∑ i = 1 p i . Вывод доверительных интервалов не является простым, учитывая форму функции вероятности массы . Однако их легко аппроксимировать с помощью симуляций Монте-Карло .X N pi
На следующем рисунке показан пример распределения количества участников свадьбы на основе 10000 смоделированных сценариев (справа) с использованием некоторых ложных вероятностей появления для 230 приглашенных (слева). Код R, используемый для запуска этого моделирования, показан ниже; это обеспечивает приближение доверительных интервалов.
источник
j
я генерирую количество «явок» для каждой из 20 групп вероятностей, используя биномиальное распределение и вероятность появления этой группы.Как уже было отмечено, ожидания просто добавляют.
Тем не менее, зная, что ожидание не очень полезно, вам также нужно некоторое чувство вероятного изменения вокруг него.
Есть три вещи, о которых вам нужно беспокоиться:
Различия между людьми в зависимости от их ожиданий (человек с вероятностью 60% на самом деле не достигает своего ожидания; они всегда либо выше, либо ниже его)
зависимость между людьми. Пары, которые могут прийти оба, будут либо присутствовать, либо нет. Маленькие дети не будут ходить без родителей. В некоторых случаях некоторые люди могут избегать прихода, если они знают, что там будет другой человек.
ошибка в оценке вероятностей. Эти вероятности являются лишь догадками; Возможно, вы захотите рассмотреть влияние несколько разных догадок (может быть, оценка этих чисел кем-то еще)
Первый из них поддается расчету либо с помощью нормального приближения, либо с помощью моделирования. Второе может быть смоделировано при различных предположениях, либо специфических для людей, либо с учетом некоторого распределения зависимостей. (Третий пункт сложнее.)
Отредактировано для решения последующих вопросов в комментариях:
Если я правильно понимаю вашу фразу, для семьи из 4 человек, у вас есть 50% шанс, что каждый из 4 человек или никто не придет. Конечно, это ожидаемое число 2, но вы хотели бы иметь некоторое представление об изменчивости и вокруг ожидаемого значения, и в этом случае вы, вероятно, захотите сохранить фактическую ситуацию 50% от 0/50% от 4.
Если вы можете разделить всех на независимые группы, то хорошим первым приближением (с множеством таких групп) было бы добавить средние значения и дисперсии между независимыми группами, а затем обработать сумму как нормальную (возможно, с исправлением непрерывности). Более точный подход состоял бы в том, чтобы смоделировать процесс или вычислить распределение точно с помощью числовой свертки; в то время как оба подхода просты, это ненужный уровень точности для этого конкретного приложения, так как уже есть много уровней аппроксимации - это все равно, что сказать размеры комнаты до ближайшей ноги, а затем вычислить, сколько краски вам понадобится с точностью до миллилитра - дополнительная точность не имеет смысла.
Итак, представьте (для простоты) у нас было четыре группы:
1) группа А (1 человек) - 70% вероятность посещения
2) группа B (1 человек) - 60% вероятность посещения
3) группа C (семья из 4 человек) - 0: 0,5 4: 0,5 (если кто-то остается дома, никто не придет)
4) группа D (пара 2) - 0: 0,4 1: 0,1 2: 0,5 (т. Е. 50% вероятности того и другого, плюс 10% вероятности, что один из них придет, например, если у другого есть рабочие обязанности или он болен)
Тогда мы получаем следующие средства и отклонения:
Таким образом, нормальное приближение будет довольно грубым в этом случае, но предполагает, что более 7 человек вряд ли будут (порядка 5%), а 6 или менее будут происходить примерно в 75-80% случаев.
[Более точный подход состоял бы в том, чтобы смоделировать процесс, но в полной задаче, а не в урезанном примере, это, вероятно, не нужно, поскольку уже существует так много уровней аппроксимации.]
Если у вас есть объединенный дистрибутив, включающий такие групповые зависимости, вы можете захотеть применить любые источники общей совместной зависимости (например, суровые погодные условия) - или вы можете просто застраховаться от таких событий или даже игнорировать их, в зависимости от обстоятельств ,
источник
(Не обращайте внимания на мой предыдущий комментарий по этому поводу - я только что понял, что путал ожидание с чем-то другим.) Учитывая, что вы, по сути, пытаетесь найти ожидание числа людей, которые появляются, вы теоретически можете добавить вероятность каждого человека, показывающего чтобы сделать это.
Тем не менее, это только дает вам ожидаемую ценность - без дальнейших предположений было бы трудно оценить такие вещи, как дисперсия людей, появляющихся, особенно потому, что довольно справедливо предположить, что человек A, обнаружившийся, не обязательно независим от человека B, обнаружившегося.
Кроме этого, вот смутно релевантная статья BBC.
источник
Для больших чисел 80% - это то, что вы ожидаете. Это может быть ситуация, когда подробный анализ, который вы предлагаете, только добавляет ошибки в расчеты.
Например, действительно ли потенциальная посещаемость Марка составляет 1/3 от посещаемости Джозефа? И действительно, Иосиф на 30% или 25%? Вещи случаются, когда вы достигаете больших чисел, которые просто на 80% более достоверны, чем весь этот анализ. Я только что вернулся со свадьбы. 550 приглашенных. 452 присутствовали. Для целей планирования зала и начала разговора с провизором, начальная оценка 440 была в порядке.
Могу ли я предложить линию от моего тоста до пары? «Помните, если ваша жена счастлива, но вы не счастливы, вы все равно намного счастливее, чем если бы ваша жена несчастна, но вы счастливы».
источник
Как статистик, который только что женился, я скажу вам, что у JoeTaxpayer есть правильный ответ. Показатель в 80% кажется мне немного высоким, хотя может быть точным, если большинство людей являются местными (у нас была свадьба в пункте назначения, и мы приземлились ближе к 65%).
Но, тем не менее, вы предполагаете большую изменчивость в предыдущих вероятностях, которые посещают люди, я думаю, что больше, чем реально существует. Предполагая, что вы не приглашаете людей, которые вам активно не нравятся, вы должны предполагать, что почти все придут за тем, для кого это по средствам, и у них нет конфликта (в широком смысле), но не менее 10-20% Будет иметь то, что мешает им присутствовать. Для тех, кто должен путешествовать, это увеличивает время и деньги, необходимые для того, чтобы 30-35% путешественников не посещали (в зависимости от расстояния). В противном случае, сохраняйте вероятности постоянными (даже если ваши родители скажут: «О-о-о-о-о-о, я не хочу лететь в Остин, мы просто хотим пригласить их ...»). Если у вас веселый прием, особенно с открытым баром, люди обычно не пропускают его, если не обязаны.
В любом случае, поздравляю с выходом замуж. Что касается вероятности того, что вы останетесь в браке, это всегда хорошее чтение: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf
:-)
источник
Сложите все вероятности, это ожидаемое количество людей, которые придут.
Конечно, мы предполагаем, что то, приходит кто-то или нет, не зависит от посещаемости других людей. Это предположение просто неверно. Рассмотрим пары, они сильно взаимосвязаны.
источник
Для моей свадьбы я сделал два списка - вероятно, приедет (80%) и вряд ли примет участие (20%). Независимо от какой-либо более точной оценки по любой причине, я назначил всех приглашенных в одну из двух групп. Я был на 2 человек. N = 1. Чисто эвристический.
источник
Я замечаю, что никто не указал, что вам не нужно делить на 100. Ваши проценты можно рассматривать как ожидаемые доли человека, чтобы показать, с пониманием, что, как кошка Шредингера, вы не получите части человека в посещаемости или не в посещаемости, но состояние посещаемости каждого человека будет полностью решено в момент события.
Так как диапазон ваших процентных значений варьируется от 0% (ни один из присутствующих людей) до 100% (все присутствующие лица), в ваших двух примерах, включающих 10 и 20 человек, вы суммировали ожидаемое значение для доли каждого человек, чтобы показать, и получил номер, чьи единицы были "люди".
Выдающееся уравнение в превосходном ответе QuantIbex показывает, что суммирование процентов приводит к ожидаемому количеству людей на мероприятии без какого-либо разделения.
источник