Помогите подсчитать, сколько людей придет на мою свадьбу! Могу ли я приписать процент каждому человеку и добавить их?

37

Я планирую свою свадьбу. Я хочу оценить, сколько людей придет на мою свадьбу. Я создал список людей и вероятность того, что они будут присутствовать в процентах. Например

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

У меня есть список около 230 человек с процентами. Как я могу оценить, сколько людей посетит мою свадьбу? Могу ли я просто сложить проценты и разделить их на 100? Например, если я приглашаю 10 человек с вероятностью прихода 10%, могу ли я ожидать 1 человека? Если я приглашаю 20 человек с вероятностью 50%, могу ли я ожидать 10 человек?

ОБНОВЛЕНИЕ: 140 человек пришли на мою свадьбу :). Используя методы, описанные ниже, я предсказал около 150. Не слишком потертый!

Behacad
источник
43
Я не вижу никакой фигуры для человека, за которого ты женишься. Это самое важное количество.
Ник Кокс
6
Я использовал вашу технику для моей свадьбы, и она работала хорошо; мы предсказали около 80 человек и получили 85 или около того. Я отмечаю, что, как только у вас есть все эти люди в вашей электронной таблице, вы также можете использовать одну и ту же электронную таблицу для отслеживания того, кому вы отправили благодарственные письма, и так далее.
Эрик Липперт
2
Соответствующий: timharford.com/2013/10/guest-list-angst-a-statistical-approach . Что бы это ни стоило, я выбрал ссылку на личный блог автора, но статья из его колонки в Financial Times.
Стив Джессоп
@EricLippert Я попробовал что-то похожее на мою свадьбу, но не добился успеха. В тот день была очень сильная гроза, и все <30% с часом добирались или больше не показывали.
OSE
3
@NickCox Также они забыли свое.
JFA

Ответы:

32

Предполагая, что решения приглашенных лиц прийти на свадьбу независимы, число гостей, которые придут на свадьбу, можно смоделировать как сумму случайных величин Бернулли, которые не обязательно имеют одинаковую вероятность успеха. Это соответствует биномиальному распределению Пуассона .

Пусть будет случайной величиной, соответствующей общему количеству людей, которые придут на вашу свадьбу из N приглашенных. Ожидаемое количество участников действительно является суммой индивидуальных вероятностей «появления» p i , то есть E ( X ) = N i = 1 p i . Вывод доверительных интервалов не является простым, учитывая форму функции вероятности массы . Однако их легко аппроксимировать с помощью симуляций Монте-Карло .XNpi

E(X)=i=1Npi.

На следующем рисунке показан пример распределения количества участников свадьбы на основе 10000 смоделированных сценариев (справа) с использованием некоторых ложных вероятностей появления для 230 приглашенных (слева). Код R, используемый для запуска этого моделирования, показан ниже; это обеспечивает приближение доверительных интервалов.

введите описание изображения здесь

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 
QuantIbex
источник
1
Вау, это фантастика. Что это за симуляция?
Behacad
4
Это симуляция Монте-Карло
QuantIbex
Как вы преобразуете «размер группы» в число гостей? У меня есть такая фигура, как ваша слева, но я не уверен, как превратить ее в фигуру справа ...
Behacad
Это делается в строках с 11 по 18 кода, приведенного в ответе. Для сценария jя генерирую количество «явок» для каждой из 20 групп вероятностей, используя биномиальное распределение и вероятность появления этой группы.
QuantIbex
18

Как уже было отмечено, ожидания просто добавляют.

Тем не менее, зная, что ожидание не очень полезно, вам также нужно некоторое чувство вероятного изменения вокруг него.

Есть три вещи, о которых вам нужно беспокоиться:

  • Различия между людьми в зависимости от их ожиданий (человек с вероятностью 60% на самом деле не достигает своего ожидания; они всегда либо выше, либо ниже его)

  • зависимость между людьми. Пары, которые могут прийти оба, будут либо присутствовать, либо нет. Маленькие дети не будут ходить без родителей. В некоторых случаях некоторые люди могут избегать прихода, если они знают, что там будет другой человек.

  • ошибка в оценке вероятностей. Эти вероятности являются лишь догадками; Возможно, вы захотите рассмотреть влияние несколько разных догадок (может быть, оценка этих чисел кем-то еще)

Первый из них поддается расчету либо с помощью нормального приближения, либо с помощью моделирования. Второе может быть смоделировано при различных предположениях, либо специфических для людей, либо с учетом некоторого распределения зависимостей. (Третий пункт сложнее.)


Отредактировано для решения последующих вопросов в комментариях:

Если я правильно понимаю вашу фразу, для семьи из 4 человек, у вас есть 50% шанс, что каждый из 4 человек или никто не придет. Конечно, это ожидаемое число 2, но вы хотели бы иметь некоторое представление об изменчивости и вокруг ожидаемого значения, и в этом случае вы, вероятно, захотите сохранить фактическую ситуацию 50% от 0/50% от 4.

Если вы можете разделить всех на независимые группы, то хорошим первым приближением (с множеством таких групп) было бы добавить средние значения и дисперсии между независимыми группами, а затем обработать сумму как нормальную (возможно, с исправлением непрерывности). Более точный подход состоял бы в том, чтобы смоделировать процесс или вычислить распределение точно с помощью числовой свертки; в то время как оба подхода просты, это ненужный уровень точности для этого конкретного приложения, так как уже есть много уровней аппроксимации - это все равно, что сказать размеры комнаты до ближайшей ноги, а затем вычислить, сколько краски вам понадобится с точностью до миллилитра - дополнительная точность не имеет смысла.

Итак, представьте (для простоты) у нас было четыре группы:

1) группа А (1 человек) - 70% вероятность посещения

2) группа B (1 человек) - 60% вероятность посещения

3) группа C (семья из 4 человек) - 0: 0,5 4: 0,5 (если кто-то остается дома, никто не придет)

4) группа D (пара 2) - 0: 0,4 1: 0,1 2: 0,5 (т. Е. 50% вероятности того и другого, плюс 10% вероятности, что один из них придет, например, если у другого есть рабочие обязанности или он болен)

Тогда мы получаем следующие средства и отклонения:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Таким образом, нормальное приближение будет довольно грубым в этом случае, но предполагает, что более 7 человек вряд ли будут (порядка 5%), а 6 или менее будут происходить примерно в 75-80% случаев.

[Более точный подход состоял бы в том, чтобы смоделировать процесс, но в полной задаче, а не в урезанном примере, это, вероятно, не нужно, поскольку уже существует так много уровней аппроксимации.]


Если у вас есть объединенный дистрибутив, включающий такие групповые зависимости, вы можете захотеть применить любые источники общей совместной зависимости (например, суровые погодные условия) - или вы можете просто застраховаться от таких событий или даже игнорировать их, в зависимости от обстоятельств ,

Glen_b - Восстановить Монику
источник
5
+1 за упоминание зависимостей. Они возникают по причинам, отличным от межличностных отношений, таких как погода и условия поездки. Многие из них вызывают положительные корреляции - которые расширяют диапазон неопределенности. Если оценки будут использоваться для обеспечения логистики (питание, места и т. Д.), Точная оценка отклонений является ценной. Хотя в заявке на свадьбу нельзя сделать гораздо больше, чем сделать обоснованное предположение, качественное понимание этих статистических явлений может привести к лучшим предположениям.
whuber
@whuber Хорошее замечание о других источниках зависимости, таких как погода. В некоторых обстоятельствах такие вещи могут легко затмить эффекты, о которых я упоминаю.
Glen_b
Как я мог легко принять во внимание зависимость? Например, если я знаю пару с двумя детьми, и я ожидаю, что родители с вероятностью 50% придут. Я знаю, что они приведут своих детей, если они придут. Можно ли приписать 50% каждому человеку и предположить, что 2 человека приходят?
Behacad
2
@Behacad: Если вы знаете, что это вопрос «все или ничего» с данной группой, вы можете просто оценить вероятность того, что группа придет как единое целое, и взвесить группу по количеству людей в ней. Я согласен, что поля погрешности было бы хорошо включить в ваши оценки тоже.
Ник Стаунер
Спасибо. У меня есть небольшая таблица с процентами и количеством людей с таким процентом, но я не знаю точно, что делать сейчас. Что значит я должен добавить? Какие отклонения? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Behacad
5

(Не обращайте внимания на мой предыдущий комментарий по этому поводу - я только что понял, что путал ожидание с чем-то другим.) Учитывая, что вы, по сути, пытаетесь найти ожидание числа людей, которые появляются, вы теоретически можете добавить вероятность каждого человека, показывающего чтобы сделать это.

01

Тем не менее, это только дает вам ожидаемую ценность - без дальнейших предположений было бы трудно оценить такие вещи, как дисперсия людей, появляющихся, особенно потому, что довольно справедливо предположить, что человек A, обнаружившийся, не обязательно независим от человека B, обнаружившегося.

Кроме этого, вот смутно релевантная статья BBC.


источник
Спасибо! Так что просто для подтверждения, если я думаю, что 10 человек имеют 10% -ный шанс приехать, я могу предположить, что 1 человек придет, например.
Behacad
В теории да, но кажется трудным построить что-то более полезное (например, доверительные интервалы) без каких-либо дополнительных предположений о вещах.
Спасибо. Как я могу достичь доверительных интервалов?
Behacad
В этом я не совсем уверен по ряду причин. (Мне, вероятно, придется потратить больше времени на поиск некоторых вещей, чтобы дать более подробный ответ на этот вопрос.)
4

Для больших чисел 80% - это то, что вы ожидаете. Это может быть ситуация, когда подробный анализ, который вы предлагаете, только добавляет ошибки в расчеты.
Например, действительно ли потенциальная посещаемость Марка составляет 1/3 от посещаемости Джозефа? И действительно, Иосиф на 30% или 25%? Вещи случаются, когда вы достигаете больших чисел, которые просто на 80% более достоверны, чем весь этот анализ. Я только что вернулся со свадьбы. 550 приглашенных. 452 присутствовали. Для целей планирования зала и начала разговора с провизором, начальная оценка 440 была в порядке.

Могу ли я предложить линию от моего тоста до пары? «Помните, если ваша жена счастлива, но вы не счастливы, вы все равно намного счастливее, чем если бы ваша жена несчастна, но вы счастливы».

JTP - извиниться перед Моникой
источник
Спасибо! Одна проблема заключается в том, что люди будут приезжать со всех концов и с разных расстояний. Некоторые довольно далеко, другие просто по улице.
Behacad
3
Эта цифра может зависеть от культуры.
Юхо Коккала
@ Джухо - это может быть. Я нахожусь в США, и в моем недавнем примере это была свадьба в месте назначения примерно для половины приглашенных, то есть свадьба была в родном городе невесты. Интересно, какие культурные различия повлияют на явку избирателей, но я подозреваю, что вы правы.
JTP - извиниться перед Моникой
4
Это замечательный пример оценщика, который существует в теории, но кажется необычным на практике (пока вы не ищите такого рода вещи): при любом наборе данных он возвращает заранее определенное число (в данном случае 80%). Это легко вычислить, очень недорого (затраты на сбор данных могут быть сведены к нулю) и имеет нулевую дисперсию. Это байесовский (для атомного приора) и допустимый. По-прежнему будут возникать острые вопросы о его предвзятости и согласованности, которые могут быть трудными для решения и не исчезнут, если не будет «детального анализа».
whuber
2

Как статистик, который только что женился, я скажу вам, что у JoeTaxpayer есть правильный ответ. Показатель в 80% кажется мне немного высоким, хотя может быть точным, если большинство людей являются местными (у нас была свадьба в пункте назначения, и мы приземлились ближе к 65%).

Но, тем не менее, вы предполагаете большую изменчивость в предыдущих вероятностях, которые посещают люди, я думаю, что больше, чем реально существует. Предполагая, что вы не приглашаете людей, которые вам активно не нравятся, вы должны предполагать, что почти все придут за тем, для кого это по средствам, и у них нет конфликта (в широком смысле), но не менее 10-20% Будет иметь то, что мешает им присутствовать. Для тех, кто должен путешествовать, это увеличивает время и деньги, необходимые для того, чтобы 30-35% путешественников не посещали (в зависимости от расстояния). В противном случае, сохраняйте вероятности постоянными (даже если ваши родители скажут: «О-о-о-о-о-о, я не хочу лететь в Остин, мы просто хотим пригласить их ...»). Если у вас веселый прием, особенно с открытым баром, люди обычно не пропускают его, если не обязаны.

В любом случае, поздравляю с выходом замуж. Что касается вероятности того, что вы останетесь в браке, это всегда хорошее чтение: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)

Майк Нут
источник
1

Сложите все вероятности, это ожидаемое количество людей, которые придут.

пяΣя1япя1я

Конечно, мы предполагаем, что то, приходит кто-то или нет, не зависит от посещаемости других людей. Это предположение просто неверно. Рассмотрим пары, они сильно взаимосвязаны.

2×1япяпя

Аксакал
источник
1

Для моей свадьбы я сделал два списка - вероятно, приедет (80%) и вряд ли примет участие (20%). Независимо от какой-либо более точной оценки по любой причине, я назначил всех приглашенных в одну из двух групп. Я был на 2 человек. N = 1. Чисто эвристический.

michaelcarniol
источник
Можно спросить? Какой был последний% явка?
JTP - извиниться перед Моникой
72% ответили да, но я забыл, сколько дней отмены.
michaelcarniol
0

Я замечаю, что никто не указал, что вам не нужно делить на 100. Ваши проценты можно рассматривать как ожидаемые доли человека, чтобы показать, с пониманием, что, как кошка Шредингера, вы не получите части человека в посещаемости или не в посещаемости, но состояние посещаемости каждого человека будет полностью решено в момент события.

Так как диапазон ваших процентных значений варьируется от 0% (ни один из присутствующих людей) до 100% (все присутствующие лица), в ваших двух примерах, включающих 10 и 20 человек, вы суммировали ожидаемое значение для доли каждого человек, чтобы показать, и получил номер, чьи единицы были "люди".

Выдающееся уравнение в превосходном ответе QuantIbex показывает, что суммирование процентов приводит к ожидаемому количеству людей на мероприятии без какого-либо разделения.

Трэвис Бемроуз
источник