Каков реальный ответ на вопрос о дне рождения?

13

«Насколько большим должен быть класс, чтобы вероятность того, что два человека с одинаковым днем ​​рождения найдут хотя бы 50%?»

У меня 360 друзей на фейсбуке, и, как и следовало ожидать, распределение их дней рождения не является равномерным. У меня есть один день с 9 друзьями с тем же днем ​​рождения. (9 месяцев после больших праздников, а день Святого Валентина кажется большим, смеется). Итак, учитывая, что некоторые дни более вероятны для дня рождения, я предполагаю, что число 23 - верхний предел.

Была ли лучшая оценка этой проблемы?

Адам
источник
3
Выборка из 360 человек не является большой выборкой для распределения дней рождения по 365 дням в году ... Вы, конечно, не можете проверить однородность по такой небольшой выборке.
Сиань
У человека день рождения, какова вероятность того, что у второго человека день рождения не одинаковый? 364/365Каковы шансы, что третье лицо не разделяет ни один день рождения? (364/365) * (363/365), Расширяйте это, пока у вас не появится вероятность < 50%. Это будет означать вероятность того, что ни у кого нет одинакового дня рождения, что, в свою очередь, будет означать, что вероятность того, что хотя бы двое поделятся днем ​​рождения, будет > 50%.
zzzzBov
8
Должны ли мы предполагать, что у вас есть случайные друзья?
Джеймс
1
1365

Ответы:

18

К счастью, кто-то опубликовал некоторые подлинные данные о днях рождения с небольшим обсуждением связанного вопроса (это форма распространения). Мы можем использовать это и повторную выборку, чтобы показать, что ответ на ваш вопрос, по-видимому, равен 23 - такой же, как теоретический ответ .

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665
Питер Эллис
источник
8
Действительно, с помощью выпуклости Шура можно показать , что для любого неравномерного распределения дней рождения вероятность совпадения, по крайней мере, так же велика, как и в равномерном случае. Это упражнение 13.7 Дж. Майкла Стила, мастер-класс Коши-Шварца: Введение в искусство математического неравенства , издательство Кембриджского университета, 2004, с. 206 .
кардинал
2
@ Сиань: Действительно. Теперь, если бы я только знал кого-то, кто делал рецензии на книги для высококачественного журнала статистики с высокой читательской аудиторией, я бы предложил, чтобы они просмотрели его, чтобы сделать его более заметным для статистиков ... но где найти такого человека ...
кардинал
3
(Для тех, кто интересуется моим непосредственно предшествующим комментарием, он ссылается на тот факт, что @ Xi'an является недавно назначенным рецензентом книги для Шанса .)
кардинал
2
@ Сиань, проверь это и посмотри, что ты думаешь table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE))))).
whuber
3
Вероятно, неясно, за исключением R cognoscenti, что код в предыдущих комментариях @ Xi'an и меня имитирует ситуацию OP. Выполнение этого позволяет установить, что вероятность того, что 9 или более человек разделят день рождения из 360, случайно выбранных из равномерно распределенного населения, составляет всего около 40 из 100 000. Наиболее вероятное значение для максимального количества общих дней рождения - 5.
whuber