Вероятность рождения в високосный день?

31

Учитывая, что сегодня високосный день, кто-нибудь знает вероятность рождения в високосный день?

StatsStudent
источник
30
Обратите внимание, что рождения не распределены равномерно в течение года, поэтому вероятность того, что случайно выбранный день будет високосным, не равна вероятности рождения одного.
Бен Милвуд
17
От кого рождается? Все люди в истории? Cегодня? Все люди живы? Перспективно в будущее? Вероятности не имеют смысла, если только события, к которым они относятся, не определены четко.
whuber
15
100% рожденных сегодня людей будут. Это помогает?
Просьба
8
Многие родители не хотят, чтобы их дети рождались в високосный день. Таким образом, с увеличением запланированных кесаревых сечений, вероятность будет ниже, чем случайный день. fivethirtyeight.com/features/…
Джеймс Лаврук
3
Я согласен с @whuber, что вопрос плохо определен. Без правильного определения вероятностного пространства на этот вопрос невозможно ответить. Отсюда и отрицательный голос.
mpiktas

Ответы:

24

Конечно. Смотрите здесь для более подробного объяснения: http://www.public.iastate.edu/~mlamias/LeapYear.pdf .

Но, по сути, автор приходит к выводу: «За 2 тысячелетия существует 485 високосных лет. Таким образом, за 2 тысячелетия насчитывается полных дней. Из этих дней 29 февраля происходит в 485 из них (високосные годы), поэтому вероятность составляет "485(366)+(2000485)(365)=730485485/730485=0.0006639424

StatsStudent
источник
9
Почему его нельзя рассчитать как 1 / (количество дней в 4-х годах) = 1/1461 = 0,00068 ?
Сиддеш
21
@Siddhesh Есть правило, касающееся веков. Так, например, 2100 год не високосный
Rentrop
8
@Siddhesh, к сожалению, не все так просто. Високосные годы немного сложнее. Средняя продолжительность года в среднем составляет 365,2425 дней, а не 365,25. Как написано на странице високосного года в Википедии, «Григорианский календарь ... удаляет три високосных дня каждые 400 лет, что составляет длину его високосного цикла. Это делается путем удаления 29 февраля за три столетия (кратно 100) это не может быть точно разделено на 400. [3] Годы 2000 и 2400 являются високосными, в то время как 1800, 1900, 2100, 2200, 2300 и 2500 - обычные годы ».
StatsStudent
10
Я не понимаю, почему вы должны учитывать 2000 лет; високосные годы находятся на 400-летнем цикле, так почему бы просто не сократить «97 високосных лет за 400 лет»?
Филипп Кендалл
7
Почему мы должны рассматривать такие незначительные влияния как «отмененные» високосные дни в столетних годах, а не кратные 400, но, с другой стороны, не учитывать внешние воздействия, такие как почти все роды, перенесенные в прошлом или введенные до 29 февраля, просто для сохранения ребенок от неудобств (или других причин)? - По крайней мере, здесь, в Германии, вероятность того, что роды произойдут 29 февраля, (приблизительно) равна нулю.
Я с Моникой
23

Чтобы точно предсказать эту вероятность, используя статистику, было бы полезно знать, где произошло рождение.

На этой странице http://chmullig.com/2012/06/births-by-day-of-year/ имеется график, показывающий подмножество числа рождений в день (умножение 29-го на 4, что неверно и нежелательно на этот вопрос, но он также ссылается на исходные данные и дает приблизительное представление о том, что вы можете ожидать) в Соединенных Штатах. Я предположил бы, что эта кривая не верна для других стран, особенно для других континентов. В частности, южное полушарие и экваториальная область могут демонстрировать существенный вывод из этих результатов - при условии, что климат является определяющим фактором.

Кроме того, существует проблема «выборного рождения» (затронутая авторами http://bmjopen.bmj.com/content/3/8/e002920.full ) - в более бедных регионах земного шара я бы ожидал другого Распределение рождений просто потому, что (не экстренные) кесарево сечение или искусственные роды встречаются реже, чем в развитых странах. Это искажает окончательное распределение рождений.

Используя американские данные, предполагая, что ~ 71 миллион рождений (приблизительное среднее значение * 366) и 46 000 рождений 29 февраля, без учета распределения високосных лет в данных, поскольку точный период не указан, я получаю вероятность около ~ 0,000648. Это немного ниже значения, которое можно было бы ожидать при равномерном распределении рождений, и, следовательно, в соответствии с общим впечатлением от графика.

Я оставлю критерий значимости этой грубой оценки мотивированному читателю. Но, учитывая, что 29-е (хотя и не исправленное - 2000 год вносит в данные смещение ниже среднего) баллы низкие даже для и без того низких февральских стандартов, я предполагаю относительно высокую уверенность в том, что нулевой гипофиз с равным распределением можно отклонить.

Рик Мориц
источник
1
Набор данных имеет 30 февраля и 31 день рождения. Забавно. Перед анализом требуется хорошая очистка, но у него много данных, и это здорово.
Аксакал
22

Я думаю, что ответ на этот вопрос может быть только эмпирическим. Любой теоретический ответ был бы ошибочным без учета явлений выбора дня рождения, сезонности и т. Д. С этими вещами невозможно теоретически справиться.

Данные о днях рождения трудно найти в США по соображениям конфиденциальности. Там один анонимный набор данных здесь . Это из страховых заявок в США. Отличие от других отчетов, таких как популярная часто цитируемая статья в Нью-Йорк Таймсе , состоит в том, что в ней перечисляется частота рождений по дате, а не просто ранжирование дней в году. Слабым местом, конечно, является смещение выборки, поскольку оно исходит от страховки: незастрахованные люди не включены и т. Д.

Согласно данным, на 29 февраля было 325 рождений из общего числа 481040. По данным Роя Мерфи , выборка охватывает период с 1981 по 1994 год. Она включает 3 високосных года из общего числа 14 лет. Без каких-либо корректировок вероятность будет составлять 0,0675% от рождения 29 февраля между 1981 и 1994 годами.

Вы можете отрегулировать вероятность, учтя частоту високосных лет, которая близка к 1/4 ( не совсем точно ), например, умножив это число на чтобы получить оценку 0,079%. Здесь, условная вероятность о рождении на 29 февраля в високосный год связан с наблюдаемой частотой по частоте високосных лет в образце: где - количество лет в выборке, а - общая частота рождений.14/12pFo=325fL=3

Fo=fL/NFp,
N=14F=481040

Как правило, вероятность високосных лет составляет , следовательно, долгосрочная средняя вероятность 29 февраля: pL1/4PL

PL=pLppLNfLFoF0.079%

Возможно, вас заинтересует условная вероятность рождения 29 февраля, если вы родились в високосный год: p

p=NfLFoF0.32%

Таким образом, связь между и основана на некоторой паре предположений, например, что вероятность рождения в каком-либо конкретном году одинакова и не изменяется.PLp

Конечно, эта дискуссия была ориентирована на США. Кто знает, каковы закономерности в других странах.

ОБНОВЛЕНИЕ: Мы автоматически предположили, что OP - григорианский календарь. Это становится еще интереснее, если учесть разные календари, такие как лунный календарь Хиджры , где високосные годы происходят каждые 30 лет или около того.

ОБНОВЛЕНИЕ 2:

Что удивительно, так это то, что предполагаемая вероятность приводит к ожидаемому числу дней рождения 29 февраля для этой выборки: . Это ниже, чем 1 января и 25 декабря, что соответствует приведенному выше рейтингу NYT! Они не описывают источник данных, ссылаясь только на них , но они либо одинаковы, либо результаты являются надежными.pFp=1,527Amitabh Chandra, Harvard University

Теперь, насколько вероятно, что эти очень специфические дни в григорианском календаре: 1 января, 25 декабря и 29 декабря будут случайными, как самые популярные дни рождения? Я говорю, что это очень маловероятно случайное явление. Следовательно, еще интереснее увидеть, что происходит в других календарях, таких как хиджры.

ОБНОВЛЕНИЕ 3:

Обратите внимание, что оба выше, чем наивные теоретические оценки:PL,p

p^1/3660.27
P^Lp3663654+10.068

ОБНОВЛЕНИЕ 4:

Бен Миллвуд отметил, что распределение рождений по дням года неравномерно. Можем ли мы проверить это утверждение? Используя мой набор данных, мы можем запустить test для теоретического распределения с нулевой гипотезой о том, что распределение является равномерным. Результатом является отклонение, то есть распределение не кажется равномерным.χ2

Теоретическое распределение построено так. Мы предполагаем, что частота рождений одинакова во всех календарных днях, то есть в 14 лет через дня. Затем мы сворачиваем дни в дни года, а это 366. Очевидно, что встречались только 3 високосных дня и 14 не високосных. Ниже мой код MATLAB и график распространения для сравнения теоретических и эмпирических.14365+3

d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs

idL = 60; % index of Feb 29

% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days

fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;

fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))

% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on

% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)

ВЫХОД:

non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000

h =

     1


p =

     0

введите описание изображения здесь

Аксакал
источник
3
Это полезный анализ (+1). Это заставляет меня задуматься о том, какая связь существует, если таковая имеется, между частотами, которые вы анализируете, и (неопределенно определенной) вероятностью, запрошенной в вопросе.
whuber
1
@whuber, вероятности в моем ответе относятся к таким случаям, как анализ страховых заявок или некоторых пользовательских данных. Например, у вас есть веб-сайт, и вы хотите пометить проблемные данные пользователя. Вы можете сравнить частоту рождения 29 февраля с моими вероятностями. Однако, если вы планируете семью и задаете этот вопрос, тогда мои цифры бесполезны. Причина заключается в том, что они не учитывают такие факторы, как, например, когда именно пара на самом деле совокупляется, например, коэффициент рождаемости и периодичности пар, что является основным фактором, определяющим дату дня рождения.
Аксакал
Рад видеть, что вы не начали с математики, прежде чем рассматривать другие факторы, помимо чистой статистики
TheBlastOne
8

Обложка моей любимой книги когда-либо содержит некоторые весьма важные доказательства против предположения о равномерном распределении рождений по датам. В частности, у рождений в США с 1970 года есть несколько тенденций, наложенных друг на друга: длинная, многолетняя тенденция, непериодическая тенденция, тенденции дня недели, тенденции дня года, тенденции праздника (потому что такие процедуры, как кесарево сечение раздел позволяет эффективно планировать дату рождения, а врачи часто не делают этого в праздничные дни). В результате вероятность рождения в случайно выбранный день в году неодинакова, и поскольку коэффициент рождаемости варьируется в зависимости от года, также не все годы одинаково вероятны.

Это также свидетельствует о том, что решение Asksal, хотя и является очень сильным соперником, также является неполным. Небольшое количество високосных дней будет «загрязнена» всеми от эффектов при игре здесь, поэтому оценка Asksal является также захват (совершенно случайно) эффект день-неделю и долгосрочных тенденций , наряду с 29 февраля эффект. Какие эффекты являются и не подходят для включения, неясно определены вашим вопросом.

И этот анализ имеет отношение только к США, демографические тенденции которых могут сильно отличаться от других стран или групп населения. Например, уровень рождаемости в Японии снижался в течение десятилетий. Уровень рождаемости в Китае регулируется государством, что имеет определенные последствия для гендерного состава страны и, следовательно, уровня рождаемости в последующих поколениях.

Аналогичным образом, анализ Гельмана описывает только несколько последних десятилетий, и не обязательно ясно, что это даже эпоха интереса к вашему вопросу.

введите описание изображения здесь

Для тех, кто в восторге от такого рода вещей, материал в обложке подробно обсуждается в главе о гауссовских процессах.

Sycorax говорит восстановить Монику
источник
2
Краткое описание используемой модели также доступно в блоге здесь: andrewgelman.com/2012/06/19/…
Sakari Cajanus
3

29 февраля - число, которое встречается каждый год, кратное 4 .

Однако годы, кратные 100, но не относящиеся к 400, не считаются високосными (например, 1900 год не является високосным, а 2000 или 1600 -). Таким образом, в настоящее время это один и тот же шаблон каждые 400 лет.

Итак, давайте посчитаем на интервале [0; 400 [ :

На 400-летний период существует ровно 4 x 25 = 100 лет, кратных 4 . Но мы должны вычесть 3 (годы, кратные 100, но не 400) из 100, и мы получим 100 - 3 = 97 лет.

Теперь мы должны умножить 97 на 366, 97 x 366 = 35502 (количество дней в високосном году в период 400 лет), осталось (365 x (400-97)) = 110 595 (количество дней, которые не т в високосный год в период 400 лет).

Тогда нам просто нужно сложить эти два числа, чтобы узнать общее количество дней за 400 лет: 110 595 + 35502 = 146 097 .

В завершение наша вероятность - это число 29 февраля за 400-летний период, поэтому 97, учитывая, что существует 97 високосных лет, деленных на общее количество дней нашего интервала:

p = 97/146097 ≈ 0,0006639424492

Надеюсь, что это правильно и ясно.

Джонатан Пойд
источник
7
Это хороший анализ вероятности того, что случайно выбранная дата будет 29 февраля. Я полагаю, что большая часть обсуждений в этой теме фокусируется на том факте, что на самом деле это не отвечает на вопросы о вероятности рождения, которые на самом деле не ведут себя как случайные ничьи из набора возможных дней.
whuber
1
Намного проще сказать, что на 400 лет 97 високосных лет, как вы уже отработали. Подсчитайте количество дней в 400 нормальных годах. 400 * 365 = 146000. Затем вам нужно добавить 97 високосных дней, давая 146097.
CJ Dennis
2

Я полагаю, что здесь смешиваются два вопроса. Один из них: «Какова вероятность того, что какой-либо день будет 29 февраля?». Второй (и тот, который фактически спросил): «Какова вероятность рождения в високосный день?»

Подход простого подсчета дней, кажется, вводит в заблуждение, как указывает Аксакал. Подсчет дней и вычисление частоты 29-го февраля затрагивает вопрос: «Какова вероятность того, что какой-либо день является 29-го февраля?» (Представьте, что вы просыпаетесь после комы, не зная, какой сегодня день. Вероятность того, что он 29 февраля, как указано выше, ).p=971460970,00066394

После ответа Аксакала вероятность может быть основана на эмпирических исследованиях распределения рождений по дням года. Различные наборы данных будут приводить к разным выводам (например, из-за влияния сезонности, долгосрочных тенденций рождаемости, культурных различий). Аксакал указал на исследование (один комментарий: для учета непредставительного количества високосного года в упомянутых данных (т. ) по сравнению с долгосрочной частотой появления високосного года (т. Е. ) вам нужно было бы умножить частоту рождения 29 февраля из выборки на ).3149740097400143=6796001.131667

Наконец, существует третье возможное толкование вопроса, которое, я считаю, не было задумано: «Какова вероятность рождения конкретного человека в високосный день?» Ну, для любого, кто уже родился, это легко. Это либо либо . Для тех, кто не родился, но уже забеременел, его также можно оценить с помощью эмпирических исследований продолжительности беременности (см. Обзор в Википедии ). Для тех, кто еще не зачат, см. Выше.01

data_enthusiast
источник
2
Э-э, я был готов проголосовать за это, а потом я добрался до Ну, для всех, кто уже родился, это легко. Это либо 0, либо 1. Нет.
mattdm
Я предполагаю, что это зависит от интерпретации вероятностей. Предположим, я подбросил монетку. Я посмотрел на это и знаю результат (например, головы). Вы стоите рядом со мной, но не видели результата. Какова вероятность того, что монета показывает головы (для вас, для меня, «объективно»)? В приведенном выше примере: для данного (рожденного) человека вероятность равна 0 или 1 (при условии, что он знает, в какую дату он родился). Если вы выбираете человека наугад, и вам нужно угадать его день рождения, вероятность того, что это 29 февраля, опять же является эмпирическим вопросом.
data_enthusiast
1

Я заметил, что большинство приведенных выше ответов решают эту проблему путем расчета количества високосных дней в конкретном периоде. Существует более простой способ получить ответ на 100% точно по определению:

Мы используем високосные годы, чтобы скорректировать обычный (365 дней) календарь на средний тропический год (то есть средний солнечный год). Средний тропический год «это время, которое требуется Солнцу, чтобы вернуться в то же положение в круговороте сезонов, которое видно с Земли» (Википедия). Тропический год меняется незначительно, но средний (средний) тропический год - О 365.24667.

Если високосные дни верны, то вероятность того, что случайно выбранный день будет високосным, составляет ((тропический год) - (не високосный год)) / тропический год

Подводя примерное число, которое мы имеем, это (365.24667-365) /365.24667, или 0,24667 / 365.24667, или 675 на миллион (0,0675%).

Это, однако, для случайно выбранного дня. Я полагаю, что это существенно искажено родителями, которые предпочитают не объяснять своим детям: «Ваш фактический день рождения наступает только раз в 4 года».

AMADANON Inc.
источник
3
Я не думаю, что это отвечает на поставленный вопрос, потому что високосный день, 29 февраля, существует только в определенных календарных системах. Эти календарные системы использовались только в определенных обществах во время недавних исторических эпох. Например, этот вопрос не понятен тому, кто считает время, используя еврейский календарь, у которого вообще нет «февраля»! Более того, даже если мы примем календарь с високосным днем, он все равно не разрешит неопределенность, связанную с вероятностью распределения рождений по дням.
Sycorax говорит восстановить Monica
@ user777, это не имеет значения. Если вы принадлежите к культуре, которая не распознает високосный день, все еще будут люди, которые родились в наш високосный день.
Осьминог
1
@ Осьминог Нет, если они родились до октября 1582 года, месяца, когда был введен григорианский календарь. Вопрос недостаточно конкретен, чтобы позволить определить, какие группы населения находятся на рассмотрении, поэтому мой комментарий является критически важным.
Sycorax говорит восстановить Monica
@ user777, ты расщепляешь волосы. Дело в том, что григорианский календарь существует сегодня, и его можно использовать для размещения каждого дня в истории, независимо от того, наблюдали ли они его в то время.
Осьминог
1
@ Осьминог Откуда ты знаешь, в этом суть?
Sycorax говорит восстановить Monica
-4

Я спросил свою сестру, чей день рождения 29 февраля, и она сказала: «Результатом моего собственного эмпирического исследования было то, что это 1,00, очевидно».

Джон Смит
источник
Ну, похоже, это не оценили. Принято к сведению.
Джон Смит