Вероятность того, что пять детей в одном классе будут иметь одно и то же имя

На форумах, посвященных именам детей, потенциальные родители все время повторяют какую-то версию своего «Страха перед Дженифер»: «Я не хочу, чтобы мой ребенок был одним из пяти в своем классе с его именем». Дело в том, что ни одно имя даже близко не подходит к такой популярности, и даже в разгар увлечения Дженнифер вы не получили пять из них в классе. Я хотел бы получить какой-то ответ для этих родителей о том, насколько маловероятным будет такое совпадение повторения имен.

Используя обширные данные Администрации социального обеспечения по именам детей ( https://www.ssa.gov/oact/babynames/limits.html ), кто-нибудь может подсказать мне, как выяснить шансы того, что в начальной школе в США будет пять дети с таким же именем? (Для простоты под «тем же именем» я имею в виду одинаковое написание, а под «школьным классом» я подразумеваю, что все дети родились в одном году.) Я не указываю размер класса, но он определенно должен быть больше 4 . :-)

probability combinatorics JPmiaou
источник

Сообщения о детских именах - постоянная тема в блоге Эндрю Гельмана. Ни в одном из постов, которые я нашел на его сайте, он не обсуждает ваш конкретный вопрос. Он делает ссылку на «блог имени ребенка», где вам, возможно, повезет больше, если получите ответ. andrewgelman.com/2005/09/07/baby_name_blog

Майк Хантер

Я думаю, что вы можете связать что-то вместе, используя многочленное распределение с вероятностями успеха, скажем, первых двадцати имен, извлеченных из данных переписи, таких как эта .

Антони Пареллада

Предоставляет ли SSA данные о количестве детей, рожденных с именем? Я нахожу только информацию о рангах, которая, очевидно, отбрасывает некоторую полезную информацию.

Sycorax сообщает восстановить Monica

@AntoniParellada Я думаю, что реальность ситуации еще более тонкая: так как школьная система США сильно разделена по доходам и расам, я думаю, что национальная статистика будет плохо соответствовать фактическим классам.

Sycorax говорит восстановить Monica

Когда я учился в (маленькой) начальной школе, у нас было три Джона в очень маленьком классе (я думаю, что мальчикам и девочкам было всего около 14). Один год мы объединили с годом выше, чтобы сделать один класс в натуральную величину ... и получили четвертого Джона. Теперь Джон был довольно распространенным тогда , но не все , что общее. (С точки зрения оригинальной проблемы, три были бы почти столь же раздражающими как пять). Вероятность того, что определенное имя будет дублировано много раз, будет очень низкой, но вероятность того, что какое-то имя появится несколько раз, будет гораздо выше.

Glen_b

Ответы:

Все данные можно найти здесь . Каждое значение в таблице представляет вероятность того, что с учетом выборки на 25 человек из этого места и года рождения 5 из них будут иметь имя.

Метод : я использовал Биномиальный PDF на каждом имени, чтобы найти вероятность того, что в любом классе из 25 человек будет 5 человек, которые имеют общее имя:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

P_{n} (5 + k i d s s h a r e n a m e) = \sum_{\forall n a m e s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{i}^{k} (1 - p_{i})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

$P(\bigcup A_i) \approx \sum P(A_i)$

Обновление: как отмечали многие, существует значительная разница во времени и между штатами. Таким образом, я запустил одну и ту же программу, на основе ГОСУДАРСТВА ПО ГОСУДАРСТВУ и со временем Вот результаты (общенациональная вероятность - красная, отдельные штаты - черная):

Интересно, что Вермонт (мой родной штат) неизменно является одним из наиболее вероятных мест, где это может происходить в течение последних нескольких десятилетий.

Дэвид С
источник

Есть ли шанс, что вы могли бы объяснить, как вы получили эти цифры? Вам не нужно много заглядывать - у меня есть степень бакалавра по математике, и я знаю, где искать вещи - но мне бы очень хотелось узнать, какие рассуждения действительно приводят к вероятностям (вместо этого о вздыхающих вздохах).

JPmiaou

Это предполагает, что имена даются случайным образом с одинаковыми вероятностями , что просто не соответствует действительности . Также реальный опыт показывает, что с детьми с одинаковыми именами гораздо больше уроков, чем 1 из 200!

Тим

Я получаю немного разные результаты, но они близки. Это не стоит обсуждать, потому что географические и временные различия в результатах огромны. Ответ изменился на два порядка с 1910 года и варьируется на порядок среди государств. Поскольку из всех штатов США практически не берется класс начальной школы, модель случайного отбора из списка национальных имен неуместна.

whuber

(1) Посмотрите на другие годы в национальном файле, который вы загрузили. (2) Посмотрите файлы состояния, доступные на том же сайте.

whuber

Да, график вероятностей с течением времени драматичен: к 1980 году он начал резко сокращаться. Но различия в состоянии действительно очень велики, как и следовало ожидать: имена варьируются географически, и они сильно группируются по этнической принадлежности, доходу и другим демографическим факторам. (+1 за ваше расширенное расследование состояния и изменений во времени, кстати.)

whuber

пожалуйста, смотрите следующий Python-скрипт для Python2.

Ответ вдохновлен ответом Дэвида С.

Мой окончательный ответ: вероятность найти по крайней мере пять Джейкобов в одном классе, при этом Джейкоб будет наиболее вероятным именем согласно данным из https://www.ssa.gov/oact/babynames/limits.html «Национальных данных». с 2006 г.

Вероятность рассчитывается в соответствии с биномиальным распределением с вероятностью успеха по Джейкобу.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Максимум. вероятность не менее пяти детей с таким же именем из 25: 4.7e-07 для имени Джейкоб

Максимум. вероятность, по крайней мере, пяти детей с таким же именем из 50: 1.6e-05 для имени Джейкоб, конечно.

Максимум. вероятность, по крайней мере, пяти детей с таким же именем из 100: 0,00045 для имени Джейкоб, конечно.

В 10 раз тот же результат, что и у Дэвида С. Спасибо. (Мой ответ не суммирует все имена, должен обсуждаться)

feinmann
источник

Этот ответ, по-видимому, не касается вопроса о том, что какое-то имя появляется пять или более раз в классе.

whuber

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

Нет, вы не ответили на вопрос, как вы только что сформулировали. Вероятность того, что какое-либо имя появится пять или более раз, намного больше, чем максимальная вероятность того, что данное имя появится пять или более раз.

whuber

Как указывает @whuber, «5 Jacobs» - более слабый аргумент, чем «5 of some name», но в любом случае он может быть полезен при обсуждении имен детей: «Вот вероятность того, что пять детей с самым популярным именем. используя самое популярное имя, так что ваша вероятность еще меньше. "

JPmiaou

Это не совсем так , потому что возможности не являются взаимоисключающими: вы можете иметь 5 или более Томасов и 5 или более Ричардс ( и, возможно, даже 5 или более Генри) в одном классе. Так что это верхняя граница. @DavidC утверждает в комментарии здесь, что такие события имеют незначительную вероятность.

Scortchi - Восстановить Монику