Предположим, у вас был год инопланетянина с неизвестной длиной N. Если у вас есть случайная выборка из указанных инопланетян, и у некоторых из них есть общие дни рождения, можете ли вы использовать эти данные для оценки длины года?
Например, в выборке из 100 у вас может быть две тройки (т.е. два дня рождения, каждый из которых разделен на три пришельца) и пять пар и восемьдесят четыре синглета. При оценке N абсолютный минимум равен 91, а максимум неограничен, но как мне найти разумное ожидаемое значение?
Предположения включают такие вещи, как «все дни рождения одинаково вероятны».
В отличие от ответа на другой вопрос, в комнате есть известные столкновения. Любой достаточно долгий год будет иметь большую вероятность отсутствия столкновений для комнаты пришельцев. Но очень длинные годы будут иметь низкие шансы на любые столкновения, а короткие годы будут иметь низкие шансы на несколько столкновений, таким образом обеспечивая (теоретический) диапазон для наиболее вероятных длин года.
источник
Ответы:
Ожидаемое значение распределения рассчитывается как . Для этой задачи мы хотим вычислить распределение N с учетом некоторых критериев столкновения или найти E ( N ) = ∑ ∞ n = 0 p n n с учетом некоторых критериев столкновения, где p n = P ( N = n ) .E(X)=∑pixi N E(N)=∑∞n=0pnn pn=P(N=n).
Предположим, у вас есть некоторые критерии столкновения, как указано выше, и пусть будет вероятностью того, что критерии столкновения будут выполнены, если длина года равна n . Тогда q n можно найти, просто разделив количество способов, которым критерии столкновения могут быть удовлетворены, на количество способов, которыми дни рождения могут быть организованы в целом. Как только q n найден для каждого возможного n , единственная часть, которая отсутствует, переводит q n в p n .qn n. qn qn n qn pn.
Если предположить, что пропорционально q n , то p n = α q n . Так как Е ∞ п = 0 р п = 1 , α Е ∞ п = 0 д п = 1 и α = 1pn qn pn=αqn. ∑∞n=0pn=1 α∑∞n=0qn=1 Поэтому нам просто нужна формула дляqnα=1∑∞n=0qn. qn чтобы решить эту проблему.
Для вашего примера, давайте сначала найдем число возможных критериев столкновения при Первый инопланетный синглтон может приземлиться в любой день, поэтому существует n возможностей. Следующий синглтон может приземлиться в любой день, кроме дня рождения первого пришельца, поэтому существует n - 1 возможностей. Завершая это для первых 84 синглетонов, мы получаем n ( n - 1 ) ( n - 2 ) . , , ( n - 83 )N=n. n n−1 n(n−1)(n−2)...(n−83) возможные пути это может произойти. Обратите внимание, что у нас также есть 5 пар и 2 тройки, поэтому «первый» инопланетянин для каждой группы не должен попадать на пары синглтона. Это приводит к n(n−1)(n−2)...(n−84−5−2+1) способы, которыми эти инопланетяне не сталкиваются (неуклюжий синтаксис для более простого обобщения позже).
Далее, у второго пришельца для данной пары или триплета есть 91 выбор, у следующего - 90 и т. Д., Общее количество способов, которым это может произойти, учитывая дни рождения первых 91 иностранца, составляет . Оставшиеся члены триплетов должны приходиться на дни рождения пар, и вероятность этого составляет 7 * 6 . Мы умножаем вероятности для всего этого вместе, чтобы получить общее количество возможных способов для критериев столкновения, которые будут выполнены как:91(91−1)(91−2)...(91−7+1) 7∗6
В этот момент образец ясен, если мы имеем синглтоны, б пар и гр триплеты, заменит 84 с , 5 с Ь , и 2 с с , чтобы получить обобщенную формулу. Я думаю, что также ясно, что число возможных способов организации дней рождения в общем случае составляет n m , где m - общее количество иностранцев в проблеме. Следовательно, вероятность соответствия критериям столкновения - это число способов удовлетворения критериям столкновения, деленное на количество способов рождения инопланетян, или q n = r n.a б с а , б , с Nм .qn=rnnм
Еще одна интересная вещь появилась в формуле . Пусть y n = n ( n - 1 ) . , , ( n - ( a + b + c ) + 1 ) = n !rn и пустьznбудет оставшейся частьюrn,так чтоrn=ynzn. Обратите внимание, чтоznне зависит от n, поэтому мы можем просто записатьzn=zкак константу! Посколькуpn=qn/∑ ∞ i = 0 qi, аqn=yn=n(n−1)...(n−(a+b+c)+1)=n!(n−(a+b+c))! zn rn rn=ynzn zn zn=z pn=qn/∑∞i=0qi , мы можем фактически вычестьzиз суммы в знаменателе. В этот момент он отменяется с частью из числителя, чтобы получитьpn=ynqn=zynnm z . Мы можем еще больше упроститьyn,если мы допустимs=a+b+c(или это можно рассматривать как число уникальных дней рождения в группе инопланетян), так что мы получим:пN= уNNм/ ∑∞я = 0( уяям) YN s = a + b + c
Теперь мы имеем (довольно) простую формулу для и, следовательно, (довольно) простую формулу для E ( N ) , где было сделано единственное предположение, что P ( N = n ) пропорциональна q n (вероятность встречи критерии столкновения, учитывая, что N = n ). Я думаю, что это справедливое предположение, и кто-то умнее меня мог бы даже доказать, что это предположение связано с P ( N = n ) после многочленного распределения. На данный момент мы можем рассчитатьпN Е( N) п( N= п ) QN N= п п( N= п ) используя численные методы или сделайте некоторые предположения приближения, поскольку p n будет приближаться к 0, когда n приближается к ∞ .Е( N) пN N ∞
источник
Отличный ответ от Коди дает хороший способ выразить функцию правдоподобия дляN , число дней в году (или апостериорное распределение на основе плоского априора), вычленяя некоторую часть вероятности, которая не зависит от N .
В этом ответе я хотел бы записать его более кратко, а также предоставить способ вычисления максимума этой функции правдоподобия (а не ожидаемого значения, которое гораздо сложнее вычислить).
Функция правдоподобия для N
Количество способов сделать последовательностьа + 2 б + 3 с дня рождения из множества N рождения, с тем ограничением , что есть число единичных рождения, б дублирующих дней рождения, и с тройными днями рождения равноa б с
и только первый член на правой стороне зависит отn , поэтому, вычеркивая другие члены, мы заканчиваем простым выражением для функции правдоподобия L (n | a,b,c)знак равноαN- ( а + 2 б + 3 в )н !( n - a - b - c ) != п- мн !( н - с ) !п( a , b , c | n )
где мы следуем обозначениям Коди и используемм для обозначения числа пришельцев, а s - числа уникальных дней рождения.
Оценка максимального правдоподобия для N
Мы можем использовать эту функцию правдоподобия для получения оценки максимального правдоподобия дляN .
Обратите внимание, что
и максимум будет происходить непосредственно передN для которого
или
примерно для большихN (используя ряд Лорана, который можно найти, подставив х = 1 / н и записав ряд Тейлора для Икс в точке х = 0 )
Используя только член первого порядкаs≈m−m(m−1)2n вы получаете:
Используя также член второго порядкаs≈m−m(m−1)2n+m(m−1)(m−2)6n2 вы получите:
Так что в случаеm=100 пришельцев, среди которыхs=91 уникальных дней рождения, вы получаете приближениеn1≈550 иn2≈515.1215 . Когда вы решаете уравнение численно, вы получаетеn=516.82 который мы округляем доn=516 чтобы получить MLE.
источник