Вот пример случая:
- У меня есть население 10000 предметов. Каждый элемент имеет уникальный идентификатор.
- Я случайно выбираю 100 предметов и записываю идентификаторы
- Я положил 100 предметов обратно в население
- Я снова выбираю 100 предметов, записываю идентификаторы и заменяю их.
- В общей сложности я повторяю эту случайную выборку 5 раз
Какова вероятность того, что число появится во всех 5 случайных выборках?
Я не очень хорошо разбираюсь в статистике. Будет ли это правильно для ?
- Для каждой выборки число возможных комбинаций 100 элементов из 10 000 составляет
- Из всех возможных комбинаций из 100 элементов комбинации содержат 10 определенных элементов
- Вероятность наличия 10 конкретных предметов составляет
- Рассчитанная вероятность до степени 5 будет представлять 5 независимых выборок.
Итак, по сути, мы просто вычисляем 5 независимых гипергеометрических вероятностей и затем умножаем их вместе? Я чувствую, что где-то пропускаю шаг.
probability
hypergeometric
daemonk
источник
источник
Ответы:
Вычислить шансы рекурсивно.
Пусть будет вероятностью того, что точно значений, , будут выбраны во всех независимых розыгрышах предметов (без замены) из совокупности членов , (Давайте держать и фиксированными на время анализа, чтобы их не нужно было упоминать явно.)x 0 ≤ x ≤ k s ≥ 1 k n ≥ k > 0 n kps(x) x 0≤x≤k s≥1 k n≥k>0 n k
Пусть - вероятность того, что если в первом выбраны именно значения , то из них будут выбраны в последнем тираже. Тогда, поскольку есть подмножества из элементов этих элементов , и подмножества оставшихся элементов выбираются отдельно из других членов совокупности,y s - 1 x ≤ y ( yps(x∣y) y s−1 x≤y (yx) x y (n−yk−x) k−x n−y
Закон полной вероятности утверждает
Для , наверняка, : это начальное распределение.s=1 x=k
Общее вычисление, необходимое для получения полного распределения через повторений, составляет . Мало того, что это достаточно быстро, алгоритм прост. Неосторожный программист ожидает одну ловушку, которая заключается в том, что эти вероятности могут стать чрезвычайно малыми и привести к потере вычислений с плавающей точкой. Следующая реализация избегает этого, вычисляя значения в столбцах массива.s O(k2s) log(ps(x)) 1,2,…,s
R
Ответ на вопрос получается, если и .s=5, n=10000=104 k=100=102 На выходе получается массив , но большинство чисел настолько малы, что мы можем сосредоточиться на очень маленьком . Вот первые четыре строки, соответствующие :101×5 x x=0,1,2,3
Выход
Значения обозначают строки, а значения - столбцы. Столбец 5 показывает вероятность того, что один элемент появляется во всех пяти выборках, является крошечным (примерно один на миллион), и практически нет шансов, что два или более элемента появятся во всех пяти выборках.x s
Если вы хотите увидеть, насколько малы эти шансы, посмотрите на их логарифмы. База 10 удобна и нам не нужно много цифр:
Выходные данные говорят нам, сколько нулей после десятичной запятой:
Числа в верхнем ряду являются значениями . Например, вероятность того, что во всех пяти выборках будут обнаружены ровно три значения , дает и на самом деле это имеет нулей до первая значащая цифра. Как проверка, последнее значение является округленной версией . (который учитывает вероятность повторного появления первого образца в следующих четырех образцах) равенx 0.0000000000000000001434419… 18 967.0 967.26 (10000100)−4 10−967.26.
exp(u[4])
источник
Я просто столкнулся с подобной проблемой и, хотя я также не знаю, является ли это правильным решением, подошел к нему так:
Вы заинтересованы в появлении предметов в 5 образцах по штук из предметов. Вы можете подумать о урне с белыми шарами и черными шарами. шаров, а - вероятность того, что в вашем наборе все белых шаров. Если вы сделаете это раз (независимо), я бы это: .X 100 10,000 X 10,000−X 100 ph X 5 p=ph5
Я мог бы даже подумать еще об одном шаге и обернуть его вокруг биномиального распределения: если у вас есть монета, которая приходит в голову с вероятностью (вероятность того, что у вас есть все предметы в вашем наборе) и вы подбрасываете ее раз, что такое вероятность получения голов? .ph 5 5 p=(55)ph5(1−ph)5−5=ph5
источник
Основываясь на том, что сказал Ганс, вы хотите всегда получать одинаковые идентификаторы в каждой выборке из 100 и 100- идентификаторов из оставшихся 10000- . Вероятность сделать это для данной выборки определяется гипергеометрической функцией для успехов в розыгрыше 100 из 10000 населения с возможными состояниями успеха: . Для 5 образцов вы бы взяли .X X X X X P=(XX)(10000−X100−X)(10000100) P5
Однако, что мы предполагаем , зная идентификаторов , которые являются общими, и есть способы выбора этих идентификаторов. Таким образом, ваш окончательный ответ будет .X (10000X) X (10000X)P5
источник