Есть веб-сервис, где я могу запросить информацию о случайном предмете. Для каждого запроса каждый элемент имеет равные шансы на возврат.
Я могу продолжать запрашивать предметы и записывать количество дубликатов и уникальных. Как я могу использовать эти данные для оценки общего количества товаров?
Ответы:
По сути, это вариант проблемы со сборщиком купонов.
Если всего элементов и вы взяли размер выборки s с заменой, то вероятность идентификации u уникальных элементов равна P r ( U = u | n , s ) = S 2 ( s , u ) n !n s u
гдеS2(s,u)даетчисла Стирлинга второго рода
Теперь все, что вам нужно, это предварительная раздача для , применить теорему Байеса, и получить заднее распределение для N .Pr(N=n) N
источник
Я уже дал предложение, основанное на числах Стирлинга второго рода и методах Байеса.
Для тех, кто считает числа Стерлинга слишком большими или байесовские методы слишком сложными, можно использовать более грубый метод
и обратный расчет с использованием численных методов.
Например, взяв пример ГаБоргуля с и наблюдаемым Us=300 , это может дать нам оценку п ≈ 1180 для населения.U=265 n^≈1180
Если бы это была совокупность, то это дало бы нам дисперсию для около 25, а произвольные два стандартных отклонения по обе стороны от 265 были бы около 255 и 275 (как я уже сказал, это грубый метод). 255 дало бы нам оценку для n около 895, а 275 дало бы около 1692. Пример 1000 удобно лежит в этом интервале.U n
источник
You can use the capture-recapture method, also implemented as the Rcapture R package.
Here is an example, coded in R. Let's assume that the web service has N=1000 items. We will make n=300 requests. Generate a random sample where, numbering the elements from 1 to k, where k is how many different items we saw.
The result of the simulation is
thus among the 300 requests there were 4 items seen 3 times, 27 items seen twice, and 234 items seen only once.
Now estimate N from this sample:
The result:
Thus only the Mh Chao model converged, it estimatedN^ =1262.7.
EDIT: To check the reliability of the above method I ran the above code on 10000 generated samples. The Mh Chao model converged every time. Here is the summary:
источник