Для заданных чисел, где значение каждого числа различно, обозначается как , и вероятность выбора каждого числа равна соответственно.
Теперь, если я выберу чисел на основе заданных вероятностей, где , каково ожидание суммы этих чисел? Обратите внимание, что выбор без замены, так что номера не могут включать повторяющиеся числа. Я понимаю, что если выбор сделан с заменой, ожидание суммы чисел равно , где
Кроме того, как насчет ожидания дисперсии этих чисел ?
Я учусь в аспирантуре, работаю над проблемой больших данных, и у меня нет статистических данных. Я ожидаю, что кто-то может дать мне формулу в качестве ответа. Однако, если ответ слишком сложен, чтобы его можно было описать формулой, или требуются интенсивные вычисления, приблизительный ответ является полностью приемлемым.
Вы можете предположить, что здесь довольно велико, и вероятность может сильно варьироваться. На практике значения этих вероятностей берутся из журнала запросов, в котором записана серия запросов агрегации. Дело в том, что частота каждого числа, участвующего в запросах, может быть довольно искаженной, то есть некоторые запрашиваются редко, а некоторые запрашиваются очень часто. Вы можете предположить, что распределение вероятностей - это нормальное распределение, распределение zipf или любые другие разумные альтернативы.
Распределение значений является только непрерывным подмножеством любого возможного распределения. Другими словами, если у вас есть гистограмма, которая представляет определенное распределение, все числа, вовлеченные в эту проблему, являются числами в пределах одного сегмента.
Что касается значения K, вы можете предположить, что оно всегда меньше количества часто запрашиваемых элементов.
источник
Ответы:
Это, вероятно, характер ответа, который, хотя и точен, вероятно, не так полезен. Horvitz and Thompson (1952) дают результаты, которые охватывают эту ситуацию в целом. Эти результаты приведены в терминах комбинаторных выражений, которые можно ожидать.
Чтобы соответствовать их обозначениям, а также лучше соответствовать более широко используемым обозначениям, позвольте мне переопределить некоторые величины. Пусть будет количеством элементов в совокупности, а будет размером выборки.N n
Пусть , , представляют элементов совокупности с заданными значениями , и вероятностями выбора . Для данной выборки размера пусть наблюдаемые значения в выборке будут .ui i=1,...,N N Vi i=1,...,N p1,...,pN n v1,...,vn
Что желательно, так это среднее значение и дисперсия итоговой выборки
Как упоминалось в комментариях, вероятность выбора конкретного образца нарисованного в этом порядке, равна где начальная вероятность рисования задается , вторая вероятность рисования обусловлена удалением из совокупности и так далее. Таким образом, каждая последующая нарисованная единица приводит к новому распределению вероятности для следующей единицы (следовательно, выбор различных условных букв, потому что каждая представляет различное распределение.)s={ui,uj,...,ut}
Есть выборок размера которые содержат из всей совокупности. Обратите внимание, что это учитываетперестановки образца.
Пусть обозначает конкретную выборку размера которая включает в себя . Тогда вероятность выбора элемента задается где суммирование ведется по множеству размера из все возможные образцы размера , содержащие . (Я немного изменил обозначения на бумаге, потому что мне это показалось непонятным.)s(i)n n ui ui
Аналогично, определите как число выборок, содержащих как и . Затем мы можем определить вероятность выборки, содержащей как где суммирование по набору размера из всех возможных выборок размера которые содержат и .
Ожидаемое значение затем получается как
Хотя дисперсия не получена явно в статье, она может быть получена из ожиданий го момента и перекрестные произведенияq
Другими словами, похоже, что для выполнения этих вычислений потребуется пройти через все возможные подмножества. Возможно, это можно сделать для меньших значений , хотя.n
Horvitz, DG и Thompson, DJ (1952) Обобщение выборки без замены из конечной вселенной. Журнал Американской статистической ассоциации 47 (260): 663-685.
источник