Ожидание суммы K чисел без замены

9

Для заданных чисел, где значение каждого числа различно, обозначается как , и вероятность выбора каждого числа равна соответственно.nv1,v2,...,vnp1,p2,...,pn

Теперь, если я выберу чисел на основе заданных вероятностей, где , каково ожидание суммы этих чисел? Обратите внимание, что выбор без замены, так что номера не могут включать повторяющиеся числа. Я понимаю, что если выбор сделан с заменой, ожидание суммы чисел равно , гдеKKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

Кроме того, как насчет ожидания дисперсии этих чисел ?K

Я учусь в аспирантуре, работаю над проблемой больших данных, и у меня нет статистических данных. Я ожидаю, что кто-то может дать мне формулу в качестве ответа. Однако, если ответ слишком сложен, чтобы его можно было описать формулой, или требуются интенсивные вычисления, приблизительный ответ является полностью приемлемым.

Вы можете предположить, что здесь довольно велико, и вероятность может сильно варьироваться. На практике значения этих вероятностей берутся из журнала запросов, в котором записана серия запросов агрегации. Дело в том, что частота каждого числа, участвующего в запросах, может быть довольно искаженной, то есть некоторые запрашиваются редко, а некоторые запрашиваются очень часто. Вы можете предположить, что распределение вероятностей - это нормальное распределение, распределение zipf или любые другие разумные альтернативы.n

Распределение значений является только непрерывным подмножеством любого возможного распределения. Другими словами, если у вас есть гистограмма, которая представляет определенное распределение, все числа, вовлеченные в эту проблему, являются числами в пределах одного сегмента.

Что касается значения K, вы можете предположить, что оно всегда меньше количества часто запрашиваемых элементов.

SciPioneer
источник
3
Ожидание дисперсии суммы будет отличаться без замены; вам понадобится конечный поправочный коэффициент населения, если нет замены. (Чтобы понять это интуитивно, обратите внимание, что если K = n, дисперсия суммы равна нулю, потому что она всегда будет одним и тем же числом; поэтому, когда K приближается к n, дисперсия суммы будет ниже.)
zbicyclist
1
Этот вопрос может быть сложнее, чем может показаться. Рассмотрим случай и . Ожидаемая сумма двух значений, полученных с заменой, равна что вдвое больше ожидаемой суммы одного значения, конечно; но ожидаемая сумма двух значений, выведенных без замены, очевидно, равна за исключением случаев, когда . ( v 1 , v 2 ) = ( 0 , 1 ) 2 р 2 v 1 + v 2 = 1 2 р 2 р 1 = р 2 = 1 / 2n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber
1
@zbicyclist Возможно, я не четко сформулировал проблему. В моем сценарии, если K = N, тогда дисперсия этих чисел K будет дисперсией общего населения, а не 0.
SciPioneer
1
(1) Для меня это не похоже на вопрос для самостоятельного изучения : это похоже на настоящую прикладную проблему вероятности. (2) Насколько большим может быть ? Точные решения выглядят неосуществимыми, за исключением случаев, когда можно перечислить все подмножества. (3) Если может быть намного больше или около того, исключая быстрое перечисление, что вы можете сказать о ? Например, могут ли они меняться или все они будут очень близки к ? Это может помочь в поиске приблизительных ответов. n 20 p i 1 / nnn20pi1/n
whuber
1
Спасибо за правки. Чем больше вы можете рассказать нам о , , и , тем лучше. Например, если то формулы для выборки с заменой должны быть хорошими приближениями (потому что очень мало значений, если таковые имеются, будут выбраны более одного раза). Я считаю, что самые сложные случаи - это широкий диапазон значений так что вы не можете просто заменить большинство из них нулями, но при этом для значительного числа - и . NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

Ответы:

2

Это, вероятно, характер ответа, который, хотя и точен, вероятно, не так полезен. Horvitz and Thompson (1952) дают результаты, которые охватывают эту ситуацию в целом. Эти результаты приведены в терминах комбинаторных выражений, которые можно ожидать.

Чтобы соответствовать их обозначениям, а также лучше соответствовать более широко используемым обозначениям, позвольте мне переопределить некоторые величины. Пусть будет количеством элементов в совокупности, а будет размером выборки.Nn

Пусть , , представляют элементов совокупности с заданными значениями , и вероятностями выбора . Для данной выборки размера пусть наблюдаемые значения в выборке будут .uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

Что желательно, так это среднее значение и дисперсия итоговой выборки

i=1nvi.

Как упоминалось в комментариях, вероятность выбора конкретного образца нарисованного в этом порядке, равна где начальная вероятность рисования задается , вторая вероятность рисования обусловлена ​​удалением из совокупности и так далее. Таким образом, каждая последующая нарисованная единица приводит к новому распределению вероятности для следующей единицы (следовательно, выбор различных условных букв, потому что каждая представляет различное распределение.)s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

Есть выборок размера которые содержат из всей совокупности. Обратите внимание, что это учитываетперестановки образца.

S(i)=n!(N1n1)
nuin!

Пусть обозначает конкретную выборку размера которая включает в себя . Тогда вероятность выбора элемента задается где суммирование ведется по множеству размера из все возможные образцы размера , содержащие . (Я немного изменил обозначения на бумаге, потому что мне это показалось непонятным.)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

Аналогично, определите как число выборок, содержащих как и . Затем мы можем определить вероятность выборки, содержащей как где суммирование по набору размера из всех возможных выборок размера которые содержат и .

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

Ожидаемое значение затем получается как

E(i=1nvi)=i=1NP(ui)Vi.

Хотя дисперсия не получена явно в статье, она может быть получена из ожиданий го момента и перекрестные произведения q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

Другими словами, похоже, что для выполнения этих вычислений потребуется пройти через все возможные подмножества. Возможно, это можно сделать для меньших значений , хотя.n

Horvitz, DG и Thompson, DJ (1952) Обобщение выборки без замены из конечной вселенной. Журнал Американской статистической ассоциации 47 (260): 663-685.

jvbraun
источник