Ошибка в оценке размера набора?

9

Предположим, у нас есть множество A и подмножество B. Если мы знаем | A |, то мы можем вычислить | B | путем нахождения вероятности p, что элемент, выбранный случайным образом из A, принадлежит B. Определенно | A | p = | B |.

Предположим, что мы генерируем n элементов A равномерно случайным образом и используем эти данные для оценки p (число элементов в B, деленное на n) и, следовательно, оценки | B |.

Насколько надежна эта оценка? Т.е. как мы можем вычислить ошибку?

Как побочный вопрос, есть ли название для этой техники? (похоже, это математическая версия техники метки и повторного захвата )

Дуглас С. Стоунс
источник
1
Это биноминальная оценка. (Нет никакой маркировки или повторного захвата вообще. Это приводит к гипергеометрической оценке.)
whuber

Ответы:

8

Вы оцениваете пропорции. Для конкретности представьте, что А - это население избирателей, а В - группа избирателей, которые голосуют за конкретного кандидата. Таким образом, p будет процентом избирателей, которые проголосовали бы за этого кандидата. Позволять:

π быть истинным процентом людей, которые проголосовали бы за кандидата

Другими словами:

πзнак равно|В||A|

Тогда каждый из ваших образцов - это испытание Бернулли с вероятностью или, что то же самое, вы можете представить, что каждый из ваших образцов - это опрос потенциальных избирателей, спрашивающих их, будут ли они голосовать за кандидата. Таким образом, MLE определяется как:ππ

пзнак равноNВN

где

NВ - это число людей, которые заявили, что проголосуют за кандидата, или количество элементов, принадлежащих множеству B в вашей выборке размера .N

Стандартная ошибка для вашей оценки:

π(1-π)N

Вышеприведенное может быть аппроксимировано с помощью MLE для то есть:π

п(1-п)N


источник