Как вы определяете размер выборки при опросе большого количества населения?

15

В Австралии в настоящее время проводятся выборы, и по понятным причинам СМИ ежедневно сообщают о новых результатах политического опроса. В стране с населением 22 миллиона человек какой процент населения должен быть выбран для получения статистически достоверного результата?

Возможно ли, что использование слишком большой выборки может повлиять на результаты, или статистическая достоверность монотонно увеличивается с размером выборки?

brotchie
источник

Ответы:

13

Размер выборки не сильно зависит от численности населения, что для многих нелогично.

Большинство избирательных компаний используют 400 или 1000 человек в своих выборках.

Для этого есть причина:

Размер выборки 400 даст вам доверительный интервал +/- 5% 19 раз из 20 (95%)

Размер выборки 1000 даст вам доверительный интервал +/- 3% 19 раз из 20 (95%)

Когда вы измеряете пропорцию около 50% в любом случае.

Этот калькулятор неплох:

http://www.raosoft.com/samplesize.html

Нил Макгиган
источник
6
Но обратите внимание, что все это основано на выборке из однородной популяции. Если у вас гетерогенная популяция (например, разные пропорции для разных подгрупп, выборка редких частей популяций), тогда эта оценка дисперсии не столь надежна. Оценки, которые вы фактически рассчитываете здесь, (я думаю) для населения, которое представляет ваша выборка. Вопрос в том, действительно ли это население вас интересует?
вероятностная
9

ππNNp

pNπ

CI=[pksd(p),  p+ksd(p)]
k

С точки зрения опроса, вы хотите, чтобы ширина вашего доверительного интервала была «низкой». Как правило, опросчики работают с пределом погрешности, который в основном составляет половину CI. Другими словами, . MoE=ksd(p)

Вот как мы можем рассчитать : по определению, p = X i / N, где X i = 1, если избиратель i голосует за кандидата, и 0 в противном случае.sd(p)p=Xi/NXi=1i0

Xi

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
Теперь, чтобы оценить погрешность, нам нужно знатьπ,которого мы не знаем, очевидно. Но проверка числителя показывает, что «худшая» оценка дляsd(p)в том смысле, что мы получаем «наибольшее» стандартное отклонение, это когда
sd(p)=π(1π)N
πsd(p) . Поэтому наихудшее стандартное отклонение: s d ( p ) = π=0.5
sd(p)=0.50.5/N=0.5/N
NN

Например, для доверительного интервала 95% (т.е. ) и N = 1000k=1.96N=1000 По мере того, как мы увеличиваемN,затраты на опрос возрастают линейно, а выгоды уменьшаются экспоненциально. Это причина, почему опросчики обычно ограничиваютN

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
NNπ=50%
Сообщество
источник
2

В качестве грубого обобщения, каждый раз, когда вы выбираете долю населения в группе, вы получите другой ответ, чем если бы вы снова взяли то же число (но, возможно, разных людей).

Так что, если вы хотите узнать, сколько людей в Австралии> = 30 лет, и если истинная доля (Бог сказал нам) просто оказалась точно 0,4, и если мы спросим 100 человек, среднее число, которое мы можем ожидать скажем, они> = 30, это 100 x 0,4 = 40, а стандартное отклонение этого числа составляет +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 или 4,9% (биномиальное распределение).

Поскольку этот квадратный корень находится там, когда размер выборки увеличивается в 100 раз, стандартное отклонение уменьшается в 10 раз. Таким образом, в целом, чтобы уменьшить неопределенность такого измерения в 10 раз, вам нужно собрать в 100 раз больше людей. Таким образом, если вы спросите 100 x 100 = 10000 человек, стандартное отклонение увеличится до 49 или, как процент, снизится до 0,49%.

Майк Данлавей
источник