В Австралии в настоящее время проводятся выборы, и по понятным причинам СМИ ежедневно сообщают о новых результатах политического опроса. В стране с населением 22 миллиона человек какой процент населения должен быть выбран для получения статистически достоверного результата?
Возможно ли, что использование слишком большой выборки может повлиять на результаты, или статистическая достоверность монотонно увеличивается с размером выборки?
источник
С точки зрения опроса, вы хотите, чтобы ширина вашего доверительного интервала была «низкой». Как правило, опросчики работают с пределом погрешности, который в основном составляет половину CI. Другими словами, .MoE=k∗sd(p)
Вот как мы можем рассчитать : по определению, p = ∑ X i / N, где X i = 1, если избиратель i голосует за кандидата, и 0 в противном случае.sd(p) p=∑Xi/N Xi=1 i 0
Например, для доверительного интервала 95% (т.е. ) и N = 1000k=1.96 N=1000
По мере того, как мы увеличиваемN,затраты на опрос возрастают линейно, а выгоды уменьшаются экспоненциально. Это причина, почему опросчики обычно ограничиваютN
источник
В качестве грубого обобщения, каждый раз, когда вы выбираете долю населения в группе, вы получите другой ответ, чем если бы вы снова взяли то же число (но, возможно, разных людей).
Так что, если вы хотите узнать, сколько людей в Австралии> = 30 лет, и если истинная доля (Бог сказал нам) просто оказалась точно 0,4, и если мы спросим 100 человек, среднее число, которое мы можем ожидать скажем, они> = 30, это 100 x 0,4 = 40, а стандартное отклонение этого числа составляет +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 или 4,9% (биномиальное распределение).
Поскольку этот квадратный корень находится там, когда размер выборки увеличивается в 100 раз, стандартное отклонение уменьшается в 10 раз. Таким образом, в целом, чтобы уменьшить неопределенность такого измерения в 10 раз, вам нужно собрать в 100 раз больше людей. Таким образом, если вы спросите 100 x 100 = 10000 человек, стандартное отклонение увеличится до 49 или, как процент, снизится до 0,49%.
источник