Я абсолютно новичок в статистике и области доверительных интервалов. Так что это может быть очень тривиально или даже звучать глупо. Я был бы признателен, если бы вы могли помочь мне понять или указать мне литературу / текст / блог, который объясняет это лучше.
Я вижу на различных новостных сайтах, таких как CNN, Fox news, Politico и т. Д., Об их опросах, касающихся президентской гонки 2012 года в США. Каждое агентство проводит некоторые опросы и сообщает некоторые статистические данные в форме:
CNN: популярность Обамы составляет X% с погрешностью +/- x1%. Размер выборки 600. FOX: популярность Обамы составляет Y% с погрешностью +/- y1%. Размер выборки 800. XYZ: популярность Обамы составляет Z% с погрешностью +/- z1%. Размер выборки 300.
Вот мои сомнения:
Как мне решить, кому доверять? Должно ли оно основываться на доверительном интервале, или я должен предположить, что, поскольку Fox имеет больший размер выборки, его оценка является более надежной? Существует ли неявная связь между доверительной вероятностью и размером выборки, так что указание одной исключает необходимость указания другой?
Могу ли я определить стандартное отклонение от доверительных интервалов? Если это так, действительно ли оно всегда или действительно только для определенных распределений (например, гауссовых)?
Есть ли способ, которым я могу «объединить» или «объединить» вышеупомянутые три оценки и получить мою собственную оценку вместе с доверительными интервалами? Какой размер выборки я должен заявить в этом случае?
Я упомянул CNN / Fox только для того, чтобы лучше объяснить мой пример. Я не собираюсь начинать дебаты между демократами и республиканцами здесь.
Пожалуйста, помогите мне понять вопросы, которые я поднял.
Это огромная тема, но в основном есть две проблемы:
1) Точность - это определяется размером выборки. Большие выборки дают более точные оценки с более низкой стандартной ошибкой и более узкими доверительными интервалами
2) Предвзятость - которая в статистике не обязательно имеет отрицательную коннотацию, которую она имеет в другом месте. В опросах они пытаются получить случайную выборку XXXX (иногда вероятные избиратели, иногда зарегистрированные избиратели). Но они этого не делают. Некоторые опросы используют только наземные линии. Различные группы людей с большей или меньшей вероятностью ответят. Разные группы с большей или меньшей вероятностью просто повесят трубку.
Таким образом, все респонденты взвешивают свои ответы. То есть они пытаются скорректировать свои результаты в соответствии с известными фактами об избирателях. Но все они делают это немного по-другому. Таким образом, даже при одинаковых входных данных опроса они будут давать разные числа.
Кому доверять? Что ж, если вы посмотрите на работу Нейта Сильвера на 538, у него есть оценки того, насколько точными были избиратели на предыдущих выборах. Но это не значит, что они будут одинаково точны сейчас.
источник
Это относится к области выборочного обследования. В принципе, методы работают, потому что используется рандомизация. Вот вещи, которые могут отличаться в опросах, основанных на субъективных решениях.
Рамка выборки. Из какой группы избирателей мне следует взять мой образец?
Как мне справиться с нестабильностью нерешительного избирателя, который может изменить свое мнение об Обаме против Ромни на основе вчерашнего опроса или следующих недель?
Питер коснулся предвзятости. Литературный опрос 1936 года был катастрофой. Это выбрало кандидата-республиканца по FDR, потому что выборка кадра была основана на случайном выборе телефонных номеров. В 1936 году только верхний средний класс и богатые имели телефоны. В этой группе преобладали республиканцы, которые склонны голосовать за кандидата от республиканцев. Рузвельт победил оползнем, получив свои голоса от бедных и среднего класса, который, как правило, был группой демократов! Это иллюстрирует смещение из-за едва уловимого выбора кадра выборки.
Опрос выборки касается конечных групп населения. Численность популяции равна N. Скажем, из этой популяции взята простая случайная выборка с размером n. Для простоты предположим, что бегут только Обама и Ромни. Доля голосов, которые Обама получил бы за этот кадр выборки, представляет собой среднее значение двоичных переменных (скажем, 1, если респондент выбирает Обаму, и 0 для Ромни). Дисперсия среднего значения выборки для этой переменной составляет [p (1-p) / n] [Nn] / N, где p - истинный популяционный пропортин, который выберет Обаму. [Nn] / N - конечная поправка населения. в большинстве опросов N намного больше, чем N, и правильное можно игнорировать. Глядя на p (1-p) / n, мы видим, что дисперсия уменьшается с n. Поэтому, если n велико, доверительный интервал при данном уровне достоверности станет небольшим.
Опросчики, другие опрошенные выборщики и статистики в Бюро переписей США, имеют в своем распоряжении эти статистические инструменты и используют более сложные и точные методы (кластерная случайная выборка и стратифицированная случайная выборка, чтобы упомянуть пару методов).
Когда их предположения моделирования верны, методы работают замечательно. Выходной опрос является ярким примером. В день выборов вы увидите точного победителя проекта сети почти в каждом штате задолго до почти окончательного подсчета. Это потому, что изменчивость предвыборного дня исчезла. Они исторически знают, как люди склонны голосовать, и они могут определить выбранные участки таким образом, чтобы избежать предвзятости. Сети иногда отличаются. Это может быть связано с конкуренцией за выбор победителя, опережающего менталитет других. Это также может быть в редких случаях, потому что голосование очень близко (например, президентские выборы 2000 года во Флориде).
Я надеюсь, что это даст вам более четкую картину того, что происходит. Мы больше не видим грубых ошибок, таких как «Дьюи побеждает Трумэна» в 1948 году или фиаско «Литературного дайджеста» 1936 года. Но статистика не идеальна, и статистики никогда не смогут сказать, что они уверены.
источник