Мне нужна помощь в объяснении и цитировании базовых статистических текстов, статей или других ссылок, почему, как правило, неправильно использовать статистику предела ошибки (MOE), сообщаемую при опросе, для наивного объявления статистической связи.
Пример: Кандидат А возглавляет Кандидат B в опросе, %, 4,5 % с погрешностью для 500 опрошенных избирателей.
У моего друга такие причины:
Из-за сложностей статистического моделирования допустимая погрешность означает, что истинная поддержка A может составлять 34,5%, а B - 35,5%. Следовательно, A и B фактически находятся в статистическом мертвом состоянии.
Вся помощь оценена в четком изложении недостатка рассуждений моего друга. Я пытался объяснить , что это неправильно , наивно отвергнуть гипотезу «ведет B» , если .
Ответы:
Моя первая попытка ответа была ошибочной (см. Ниже неправильный ответ). Причина этого заключается в том, что допустимый предел погрешности (MOE), который сообщается, относится к проценту опроса кандидата, но не к разнице процентов. Моя вторая попытка явно лучше решает вопрос, заданный ФП.
Вторая попытка
Друг ФП объясняет следующее:
Основная проблема здесь в том, что первый шаг неверен. Независимое построение доверительных интервалов для двух кандидатов не является допустимым шагом, поскольку процентные доли опроса для двух кандидатов являются зависимыми случайными величинами. Другими словами, избиратель, который решит не голосовать за А, может решить вместо этого голосовать за Б. Таким образом, правильный способ оценить, является ли лидерство значительным или нет, состоит в том, чтобы построить доверительный интервал для разницы. См. Вики о том, как вычислить стандартную ошибку для разницы процентов опроса при некоторых допущениях.
Некорректный ответ ниже
На мой взгляд, «правильный» взгляд на результат опроса таков:
Верите ли вы в то, что «A ведет B» или «A связи B», зависит от степени, в которой вы готовы принять 5% в качестве критерия отсечения.
источник
Это легче объяснить с точки зрения стандартных отклонений, а не доверительных интервалов.
Но все эти нюансы, по-видимому, указывают на то, что избирательные организации должны сообщать погрешность в разнице. Где Нейт Сильвер?
источник
Это не только плохой способ обозначать вещи, но это даже не статистическая мертвая жара.
Таким образом, вы не используете перекрывающиеся доверительные интервалы. Если вы действительно хотели сказать только то, что Кандидат А собирался победить, тогда Кандидат А определенно лидирует. Свинец составляет 8%, МЧС 6,4%. Доверительный интервал этого показателя вычитания не удваивает доверительный интервал отдельных показателей. Это подразумевается тем, что требование перекрытия КИ (± МО) вокруг каждой оценки является мертвой температурой. При условии равного N и дисперсии, МЧС разности составляет sqrt (2) умножить на 4,5. Это потому, что нахождение разницы между значениями только удвоит дисперсию (SD в квадрате). Доверительный интервал основан на квадрате дисперсии, поэтому их объединение представляет собой среднее значение (4,5) * sqrt (2). Поскольку МЧС вашего 8% лидерства составляет приблизительно 6,4%, тогда кандидат А находится в лидере.
Кроме того, МЧС очень консервативны и основаны на 50% стоимости выбора. Формула имеет вид sqrt (0,25 / n) * 2. Существует формула для расчета стандартных ошибок оценок различий, которую мы также можем использовать. Мы применили бы это, используя найденные значения, а не 50% -ое ограничение, и это все еще дает нам значительное преимущество для Кандидата А (7,5% МЧС). Я полагаю, что, учитывая комментарии спрашивающих и близость этой отсечки к выбранной гипотетической, это, вероятно, было то, что они искали.
Любое знакомство как с доверительными интервалами, так и с властью было бы здесь полезно. Даже статья в Википедии о МЧС выглядит довольно хорошо.
источник