Можете ли вы объяснить, почему статистическая связь не отклоняется наивно, когда

12

Мне нужна помощь в объяснении и цитировании базовых статистических текстов, статей или других ссылок, почему, как правило, неправильно использовать статистику предела ошибки (MOE), сообщаемую при опросе, для наивного объявления статистической связи.

Пример: Кандидат А возглавляет Кандидат B в опросе, %, с погрешностью для опрошенных избирателей. $39 - 31$ $4.5 \%$ $500$

У моего друга такие причины:

Из-за сложностей статистического моделирования допустимая погрешность означает, что истинная поддержка A может составлять 34,5%, а B - 35,5%. Следовательно, A и B фактически находятся в статистическом мертвом состоянии.

Вся помощь оценена в четком изложении недостатка рассуждений моего друга. Я пытался объяснить , что это неправильно , наивно отвергнуть гипотезу «ведет B» , если . $p_A-p_B < 2MOE$

polling Антони Пареллада
источник

Для дальнейшего обсуждения этого, включая подходы к правильному объединению МЧС, см. Stats.stackexchange.com/questions/18215 .

whuber

7

Моя первая попытка ответа была ошибочной (см. Ниже неправильный ответ). Причина этого заключается в том, что допустимый предел погрешности (MOE), который сообщается, относится к проценту опроса кандидата, но не к разнице процентов. Моя вторая попытка явно лучше решает вопрос, заданный ФП.

Вторая попытка

Друг ФП объясняет следующее:

Построить доверительный интервал для Кандидата A и Кандидата B отдельно, используя данное МЧС.
Если они перекрывают друг друга, у нас статистический мертвый слух, а если нет, то А в настоящее время возглавляет Б.

Основная проблема здесь в том, что первый шаг неверен. Независимое построение доверительных интервалов для двух кандидатов не является допустимым шагом, поскольку процентные доли опроса для двух кандидатов являются зависимыми случайными величинами. Другими словами, избиратель, который решит не голосовать за А, может решить вместо этого голосовать за Б. Таким образом, правильный способ оценить, является ли лидерство значительным или нет, состоит в том, чтобы построить доверительный интервал для разницы. См. Вики о том, как вычислить стандартную ошибку для разницы процентов опроса при некоторых допущениях.

Некорректный ответ ниже

На мой взгляд, «правильный» взгляд на результат опроса таков:

В опросе 500 избирателей шансы на то, что мы увидим разницу в свинце до 8%, превышают 5%.

Верите ли вы в то, что «A ведет B» или «A связи B», зависит от степени, в которой вы готовы принять 5% в качестве критерия отсечения.

источник

@Srikvant. Предположим, 5% является приемлемым значением. Я ищу более точный ответ, который раскрывает идею о том, что «A приводит B» - это новая статистика, разница pA и pB, и что соответствующий ей доверительный интервал не просто 2 * MOE.

4

Это легче объяснить с точки зрения стандартных отклонений, а не доверительных интервалов.

$p_A + p_B = 1$ $p_B = 1 - p_A$

В a р (п_{A} - п_{В}) знак равно В a р (2 п_{A} - 1) знак равно 4 В a р (п_{A})

$Var(p_A - p_B) = Var(2 p_A - 1) = 4 Var(p_A)$

S D (п_{A} - п_{В}) знак равно 2 S D (п_{A}),

$SD(p_A - p_B) = 2 SD(p_A).$

p_{A}

$p_A$

p_{B}

$p_B$

В a р (п_{A} - п_{В}) знак равно В a р (п_{A}) + В a р (п_{В}) - 2 С о v (п_{A}, п_{В}),

$Var(p_A - p_B) = Var(p_A) + Var(p_B) - 2 Cov(p_A, p_B).$

$p_A + p_B = 1$ $p_A$ $p_B$ $SD(p_A - p_B) \ll 2 SD(p_A)$

Но все эти нюансы, по-видимому, указывают на то, что избирательные организации должны сообщать погрешность в разнице. Где Нейт Сильвер?

vqv
источник

4

Это не только плохой способ обозначать вещи, но это даже не статистическая мертвая жара.

Таким образом, вы не используете перекрывающиеся доверительные интервалы. Если вы действительно хотели сказать только то, что Кандидат А собирался победить, тогда Кандидат А определенно лидирует. Свинец составляет 8%, МЧС 6,4%. Доверительный интервал этого показателя вычитания не удваивает доверительный интервал отдельных показателей. Это подразумевается тем, что требование перекрытия КИ (± МО) вокруг каждой оценки является мертвой температурой. При условии равного N и дисперсии, МЧС разности составляет sqrt (2) умножить на 4,5. Это потому, что нахождение разницы между значениями только удвоит дисперсию (SD в квадрате). Доверительный интервал основан на квадрате дисперсии, поэтому их объединение представляет собой среднее значение (4,5) * sqrt (2). Поскольку МЧС вашего 8% лидерства составляет приблизительно 6,4%, тогда кандидат А находится в лидере.

Кроме того, МЧС очень консервативны и основаны на 50% стоимости выбора. Формула имеет вид sqrt (0,25 / n) * 2. Существует формула для расчета стандартных ошибок оценок различий, которую мы также можем использовать. Мы применили бы это, используя найденные значения, а не 50% -ое ограничение, и это все еще дает нам значительное преимущество для Кандидата А (7,5% МЧС). Я полагаю, что, учитывая комментарии спрашивающих и близость этой отсечки к выбранной гипотетической, это, вероятно, было то, что они искали.

Любое знакомство как с доверительными интервалами, так и с властью было бы здесь полезно. Даже статья в Википедии о МЧС выглядит довольно хорошо.

Джон
источник

Можете ли вы объяснить, почему статистическая связь не отклоняется наивно, когда

Ответы: