Общий метод получения стандартной ошибки

11

Я не могу найти общий метод для получения стандартных ошибок в любом месте. Я смотрел на Google, этот веб-сайт и даже в учебниках, но все, что я могу найти, - это формула для стандартных ошибок среднего, дисперсии, пропорции, степени риска и т. Д., А не то, как были получены эти формулы.

Если бы кто-то мог объяснить это простыми словами или даже связать меня с хорошим ресурсом, который объясняет это, я был бы благодарен.

Даниэль Гардинер
источник
2
Я предоставляю общую простую модель и применяю ее со всеми проработанными деталями в посте stats.stackexchange.com/a/18609/919 . Этот и многие другие сообщения о стандартных ошибках (почти тысяча к настоящему времени) можно найти,
выполнив

Ответы:

22

То, что вы хотите найти, - это стандартное отклонение выборочного распределения среднего значения. Т.е. на простом английском языке выборочное распределение - это когда вы выбираете элементов из своего населения, складываете их вместе и делите сумму на . Затем мы находим дисперсию этой величины и получаем стандартное отклонение, взяв квадратный корень из этой дисперсии.нnn

Итак, пусть выбранные вами элементы будут представлены случайными переменными , каждая из которых одинаково распределена с дисперсией . Они независимо выбираются, поэтому дисперсия суммы является просто суммой дисперсий. σ 2 Var ( п Σ я = 1 X я ) = п Σ я = 1 Var ( X я ) = п Σ я = 1 σ 2 = п σ 2Xi,1inσ2

Var(i=1nXi)=i=1nVar(Xi)=i=1nσ2=nσ2

Далее мы делим на . В общем, мы знаем, что , поэтому, положив мы имеемVar ( k Y ) = k 2 Var ( Y ) k = 1 / nnVar(kY)=k2Var(Y)k=1/n

Var(i=1nXin)=1n2Var(i=1nXi)=1n2nσ2=σ2n

Наконец, возьмите квадратный корень, чтобы получить стандартное отклонение . Если стандартное отклонение популяции отсутствует, в качестве оценки используется стандартное отклонение выборки в результате чего получается .σnssn

Все вышесказанное верно независимо от распределения , но возникает вопрос: что вы на самом деле хотите сделать со стандартной ошибкой? Как правило, вы можете захотеть построить доверительные интервалы, и тогда важно назначить вероятность для построения доверительного интервала, который содержит среднее значение.Xi

Если ваши нормально распределены, это легко, потому что тогда распределение выборки также нормально распределено. Можно сказать, что 68% выборок среднего значения будут находиться в пределах 1 стандартной ошибки истинного среднего значения, 95% будут в пределах 2 стандартных ошибок и т. Д.Xi

Если у вас достаточно большая выборка (или меньшая выборка, и значения не слишком ненормальны), вы можете вызвать центральную предельную теорему и сказать, что распределение выборки распределено приблизительно нормально, и ваши вероятностные утверждения также приблизительны.Xi

Примером является оценка доли , где вы рисуете элементов из распределения Бернулли. Дисперсия каждого распределения равна и, следовательно, стандартная ошибка равна (доля оценивается с использованием данных). Чтобы потом сказать, что примерно несколько% выборок находятся в пределах стольких стандартных отклонений от среднего значения, вам необходимо понять, когда распределение выборок примерно нормальное. Повторная выборка из распределения Бернулли такая же, как выборка из биномиального распределения, и одно общее практическое правило - приближаться только тогда, когда и равнынpnXip(1p) pnpn(1-p)5p(1p)/npnpn(1p)5, (См. Википедию для более глубокого обсуждения приближения биномиального с нормальным. См. Здесь для рабочего примера стандартных ошибок с пропорцией.)

Если, с другой стороны, ваше распределение выборки не может быть аппроксимировано нормальным распределением, тогда стандартная ошибка намного менее полезна. Например, при очень искаженном асимметричном распределении вы не можете сказать, что один и тот же% выборок будет стандартным отклонением по обе стороны от среднего значения, и вы можете захотеть найти другой способ связать вероятности с выборками.±1

TooTone
источник
Спасибо, этот подход имеет смысл, и я могу видеть, как он применяется к среднему значению, но я не вижу, как распространить его на другие статистические данные. Например, как мне найти стандартную ошибку тарифа? или коэффициент соотношения?
Даниэль Гардинер
Я обновил свой пост. Ключевым моментом является то, что такие величины, как среднее значение, дисперсия и т. Д., А следовательно, и stderr, можно найти для любого распределения. Но чтобы сделать утверждения о вероятности, вам нужно что-то знать о распределении, будь то нормальное, биномиальное или что-то еще. Таким образом, stderr всегда можно найти, но насколько он полезен, зависит от ситуации.
TooTone
если n фиксировано и представляет лишь часть всего вашего населения, почему вы написали, что ? а неs 2var(Xi)=σ2s2
Олег
1
@ Олег - это случайная переменная, в которой есть дисперсия, даже если вы не знаете, что это такое. Неверно писать дисперсию ( ) = , потому что - это оценка дисперсии, которая почти наверняка не является дисперсией совокупности. Для получения дисперсии суммы выборки или среднего значения выборки проще использовать отклонения, даже если они обычно неизвестны, поскольку вы используете простые вероятностные правила. Вы просто используете линейность, то есть дисперсию суммы = сумму дисперсии. Получив дисперсию, вы «помните», что не знаете дисперсии ( ), поэтому вы используетеX i s 2 s 2 X i s 2XiXis2s2Xis2
TooTone
4

Стандартной ошибкой является стандартное отклонение статистики (при нулевой гипотезе, если вы тестируете). Общий метод для нахождения стандартной ошибки состоит в том, чтобы сначала найти функцию распределения или производящую момент вашей статистики, найти второй центральный момент и взять квадратный корень.

μσ2X¯=1ni=1nXiμσ2/n

  1. Сумма независимых случайных величин является нормальной,
  2. E[i=1naiXi]=i=1naiE[Xi]
  3. X1X2Var(a1X1+a2X2)=a12Var(X1)+a22Var(X2)

σ/n

Есть ярлыки, как будто вам не обязательно находить распределение статистики, но я думаю, что концептуально полезно иметь распределения в уме, если вы их знаете.

П Шнелл
источник