Разница между стандартной ошибкой и стандартным отклонением

96

Я изо всех сил пытаюсь понять разницу между стандартной ошибкой и стандартным отклонением. Чем они отличаются и почему нужно измерять стандартную ошибку?

Луис Се
источник
7
Быстрый комментарий, а не ответ, поскольку два полезных из них уже присутствуют: стандартное отклонение является свойством (распределения) случайной (ых) переменной (ей). Вместо этого стандартная ошибка связана с измерением на конкретном образце. Эти два могут запутаться, стирая различие между вселенной и вашим образцом.
Франческо
Возможно, интерес: stats.stackexchange.com/questions/15505/…
Макрос

Ответы:

31

Чтобы завершить ответ на вопрос, Ocram хорошо рассмотрел стандартную ошибку, но не сравнил ее со стандартным отклонением и не упомянул зависимость от размера выборки. В качестве частного случая для оценки рассмотрим выборку среднего. Стандартная ошибка для среднего значения - это где σσ/nσстандартное отклонение населения. Таким образом, в этом примере мы ясно видим, как стандартная ошибка уменьшается с увеличением размера выборки. Стандартное отклонение чаще всего используется для обозначения отдельных наблюдений. Таким образом, стандартное отклонение описывает изменчивость отдельных наблюдений, в то время как стандартная ошибка показывает изменчивость оценки. Хорошие оценки непротиворечивы, что означает, что они сходятся к истинному значению параметра. Когда их стандартная ошибка уменьшается до 0 при увеличении размера выборки, оценки согласуются, что в большинстве случаев происходит потому, что стандартная ошибка становится равной 0, как мы явно видим со средним значением выборки.

Майкл Черник
источник
3
Re: «... соответствует, что означает, что их стандартная ошибка уменьшается до 0» - это не так. Вы помните это обсуждение: stats.stackexchange.com/questions/31036/… ?
Макро
1
Да, конечно, я помню обсуждение необычных исключений, и я думал об этом, когда отвечал на вопрос. Но вопрос был о стандартных ошибках, и в упрощенном виде хорошие оценки параметров являются последовательными и их стандартные ошибки имеют тенденцию к 0, как в случае выборочного среднего.
Майкл Черник
4
Я согласен с вашим комментарием - стандартная ошибка выборки означает 0, а выборка соответствует. Но его стандартная ошибка, сводящаяся к нулю, не является следствием (или эквивалентностью) того факта, что она последовательна, о чем говорит ваш ответ.
Макро
3
@ Макро да, ответ можно улучшить, что я решил сделать. Я думаю, что важно не быть слишком техническим с ОП, поскольку квалификация может быть сложной и запутанной. Но техническая точность не должна приноситься в жертву ради простоты. Так что я думаю, что способ, которым я учел это в моей редакции, - лучший способ сделать это.
Майкл Черник
9
Я согласен с тем, что важно не заниматься техническим делом, если это не является абсолютно необходимым. Мой единственный комментарий состоял в том, что, как только вы уже решили ввести концепцию согласованности (техническую концепцию), нет смысла неправильно ее характеризовать, чтобы облегчить понимание ответа. Я думаю, что ваша редакция адресована моим комментариям.
Макро
51

Вот более практичный (а не математический) ответ:

  • SD (стандартное отклонение) количественно определяет разброс - насколько значения отличаются друг от друга.
  • SEM (стандартная ошибка среднего) дает количественную оценку того, насколько точно вы знаете истинное среднее значение популяции. Он учитывает как значение SD, так и размер выборки.
  • И SD, и SEM находятся в одних и тех же единицах - единицах данных.
  • SEM по определению всегда меньше SD.
  • SEM становится меньше по мере увеличения ваших образцов. Это имеет смысл, поскольку среднее значение большой выборки, вероятно, будет ближе к истинному среднему значению популяции, чем среднее значение небольшой выборки. С огромной выборкой вы будете знать значение среднего значения с большой точностью, даже если данные очень разбросаны.
  • SD не изменяется предсказуемо, поскольку вы получаете больше данных. SD, который вы вычисляете по выборке, является наилучшей из возможных оценок SD всей популяции. По мере того, как вы будете собирать больше данных, вы будете более точно оценивать SD населения. Но вы не можете предсказать, будет ли SD из большей выборки больше или меньше, чем SD из небольшой выборки. (Это упрощение, не совсем верно. См. Комментарии ниже.)

Обратите внимание, что стандартные ошибки могут быть вычислены практически для любого параметра, который вы вычисляете по данным, а не только по среднему значению. Фраза «стандартная ошибка» немного двусмысленна. Приведенные выше пункты относятся только к стандартной ошибке среднего.

(Из Руководства по статистике GraphPad, которое я написал.)

Харви Мотульский
источник
11
n100n.18n=2
4
@whuber: Конечно, ты прав. Это дисперсия (SD в квадрате), которая не изменится предсказуемо, когда вы добавите больше данных. SD будет немного больше по мере увеличения размера выборки, особенно когда вы начинаете с крошечных выборок. Это изменение незначительно по сравнению с изменением SEM при изменении размера выборки.
Харви Мотульский
@HarveyMotulsky: Почему SD увеличивается?
Андрей
При больших выборках дисперсия выборки будет довольно близка к дисперсии совокупности, поэтому SD выборки будет близка к SD популяций. При меньших выборках дисперсия выборки в среднем будет равна дисперсии популяции, но расхождения будут больше. Если симметричны как отклонения, они будут асимметричны как SD. Пример: Популяционная дисперсия равна 100. Две выборочные дисперсии равны 80 или 120 (симметрично). Образец SD должен быть 10, но будет 8,94 или 10,95. Средняя выборка SD из симметричного распределения вокруг дисперсии населения, а средняя SD будет низкой, с низким N.
Harvey Motulsky
43

θx={x1,,xn}θθ^(x)θ^(x)xx~θ^(x~)θ^(x)θ^θ^(x)θ^

ocram
источник
1
Является ли стандартная ошибка оценки равной стандартному отклонению оценочной переменной?
Юрий
6

(обратите внимание, что я сосредотачиваюсь на стандартной ошибке среднего значения, что, как я полагаю, задавал вопрос также, но вы можете генерировать стандартную ошибку для любой выборочной статистики)

Стандартная ошибка связана со стандартным отклонением, но это не одно и то же, и увеличение размера выборки не сближает их. Скорее, это делает их дальше друг от друга. Стандартное отклонение выборки становится ближе к стандартному отклонению популяции по мере увеличения размера выборки, но не стандартной ошибки.

Иногда терминология вокруг этого немного сложна.

Когда вы собираете выборку и вычисляете стандартное отклонение этой выборки, по мере увеличения размера выборки оценка стандартного отклонения становится все более и более точной. Судя по твоему вопросу, именно об этом ты и думал. Но также учтите, что среднее значение выборки, как правило, ближе к среднему значению для населения. Это важно для понимания стандартной ошибки.

Стандартная ошибка заключается в том, что произойдет, если вы получите несколько образцов заданного размера. Если вы берете выборку из 10, вы можете получить некоторую оценку среднего значения. Затем вы берете другую выборку из 10 и новую среднюю оценку, и так далее. Стандартное отклонение средних значений этих образцов является стандартной ошибкой. Учитывая, что вы задали свой вопрос, вы, вероятно, теперь можете видеть, что, если N велико, тогда стандартная ошибка меньше, поскольку средние значения выборок с меньшей вероятностью будут сильно отклоняться от истинного значения.

Для некоторых это звучит как-то чудесно, учитывая, что вы рассчитали это по одной выборке. Итак, что вы можете сделать - это загрузить стандартную ошибку с помощью симуляции, чтобы продемонстрировать взаимосвязь. В R это будет выглядеть так:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

Вы обнаружите, что эти две последние команды генерируют одно и то же число (приблизительно). Вы можете изменять значения n, m и s, и они всегда будут довольно близко друг к другу.

Джон
источник
Я нашел это действительно полезным, спасибо за публикацию. Было бы справедливо описать стандартную ошибку как «стандартное отклонение распределения выборки»? Распределение выборки у в вашем кодовом блоке выше? Это то, что смутило меня, связав параметры выборки sd и mean с параметрами распределения выборки.
Даг Фир
1
Если вы измените свою формулировку, чтобы указать примерные средства для этого случая, да.
Джон