Интуиция за стандартным отклонением

26

Я пытаюсь лучше понять стандартное отклонение.

Из того, что я понимаю, оно представляет собой среднее значение отличий набора наблюдений в наборе данных от среднего значения этого набора данных. Однако на самом деле он НЕ равен средним значениям различий, так как он придает больший вес наблюдениям дальше от среднего значения.

Скажем, у меня есть следующая совокупность значений - $\{1, 3, 5, 7, 9\}$

Среднее значение . $5$

Если я беру меру разброса на основе абсолютного значения, я получаю

\frac{\sum_{i = 1}^{5} | x_{i} - μ |}{5} = 2.4

$\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4$

Если я беру меру распространения на основе стандартного отклонения, я получаю

\sqrt{\frac{\sum_{i = 1}^{5} (x_{i} - μ)^{2}}{5}} = 2.83

$\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83$

Результат с использованием стандартного отклонения больше, как и ожидалось, из-за дополнительного веса, который он придает значениям дальше от среднего.

Но если бы мне только что сказали, что я имею дело с населением со средним значением и стандартным отклонением как бы я мог сделать вывод, что население состоит из таких значений, как ? Просто кажется, что цифра очень произвольна ... Я не понимаю, как вы должны ее интерпретировать. Означает ли что значения разбросаны очень широко, или они все тесно сгруппированы вокруг среднего ... $5$ $2.83$ $\{1, 3, 5, 7, 9\}$ $2.83$ $2.83$

Когда вам представляется заявление о том, что вы имеете дело с населением со средним значением и стандартным отклонением что это говорит вам о населении? $5$ $2.83$

standard-deviation intuition ударная волна
источник

2

Этот вопрос связан (хотя и не идентичен) со статьей stats.stackexchange.com/q/81986/3277 и другим, связанным с ним.

ttnphns

1

Он говорит вам «типичное» расстояние от среднего значения (среднеквадратичное расстояние). Что делает это «большим» или «маленьким», зависит от ваших критериев. Если вы пытаетесь измерить технические допуски, это может быть огромным. В других контекстах одно и то же стандартное отклонение может рассматриваться как довольно небольшое.

Glen_b

13

Моя интуиция заключается в том, что стандартное отклонение - это мера распространения данных.

У вас есть хорошая точка зрения, что то, является ли оно широким или жестким, зависит от того, каковы наши базовые предположения о распределении данных.

Предостережение: мера распространения наиболее полезна, когда распределение ваших данных симметрично относительно среднего значения и имеет дисперсию, относительно близкую к распределению нормального распределения. (Это означает, что это приблизительно нормально.)

В случае, когда данные являются приблизительно нормальными, стандартное отклонение имеет каноническую интерпретацию:

Регион: выборочное среднее +/- 1 стандартное отклонение, содержит примерно 68% данных
Регион: выборочное среднее +/- 2 стандартное отклонение, содержит примерно 95% данных
Регион: выборочное среднее +/- 3 стандартного отклонения, содержит примерно 99% данных

(см. первый рисунок в вики )

Это означает, что если мы знаем, что среднее значение по населению равно 5, а стандартное отклонение равно 2,83, и мы предполагаем, что распределение примерно нормальное, я бы сказал, что я достаточно уверен, что если мы сделаем (большое) много наблюдений, только 5% быть меньше чем 0,4 = 5 - 2 * 2,3 или больше чем 9,6 = 5 + 2 * 2,3.

Обратите внимание, каково влияние стандартного отклонения на наш доверительный интервал? (чем больше разброс, тем больше неопределенности)

Кроме того, в общем случае, когда данные даже приблизительно не нормальны, но все еще симметричны, вы знаете, что существует некоторая для которой: $\alpha$

Регион: выборочное среднее +/- стандартное отклонение , содержит примерно 95% данных $\alpha$

Вы можете либо изучить из подвыборки, либо предположить, что и это часто дает вам хорошее практическое правило для расчета в своей голове, какие будущие наблюдения ожидать, или какие из новых наблюдений можно рассматривать как останцы. (помните об этом!) $\alpha$ $\alpha=2$

Я не понимаю, как вы должны это интерпретировать. Означает ли 2.83, что значения разбросаны очень широко, или они все тесно сгруппированы вокруг среднего ...

Я предполагаю, что каждый вопрос, задаваемый «широкий или жесткий», должен также содержать: «по отношению к чему?». Одним из предложений может быть использование известного дистрибутива в качестве ссылки. В зависимости от контекста может быть полезно подумать: «Это намного шире или плотнее, чем нормаль / пуассон?».

РЕДАКТИРОВАТЬ: На основе полезной подсказки в комментариях, еще один аспект о стандартном отклонении в качестве меры расстояния.

Еще одна интуиция полезности стандартного отклонения заключается в том, что это мера расстояния между выборочными данными и их средним значением : $s_N$ $x_1,… , x_N$ $\bar{x}$

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}$

Для сравнения, среднеквадратическая ошибка (MSE), одна из самых популярных мер ошибки в статистике, определяется как:

$\operatorname{MSE}=\frac{1}{n}\sum_{i=1}^n(\hat{Y_i} - Y_i)^2$

Могут возникнуть вопросы, почему вышеупомянутая функция расстояния? Почему квадратные расстояния, а не абсолютные расстояния, например? И почему мы берем квадратный корень?

Преимущество наличия квадратичного расстояния или ошибки состоит в том, что мы можем как дифференцировать, так и легко минимизировать их. Что касается квадратного корня, он добавляет к интерпретируемости, поскольку преобразует ошибку обратно в масштаб наших наблюдаемых данных.

средства к смыслу
источник

Почему вы говорите, что мера распространения наиболее «полезна», когда данные нормальные? Мне кажется, что любой набор данных имеет разброс, а стандартное отклонение представляет собой сводку разброса, даже если он не отражает форму разброса.

Майкл Лью,

Конечно, вы правы. Но я не утверждал, что стандартное отклонение каким-либо образом зависит от формы распределения. Просто указав, что если у вас есть некоторые знания о форме (или вы готовы сделать это предположение), это, как правило, гораздо более полезная информация. Аналогично, примерное среднее является хорошим дескриптором ваших данных, ЕСЛИ вы можете сделать некоторые общие предположения о распределении.

значит к значению

Моя любимая причина использования квадрата вместо абсолютного значения - это логарифм вероятности некоторого гауссиана. Поэтому, если вы считаете, что ошибки имеют гауссовский характер и что биты являются хорошим способом измерения информации, то имеет смысл использовать квадрат ошибки.

Qbolec

5

Это может помочь понять, что среднее аналогично центру масс . Дисперсия - это момент инерции . Стандартное отклонение - это радиус вращения .

Для исторической перспективы взгляните на:

Джордж Эйри (1875) Об алгебраической и численной теории ошибок наблюдений и комбинации наблюдений

Карл Пирсон (1894) Вклад в математическую теорию эволюции.

Этот график из Эйри 1875 показывает различные меры отклонения, которые легко взаимопревращаются (стр. 17). Стандартное отклонение называется «ошибка среднего квадрата». Это также обсуждается на страницах 20-21, и он обосновывает его использование на странице 48, показывая, что его легче всего вычислять вручную, поскольку нет необходимости отдельно рассчитывать отрицательные и положительные ошибки. Термин стандартное отклонение был введен Пирсоном в статье, приведенной выше на странице 75.

введите описание изображения здесь

В качестве отступления: обратите внимание, что полезность стандартного отклонения зависит от применимости «закона ошибок», также известного как «нормальная кривая», который возникает из «очень многих независимых причин ошибок» (Эйри 1875 pg 7). Нет никаких оснований ожидать, что отклонения от группового среднего значения каждого индивидуума должны следовать этому закону. Во многих случаях для биологических систем логарифмическое нормальное распределение является лучшим предположением, чем нормальное. Видеть:

Лимперт и др. (2001) Логнормальные распределения по наукам: ключи и подсказки

Кроме того, сомнительно, уместно ли рассматривать индивидуальное изменение как шум, поскольку процесс генерирования данных действует на уровне отдельного человека, а не группы.

синевато-багровый
источник

3

Действительно, стандартное отклонение придает больший вес тем, кто находится дальше от среднего значения, поскольку оно представляет собой квадратный корень из среднего квадрата расстояний. Причины использования этого (а не среднее абсолютное отклонение, которое вы предлагаете, или медианное абсолютное отклонение, которое используется в надежной статистике) отчасти связаны с тем, что в исчислении легче проводить время с полиномами, чем с абсолютными значениями. Однако часто мы хотим подчеркнуть крайние ценности.

Что касается вашего вопроса об интуитивном значении - оно развивается со временем. Вы правы, что более одного набора чисел может иметь одинаковое среднее значение и sd; это потому, что среднее значение и sd - это всего лишь две части информации, а набор данных может составлять 5 частей (как 1,3,5,7,9) или намного больше.

Значение «5» и «sd» 2,83 - «широкое» или «узкое» зависит от области, в которой вы работаете.

Когда у вас всего 5 номеров, полный список легко посмотреть; когда у вас много чисел, более интуитивно понятные способы представления о распространении включают такие вещи, как сводка из пяти чисел или, что еще лучше, графики, такие как график плотности.

Питер Флом - Восстановить Монику
источник

2

Стандартное отклонение измеряет расстояние вашего населения от среднего значения в качестве случайных величин.

Предположим, что ваши 5 чисел одинаково вероятны, поэтому вероятность каждого из них равна .20. Это представлено случайной величиной заданной $X: [0,1] \rightarrow \mathbb{R}$

X (t) = {\begin{cases} 1 & 0 \leq t < \frac{1}{5} \\ 3 & \frac{1}{5} \leq t < \frac{2}{5} \\ 5 & \frac{2}{5} \leq t < \frac{3}{5} \\ 7 & \frac{3}{5} \leq t < \frac{4}{5} \\ 9 & \frac{4}{5} \leq t \leq 1 \end{cases}

$X(t) = \begin{cases} 1 & 0 \leq t < \frac{1}{5} \\ 3 & \frac{1}{5} \leq t < \frac{2}{5}\\ 5 & \frac{2}{5} \leq t < \frac{3}{5}\\ 7 & \frac{3}{5} \leq t < \frac{4}{5}\\ 9 & \frac{4}{5} \leq t \leq 1 \end{cases}$

Причина, по которой мы переходим к функциям и измеряем теорию, заключается в том, что нам необходимо систематически обсуждать, как два вероятностных пространства одинаковы, вплоть до событий, которые имеют нулевую вероятность возникновения. Теперь, когда мы перешли к функциям, нам нужно ощущение расстояния.

Существует много значений расстояния для функций, в частности нормы для и индуцируют функции расстояния .

| | Y | |_{p} = {(\int_{0}^{1} | Y (t) |^{p} d t)}^{1 / p}

$||Y||_p = \left(\int_{0}^1|Y(t)|^pdt\right)^{1/p}$

Y : [0, 1] \to R

$Y: [0,1] \rightarrow \mathbb{R}$

1 \leq p < \infty

$1 \leq p < \infty$

d_{p} (Y, Z) = | | X - Z | |_{p}

$d_p(Y,Z) = ||X - Z||_p$

Если мы возьмем норму мы получим наивное отклонение абсолютного значения, которое вы упомянули: Если мы возьмем норму мы получим обычное стандартное отклонение $p=1$

d_{1} (X, 5) = | | X - \underline{5} | |_{1} = 2.4.

$d_1(X,5) = ||X - \underline{5} ||_1 = 2.4.$

p = 2

$p=2$

d_{2} (X, 5) = | | X - \underline{5} | |_{2} = 2.83.

$d_2(X,5) = ||X-\underline{5}||_2 = 2.83.$

Здесь обозначает постоянную функцию . $\underline{5}$ $t \mapsto 5$

Понимание значения стандартного отклонения - это действительно понимание значения функции расстояния и понимание того, почему она во многих отношениях является наилучшей мерой расстояния между функциями. $d_2$

SomeEE
источник

Это объяснение включает в себя некоторые конструкции, которые не кажутся «интуитивными». Основным из них является необоснованное появление функции, определенной в , интервал, который не имеет ничего общего с настройкой. (Естественно определить как где алгебра является степенным множеством .) Кроме того, интерпретация таких выражений, как « », несколько проблематична, поскольку « » представляет число - среднее значение совокупности, а не случайную величину. В конце концов, после того, как весь этот механизм введен, вопрос переформулирован, но фактически не дан ответ.

[0, 1]

$[0,1]$

X : {1, 3, 5, 7, 9} \to R

$X:\{1,3,5,7,9\}\to\mathbb{R}$

X (i) = i

$X(i)=i$

{1, 3, 5, 7, 9}

$\{1,3,5,7,9\}$

| | X - 5 | |_{1}

$||X-5||_1$

5

$5$

whuber

Да, случайная величина, которую вы перечислили, является стандартной для тех, кто знаком с теорией мер. Я надеялся сузить это до понимания функций и интеграции для людей с только фоном исчисления. Я перепишу среднее значение как функцию.

SomeEE

Кроме того, в связи с тем, что это повторный вопрос, вы предлагаете включить комментарии о том, почему является наилучшим показателем расстояния между функциями?

d_{2}

$d_2$

SomeEE

Вопрос требует интуиции в понимании стандартного отклонения. Вы объяснили, как это норма в некотором функциональном пространстве. Хотя это обеспечивает другую математическую формализацию (и это будет адекватной интуицией для математика, в противном случае не знающего стандартного отклонения), кажется, что он останавливается на том, чего просил оригинальный плакат. Что было бы наиболее желательно, так это следующий параграф, объясняющий «значение функции расстояния » и , хотя бы немного, смыслы, в которых она является «наилучшей» мерой расстояния.

L^{2}

$L^2$

d_{2}

$d_2$

whuber

Интуиция за стандартным отклонением

Ответы: