Что такое стандартное отклонение?

31

Что такое стандартное отклонение, как оно рассчитывается и как его использовать в статистике?

Орен Хизкия
источник
7
Я не думаю, что цель этого сайта - ответить на вопросы шестиклассников. И мой ребенок, столкнувшись с таким вопросом, будет искать ответ в Google. Если есть определенная часть определения, которую вы не понимаете, спросите об этом. Но такой не сфокусированный вопрос на такую ​​основную тему указывает (во всяком случае, мне), что автор даже не пытался найти ответ. Что будет дальше "Что такое число и как они используются?"
PeterR
9
Я думаю, что этот вопрос в порядке. На самом деле, это был самый популярный пример по тематическому вопросу в Зоне 51. С основами все в порядке!
Питер Смит
6
Согласен, это правильный вопрос. Это также хорошо заявлено, поскольку оно требует, например, использования и расчета. Наверняка целью сайта является создание репозитория для ВСЕХ вопросов статистики.
Джоэл
5
Я согласен с Джоэлом. Стандартное отклонение является важной концепцией в статистике. Не было бы абсурдом, если бы вы не могли задать вопрос об этом на сайте о том, чтобы задавать статистические вопросы.
Парбери
4
Как учитель старших классов в прошлой жизни, я скажу, что нет глупых вопросов. В тот момент, когда вы помечаете вопрос как недостойный, в этот момент вы отбираете самый мощный способ обучения - задавать вопросы! (Я собираюсь ответить на этот вопрос ниже.)
Adhesh Josh

Ответы:

30

Стандартное отклонение - это число, которое представляет «разброс» или «разброс» набора данных. Существуют и другие меры для распространения, такие как диапазон и дисперсия.

Вот несколько примеров наборов данных и их стандартные отклонения:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

Приведенные выше наборы данных имеют одинаковое среднее значение.

Отклонение означает «расстояние от среднего».

«Стандарт» здесь означает «стандартизированный», что означает стандартное отклонение и среднее значение в тех же единицах, в отличие от дисперсии.

Например, если средняя высота составляет 2 метра , стандартное отклонение может составлять 0,3 метра , тогда как отклонение составит 0,09 метра в квадрате .

Удобно знать, что, по крайней мере, 75% точек данных всегда лежат в пределах 2 стандартных отклонений от среднего значения (или около 95%, если распределение нормальное).

Например, если среднее значение равно 100, а стандартное отклонение равно 15, то по меньшей мере 75% значений находятся в диапазоне от 70 до 130.

Если распределение оказывается нормальным, то 95% значений находятся между 70 и 130.

Вообще говоря, баллы IQ-теста обычно распределяются и в среднем равны 100. У кого-то, кто «очень яркий», на два стандартных отклонения выше среднего значения, то есть балл по IQ-тесту 130.

Нил Макгиган
источник
Нил, спасибо за ваш ответ, не могли бы вы более подробно объяснить часть «стандарт» в термине «стандартное отклонение». Если это уместно, не могли бы вы коснуться того же «стандартного» термина «стандартная ошибка среднего». Заранее спасибо.
Стан
Относительно ваших недавних изменений: в каком смысле SD «стандартизирован»? Обычно он становится основой для стандартизации, но сам по себе не стандартизирован (например, перемасштабирует его путем некоторой оценки изменения выборки).
whuber
Это стандартизировано, чтобы быть в той же единице, что и среднее значение
Нил Макгиган
Пример со средней высотой 2 метра является хорошим примером необходимости заботиться об использовании десятичных дробей. Тот же пример может быть сделан в сантиметрах, где стандартное отклонение в 30 сантиметров будет логически получено из дисперсии в 900 сантиметров.
Роберт Джонс
У меня сложилось впечатление, что их следует избегать в основных единицах измерения. Рассмотрим результаты, скажем, SD 0,133 в метрах, преобразованные в дециметры, сантиметры и миллиметры. Кто-нибудь захочет объяснить, пожалуйста?
Роберт Джонс
9

Цитата из Википедии .

Он показывает, насколько сильно отличается от «среднего» (среднего или ожидаемого / заложенного в бюджет значения). Низкое стандартное отклонение указывает, что точки данных имеют тенденцию быть очень близкими к среднему значению, в то время как высокое стандартное отклонение указывает, что данные разбросаны по большому диапазону значений.

c4il
источник
5

При описании переменной мы обычно суммируем ее, используя две меры: меру центра и меру разброса. Общие меры центра включают среднее значение, медиану и моду. Распространенная мера распространения включает дисперсию и межквартильный диапазон.

Дисперсия (представленная греческой строчной сигмой, возведенной в степень два) обычно используется, когда сообщается среднее значение. Дисперсия - это среднеквадратичное отклонение переменной. Отклонение рассчитывается путем вычитания среднего значения из каждого наблюдения. Это квадрат, потому что в противном случае сумма была бы равна нулю, а квадрат устраняет эту проблему, сохраняя относительный размер отклонений. Проблема использования вариации в качестве меры разброса заключается в том, что она выражена в квадратах. Например, если нашей переменной интереса была высота, измеренная в дюймах, тогда дисперсия будет сообщаться в квадратах, что не имеет большого смысла. Стандартное отклонение (представленное греческой строчной сигмой) является квадратным корнем дисперсии и возвращает меру разброса к исходным единицам.

При использовании стандартного отклонения нужно быть осторожным с выбросами, поскольку они будут искажать стандартное отклонение (и среднее значение), поскольку они не являются устойчивыми мерами разброса. Простой пример проиллюстрирует это свойство. Среднее значение моих ужасных показателей в крикет 13, 14, 16, 23, 26, 28, 33, 39 и 61 составляет 28,11. Если мы считаем 61 выбросом и удаляем его, среднее значение будет 24.

Грэм Куксон
источник
1
σ2σ
2

Вот как я бы ответил на этот вопрос, используя диаграмму.

Допустим, мы весим 30 кошек и вычисляем средний вес. Затем мы создаем график рассеяния с весом по оси Y и идентификатором Cat по оси X. Средний вес можно изобразить в виде горизонтальной линии. Затем мы можем нарисовать вертикальные линии, которые соединяют каждую точку данных со средней линией - это отклонения каждой точки данных от средней, и мы называем их невязками. Теперь эти остатки могут быть полезны, потому что они могут рассказать нам кое-что о распространении данных: если есть много больших остатков, то кошки сильно различаются по массе. И наоборот, если остатки в основном небольшие, то кошки довольно тесно сгруппированы вокруг среднего веса. Так что, если бы мы могли иметь некоторую метрику, которая говорит нам среднеедлина остатка в этом наборе данных, это был бы удобный способ указать, насколько разброс в данных. Стандартное отклонение представляет собой длину среднего остатка.

Я хотел бы продолжить с этого, давая расчет для sd, объясняя, почему мы квадратный, а затем квадратный корень (мне нравится краткое и приятное объяснение Вайбхава). Тогда я бы упомянул проблемы выбросов, как это делает Грэм в своем последнем абзаце.

Фрейя Харрисон
источник
1

Если необходимая информация представляет собой распределение данных о среднем значении, пригодится стандартное отклонение.

Сумма разности каждого значения от среднего равна нулю (очевидно, поскольку значение равномерно распределено вокруг среднего), поэтому мы возводим в квадрат каждую разницу, чтобы преобразовать отрицательные значения в положительные, суммировать их по совокупности и взять их квадратный корень. Затем это значение делится на количество выборок (или размер популяции). Это дает стандартное отклонение.

Вайбхав Гарг
источник
«... поэтому мы возводим в квадрат каждую разницу ...» Мы могли бы взять абсолютное значение, чтобы избавиться и от отрицательных значений. Так почему же возведение в квадрат лучше, так как в конце мы должны получить квадратный корень? Почему бы просто не суммировать абсолютные значения отклонений?
Дилип Сарватэ
Видели это? ссылка
Вайбхав Гарг
45
1
@DilipSarwate, при всем моем уважении, Доказательство властью меня не впечатляет. Предположение о том, что «следовательно» является «авторитетным», является «соломенным человеком», которого я предпочел бы игнорировать. Уровень детализации в любом данном утверждении соответствует склонности и / или педагогической значимости этого в данном контексте. Я бы предположил, что человек, который спрашивает "Что такое стандартное отклонение, как оно ... и так далее?" может не захотеть быть обремененным строгими математическими определениями того же самого. Упрощение является преднамеренным и, позвольте мне заверить вас, не является результатом незнания.
Вайбхав Гарг
1
И что, молись, скажи, что ... "следовательно, мы возражаем ...", кроме доказательства авторитетным, которое тебя не впечатляет? Нет логической причины, по которой возведение в квадрат автоматически является решением проблемы, как подразумевает ваше «отсюда».
Dilip Sarwate
1

Мне нравится думать об этом следующим образом: стандартное отклонение - это среднее расстояние от среднего . Это более концептуально полезно, чем математически полезно, но это хороший способ объяснить это непосвященным.

Behacad
источник
0

Стандартное отклонение - это квадратный корень второго центрального момента распределения. Центральным моментом является ожидаемое отличие от ожидаемого значения распределения. Первый центральный момент обычно равен 0, поэтому мы определяем второй центральный момент как ожидаемое значение квадрата расстояния случайной величины от ее ожидаемого значения.

Чтобы поставить его в масштабе, который больше соответствует исходным наблюдениям, мы берем квадратный корень этого второго центрального момента и называем его стандартным отклонением.

Стандартное отклонение является свойством населения. Он измеряет, насколько средняя «дисперсия» существует для этой популяции. Все наблюдения сосредоточены вокруг среднего значения или они широко распространены?

Чтобы оценить стандартное отклонение популяции, мы часто вычисляем стандартное отклонение «выборки» от этой популяции. Для этого вы берете наблюдения из этой совокупности, вычисляете среднее значение этих наблюдений, а затем вычисляете квадратный корень из среднего квадрата отклонения от этого «среднего по выборке».

Чтобы получить объективную оценку дисперсии, вы фактически не вычисляете среднеквадратичное отклонение от среднего значения по выборке, а вместо этого делите на (N-1), где N - количество наблюдений в вашей выборке. Обратите внимание, что это «стандартное отклонение выборки» не является объективной оценкой стандартного отклонения, а квадрат «стандартного отклонения выборки» является объективной оценкой дисперсии совокупности.

Baltimark
источник
6
это невероятно неясный ответ. Пожалуйста, попробуйте написать на английском.
Нил Макгиган
1
Может быть и так. это человек, который задает этот вопрос, человек, который вошел с улицы, или человек, который хотя бы открыл книгу статистики. Говорить кому-либо о стандартном отклонении - это просто квадратный корень из дисперсии, что полностью задает вопрос.
Балтимарк,
-1

Лучший способ понять стандартное отклонение - подумать о парикмахере! (Вам нужно собрать данные из парикмахера и оценить ее скорость стрижки, чтобы этот пример работал.)

Парикмахеру требуется в среднем 30 минут, чтобы подстричь волосы.

Предположим, вы выполняете расчет (большинство программных пакетов сделают это за вас), и вы обнаружите, что стандартное отклонение составляет 5 минут. Это означает следующее:

  • парикмахер подстригает волосы 68% своих клиентов в течение 25 минут и 35 минут
  • парикмахер подстригает волосы 96% своих клиентов в течение 20 и 40 минут

Откуда я это знаю? Вам нужно взглянуть на нормальную кривую, где 68% находится в пределах 1 стандартного отклонения, а 96% - в пределах 2 стандартных отклонений от среднего значения (в данном случае 30 минут). Таким образом, вы добавляете или вычитаете стандартное отклонение от среднего значения.

Если требуется согласованность, как в этом случае, чем меньше стандартное отклонение, тем лучше. В этом случае парикмахер тратит максимум 40 минут на каждого конкретного клиента. Вам нужно быстро постричься, чтобы запустить успешный салон!

Адхеш джош
источник
Я не думаю, что вы корректируете свой ответ, Adhesh. У вас есть противоречивая информация здесь. Видишь ли ты согласен с моими правками, хорошо?
rolando2
1
Вы только что описали интерпретацию стандартного отклонения в случае нормального распределения. Правило «68%» и (и правило 95%) применяются только для нормально распределенных данных. По крайней мере, заявите, что две точки маркера верны, только если время стрижки соответствует нормальному распределению.
Макро
Макрос, я упомянул нормальную кривую, и это определенно, что если вы используете нормальную кривую, данные будут следовать нормальному распределению.
Adhesh Josh
@ rolando2 Кажется, я не понимаю, что не так с объяснением
Адеша
@Amarald - вы нажали "31 января в 1:06", чтобы увидеть версии до и после редактирования? Я думаю, что ответ сильнее после, хотя Макрос также делает важный момент.
rolando2