Почему мы берем квадратный корень дисперсии, чтобы создать стандартное отклонение?

26

Извините, если на это ответили в другом месте, я не смог найти его.

Мне интересно, почему мы берем квадратный корень , в частности, дисперсию, чтобы создать стандартное отклонение? Что такое взятие квадратного корня, которое дает полезную ценность?

Дейв
источник
Близко связаны: stats.stackexchange.com/questions/35123/…
Sycorax говорит восстановить Monica
2
Подумайте о стандартном отклонении как о евклидовой векторной норме, а затем о дисперсии как квадрате. Такое определение дисперсии и стандартного отклонения оказывается полезным для анализа.
theideasmith

Ответы:

44

В каком-то смысле это тривиальный вопрос, но в другом он на самом деле довольно глубокий!

  • Как уже упоминалось, извлекая квадратный корень означает имеет те же единицы .Stdev(X)X

  • Получение квадратного корня дает вам абсолютную однородность или абсолютную масштабируемость . Для любой скалярной и случайной величины мы имеем: \ operatorname {Stdev} [\ alpha X] = | \ alpha | \ OperatorName {Stdev} [X] Абсолютная однородность является обязательным свойством из нормы . Стандартное отклонение можно интерпретировать как норму (в векторном пространстве среднего нуля случайных величин) так же, как \ sqrt {x ^ 2 + y ^ 2 + z ^ 2} является стандартной евклидовой нормой в трехмерном Космос. Стандартное отклонение - это мера расстояния между случайной величиной и ее средним значением.αX

    Stdev[αX]=|α|Stdev[X]
    x2+y2+z2

Стандартное отклонение и норма L2

Конечный размерный случай:

В мерном векторном пространстве стандартная евклидова норма, известная также как норма определяется как:nL2

x2=ixi2

В более широком смысле норма берет корень й для получения абсолютного однородность: .p xp=(i|xi|p)1ppαxp=(i|αxi|p)1p=|α|(i|xi|p)1p=|α|xp

Если у вас есть веса то взвешенная сумма также является допустимой нормой. Кроме того, это стандартное отклонение, если представляют вероятности иqiixi2qiqiE[x]ixiqi=0

Случай бесконечного измерения:

В бесконечномерном гильбертовом пространстве мы также можем определить норму :L2

X2=ωX(ω)2dP(ω)

Если - случайная величина со средним нулем, а - мера вероятности, каково стандартное отклонение? Это то же самое: .XPωX(ω)2dP(ω)

Резюме:

Взятие квадратного корня означает, что стандартное отклонение удовлетворяет абсолютной однородности , что является обязательным свойством нормы .

На пространстве случайных величин, представляет собой скалярное произведение и норма, вызванная этим внутренним продуктом . Таким образом, стандартное отклонение является нормой унифицированной случайной величины: Это мера расстояния от среднего значения в .X,Y=E[XY]X2=E[X2]

Stdev[X]=XE[X]2
E[X]X

(Технический момент: хотя является нормой, стандартное отклонение не является нормой для случайных величин в целом, потому что требование к нормированному векторному пространству равно тогда и только тогда, когда . Стандартное отклонение 0 не делает ' t подразумевает, что случайная величина является нулевым элементом.)E[X2]E[(XE[X])2]x=0x=0

Мэтью Ганн
источник
1
Этот ответ действительно становится ядром проблемы, делая его более информативным, чем принятый в настоящее время.
00promeheus
26

Дисперсия определяется как , поэтому это ожидание квадрата разницы между X и его ожидаемым значением.XV(X)=E(XE(X))2

Если - время в секундах, - в секундах, но - в а - снова в секундах.XXE(X)V(X)seconds2V(X)

HStamper
источник
Ах, я вижу, это просто отменяет изменение масштаба, которое стало результатом возведения различий в расчет дисперсии?
Дэйв
11
Правильно - но меняются размеры , а не масштаб.
Жан-Франсуа Корбетт
Но это не значит, что там есть один термин: их много, и каждый из них в степени 2 приносит больше или меньше других терминов. Но когда мы берем квадратный корень, мы как бы игнорируем эту разницу, не так ли? Мы не получили бы начальный числитель, сумму всех различий таким образом. Не лучше ли взять квадратный корень каждого отдельного термина?
парсер
Похоже, вы думаете об оценке , основанной на выборке. В этом случае, если вы это сделаете, различия будут обнулены: . V^i=1n(xix¯)=i=1nxii=1nxi=0
HStamper
@EricMittman За исключением того, что , а не , и в этом случае вы получите среднюю абсолютную ошибку . a2=|a|a
Дугал
6

Простой ответ заключается в том, что единицы измерения находятся в том же масштабе, что и среднее значение. Пример: я оцениваю среднее значение для ученика средней школы, равное 160 см со стандартным отклонением (SD) 20 см. Это интуитивно легче получить чувство изменения с СД , чем дисперсия 400см ^ 2.

оптимист
источник
0

В более простых терминах стандартное отклонение предназначено для того, чтобы дать нам положительное число, которое говорит о распространении наших данных о его значении.

Если бы мы просто суммировали расстояния всех точек от среднего значения, то точки в положительном и отрицательном направлениях объединялись бы так, чтобы иметь тенденцию тяготеть назад к среднему значению, и мы потеряли бы информацию о разбросе. Вот почему мы сначала измеряем дисперсию, так что все расстояния сохраняются в виде положительных величин посредством возведения в квадрат, и они не компенсируют друг друга. В конце мы хотим получить положительное значение, которое представляет единицы, с которых мы начали - это уже было прокомментировано выше - поэтому мы берем положительный квадратный корень.

DC_Beardly
источник
-3

Это историческая глупость, которую мы продолжаем из-за интеллектуальной лени. Они решили вычесть разницу из среднего значения, чтобы избавиться от знака минус. Затем они взяли квадратный корень, чтобы привести его к шкале, подобной средней.

Кто-то должен генерировать новую статистику, вычисляя дисперсию и SD, используя модуль или абсолютные значения отклонения от среднего. Это избавило бы от всего этого возведения в квадрат и затем взяло бы бизнес квадратного корня.

Асир Аджмал
источник
1
Мы уже имеем это в виде среднего (или среднего) абсолютного отклонения, норм L1 и тому подобного. Тем не менее, главное преимущество традиционного подхода заключается в том, что, в отличии от абсолютных значений, это дифференцируемое, что позволяет аналитический сворачивать и разворачивать вещи.
Мэтт Краузе
1
Вы не можете предоставить обоснование своей позиции, пожалуйста, предоставьте четко изложенный математический аргумент. Сумма абсолютных значений сильно отличается от квадратного корня из суммы квадратов. Последнее подчеркивает вклад экстремальных значений, что является полезным свойством. Кроме того, SSQ является центральным для аналитических методов наименьших квадратов. Пожалуйста, уделите время, чтобы подробнее остановиться на проблемах SD и сравнении альтернатив, чтобы читатели могли понять вашу точку зрения. ,
ReneBt
(-1) Слишком легко читать фразы типа «историческая глупость» и «интеллектуальная лень» как относящиеся к себе.
uber