Почему стандартное отклонение определяется как sqrt дисперсии, а не как sqrt суммы квадратов по N?

16

Сегодня я преподавал начальный класс статистики, и один студент подошел ко мне с вопросом, который я перефразирую здесь: «Почему стандартное отклонение определяется как квадратичная дисперсия, а не как квадрат суммы квадратов над N?»

Мы определяем дисперсию населения: σ2=1N(xiμ)2

И стандартное отклонение: σ=σ2=1N(xiμ)2 .

Интерпретация, которую мы можем дать σ состоит в том, что она дает среднее отклонение единиц в популяции от среднего значения по X .

Однако, в определении sd мы делим квадрат суммы суммы квадратов на N . Вопрос, который поднимает студент, заключается в том, почему мы не делимвместо этогоплощадь суммы квадратов наNТаким образом, мы приходим к конкурирующей формуле:

σnew=1N(xiμ)2.
Студент утверждал, что эта формула больше похожа на «среднее» отклонение от среднего, чем при делении наN как вσ.

Я думал, что этот вопрос не глупый. Я хотел бы дать ответ студенту, который идет дальше, чем сказать, что SD определяется как sqrt дисперсии, которая является среднеквадратичным отклонением. Иными словами, почему студент должен использовать правильную формулу и не следовать ее идее?

Этот вопрос относится к более старой теме и ответам, представленным здесь . Ответы там идут в трех направлениях:

  1. σ - среднеквадратическое отклонение (RMS), а не «типичное» отклонение от среднего значения (т. е.σnew ). Таким образом, это определяется по-разному.
  2. Обладает хорошими математическими свойствами.
  3. Кроме того, sqrt вернет «единицы» в их первоначальный масштаб. Однако это также относится и к , который вместо этого делится на N.σnewN

Оба пункта 1 и 2 являются аргументами в пользу sd как RMS, но я не вижу аргумента против использования . Какие были бы хорошие аргументы, чтобы убедить учащихся начального уровня в использовании среднего RMS-расстояния σ от среднего?σnewσ

Томка
источник
2
Я думаю, что сам вопрос «Почему стандартное отклонение определяется как ...» трудно ответить. Определения - это просто условные обозначения. Они не должны соответствовать почему .
ttnphns
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Может ли быть так, что то, что находится внутри скобок, как-то потеряно в вопросе?
ttnphns
1
Но SD служит ряду целей; должна быть лучшая мотивация, чем это определено так. Это было бы полезно, особенно при обучении студентов. Я могу представить себе мотивацию в смысле чебышевского неравенства (мин. Доли дел в сфере +/- постоянный фактор sd).
Томка
2
Не могу ответить, потому что ваш Q на удержании, но попробуйте это: представьте, что вы наблюдаете значения 1 и 3 в примерно равных пропорциях (подбрасывание монеты, , T = 1 ). «Типичное расстояние» наблюдений от среднего значения должно быть примерно таким: 1. С вашим H=3T=1формула, рассмотрим, что происходит с этой мерой типичного расстояния дляnочень, очень большой. В каждом случае| xi- ˉ x | будет около 1, поэтому их сумма квадратов будет околоn. Числитель будет близок кSSE/nn|xix¯|n так что ваша формула будет становиться все меньше и меньше приувеличенииn, хотя типичное расстояние от среднего значения не меняется. nn
Glen_b
1
@whuber Я сделал еще одно обновление и надеюсь, что смысл, который я изложил, стал яснее. Заметьте, я прошу совета по обучению здесь, помимо вопроса о сборе статистических данных. Я не предлагаю альтернативную формулу, но привел пример из школьной ситуации хорошего вопроса от ученика, на который у меня не было немедленного ответа. Если вы согласны, прошу освободить вопрос из режима ожидания.
Томка

Ответы:

12

Есть как минимум три основные проблемы, которые могут быть легко объяснены новичкам:

  1. «Новый» SD даже не определен для бесконечных популяций. (В таких случаях можно было бы объявить его всегда равным нулю, но это не сделало бы его более полезным.)

  2. Новый SD не ведет себя так, как среднее должно быть при случайной выборке.

  3. Хотя новый SD может использоваться со всей математической строгостью для оценки отклонений от среднего (в выборках и конечных популяциях), его интерпретация излишне сложна.

1. Применимость нового SD ограничена

Точка (1) может быть доведена до сведения даже тех, кто не разбирается в интеграции, указав, что, поскольку дисперсия явно является средним арифметическим (квадратом отклонений), она имеет полезное расширение для моделей «бесконечных» популяций, для которых Интуиция о существовании среднего арифметического сохраняется. Поэтому его квадратный корень - обычный SD - также отлично определен в таких случаях и столь же полезен в своей роли, как (нелинейное повторное выражение) дисперсия. Тем не менее, новый SD делит это среднее на произвольно большое , что делает проблематичным его обобщение за пределы конечных популяций и конечных выборок: что следует1/N быть равным в таких случаях?1/N

2. Новый SD не средний

Любая статистика, достойная названия «средняя», должна обладать свойством, которое сходится к значению совокупности по мере увеличения размера случайной выборки из совокупности. Любое фиксированное значение, кратное SD, будет обладать этим свойством, потому что множитель будет применяться как для вычисления выборочного SD, так и SD для совокупности. (Хотя это наблюдение не противоречит непосредственно аргументу Алекоса Пападопулоса, это говорит о том, что аргумент имеет отношение только к реальным вопросам.) Однако «новый» SD, равный раз, чем обычно, очевидно, сходится к0при любых обстоятельствах, поскольку размер выборкиNстановится большим. Следовательно,хотя для любого фиксированного размера выборкиNновая SD (надлежащим образом интерпретированная) является совершенно адекватной мерой отклонения от среднего значения,ее нельзя с полным основанием считатьуниверсальноймерой, применимой с одинаковой интерпретацией для всех размеров выборки, и при этом она не может правильно называть «средним» в любом полезном смысле.1/N0NN

3. Новый SD сложно интерпретировать и использовать

Попробуйте взять образцы (скажем) размера . Новый SD в этих случаях 1 / N=4раз больше обычного SD. Поэтому он имеет сопоставимые интерпретации, такие как аналог правила 68-95-99 (около 68% данных должны находиться вдвухновых SD среднего значения, 95% из них вчетырехновых SD среднего ит.Д .; и версии классических неравенств, таких как Чебычева, будут иметь место (не более1/k2данных может лежать более чем на2kновых SD от их среднего значения), и теорема о центральном пределе может быть аналогичным образом переформулирована в терминах нового SD (делится на1/N=1/21/k22kN times the new SD in order to standardize the variable). Thus, in this specific and clearly constrained sense, there is nothing wrong with the student's proposal. The difficulty, though, is that these statements all contain--quite explicitly--factors of N=2. Although there is no inherent mathematical problem with this, it certainly complicates the statements and interpretation of the most fundamental laws of statistics.


It is of note that Gauss and others originally parameterized the Gaussian distribution by 2σ, effectively using 2

Whuber
источник
1N0N1N obviously does?
tomka
2
We're comparing the SD of the sample to 1/N times the SD of the sample (the "new SD"). As N grows large, the SD of the sample approaches a (usually) nonzero constant equal to the population SD. Therefore 1/N times the sample SD converges to zero.
whuber
This is standard material--consult any rigorous textbook in mathematical statistics (which, to be fair, would not be accessible to most beginners). However, the results important for my answer follow from a weaker and intuitively obvious statement. Fix a number A>1 and let σ be the population SD. Consider the chance that the sample SD will lie between σ/A and Aσ. It suffices that this chance goes to zero as the sample size N increases. This alone shows that 1/N times the sample SD converges to 0 almost surely, demonstrating point (2) in the answer.
whuber
+1, plus it is not scale-invariant etc, (a condition necessary for a moment of this form)
Nikos M.
@Nikos Thank you, but what is not scale invariant? Both SD/N and SD change when the data are rescaled.
whuber
5

Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.

The sample variance is defined as

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.

Alecos Papadopoulos
источник
1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber
2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos