Сегодня я преподавал начальный класс статистики, и один студент подошел ко мне с вопросом, который я перефразирую здесь: «Почему стандартное отклонение определяется как квадратичная дисперсия, а не как квадрат суммы квадратов над N?»
Мы определяем дисперсию населения:
И стандартное отклонение: .
Интерпретация, которую мы можем дать состоит в том, что она дает среднее отклонение единиц в популяции от среднего значения по .
Однако, в определении sd мы делим квадрат суммы суммы квадратов на . Вопрос, который поднимает студент, заключается в том, почему мы не делимвместо этогоплощадь суммы квадратов наТаким образом, мы приходим к конкурирующей формуле:
Я думал, что этот вопрос не глупый. Я хотел бы дать ответ студенту, который идет дальше, чем сказать, что SD определяется как sqrt дисперсии, которая является среднеквадратичным отклонением. Иными словами, почему студент должен использовать правильную формулу и не следовать ее идее?
Этот вопрос относится к более старой теме и ответам, представленным здесь . Ответы там идут в трех направлениях:
- - среднеквадратическое отклонение (RMS), а не «типичное» отклонение от среднего значения (т. е. ). Таким образом, это определяется по-разному.
- Обладает хорошими математическими свойствами.
- Кроме того, sqrt вернет «единицы» в их первоначальный масштаб. Однако это также относится и к , который вместо этого делится на N.
Оба пункта 1 и 2 являются аргументами в пользу sd как RMS, но я не вижу аргумента против использования . Какие были бы хорошие аргументы, чтобы убедить учащихся начального уровня в использовании среднего RMS-расстояния σ от среднего?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Может ли быть так, что то, что находится внутри скобок, как-то потеряно в вопросе?Ответы:
Есть как минимум три основные проблемы, которые могут быть легко объяснены новичкам:
«Новый» SD даже не определен для бесконечных популяций. (В таких случаях можно было бы объявить его всегда равным нулю, но это не сделало бы его более полезным.)
Новый SD не ведет себя так, как среднее должно быть при случайной выборке.
Хотя новый SD может использоваться со всей математической строгостью для оценки отклонений от среднего (в выборках и конечных популяциях), его интерпретация излишне сложна.
1. Применимость нового SD ограничена
Точка (1) может быть доведена до сведения даже тех, кто не разбирается в интеграции, указав, что, поскольку дисперсия явно является средним арифметическим (квадратом отклонений), она имеет полезное расширение для моделей «бесконечных» популяций, для которых Интуиция о существовании среднего арифметического сохраняется. Поэтому его квадратный корень - обычный SD - также отлично определен в таких случаях и столь же полезен в своей роли, как (нелинейное повторное выражение) дисперсия. Тем не менее, новый SD делит это среднее на произвольно большое , что делает проблематичным его обобщение за пределы конечных популяций и конечных выборок: что следует1/ √N−−√ быть равным в таких случаях?1/N−−√
2. Новый SD не средний
Любая статистика, достойная названия «средняя», должна обладать свойством, которое сходится к значению совокупности по мере увеличения размера случайной выборки из совокупности. Любое фиксированное значение, кратное SD, будет обладать этим свойством, потому что множитель будет применяться как для вычисления выборочного SD, так и SD для совокупности. (Хотя это наблюдение не противоречит непосредственно аргументу Алекоса Пападопулоса, это говорит о том, что аргумент имеет отношение только к реальным вопросам.) Однако «новый» SD, равный раз, чем обычно, очевидно, сходится к0при любых обстоятельствах, поскольку размер выборкиNстановится большим. Следовательно,хотя для любого фиксированного размера выборкиNновая SD (надлежащим образом интерпретированная) является совершенно адекватной мерой отклонения от среднего значения,ее нельзя с полным основанием считатьуниверсальноймерой, применимой с одинаковой интерпретацией для всех размеров выборки, и при этом она не может правильно называть «средним» в любом полезном смысле.1/N−−√ 0 N N
3. Новый SD сложно интерпретировать и использовать
Попробуйте взять образцы (скажем) размера . Новый SD в этих случаях 1 / √N=4 раз больше обычного SD. Поэтому он имеет сопоставимые интерпретации, такие как аналог правила 68-95-99 (около 68% данных должны находиться вдвухновых SD среднего значения, 95% из них вчетырехновых SD среднего ит.Д .; и версии классических неравенств, таких как Чебычева, будут иметь место (не более1/k2данных может лежать более чем на2kновых SD от их среднего значения), и теорема о центральном пределе может быть аналогичным образом переформулирована в терминах нового SD (делится на √1/N−−√=1/2 1/k2 2k N−−√ times the new SD in order to standardize the variable). Thus, in this specific and clearly constrained sense, there is nothing wrong with the student's proposal. The difficulty, though, is that these statements all contain--quite explicitly--factors of N−−√=2 . Although there is no inherent mathematical problem with this, it certainly complicates the statements and interpretation of the most fundamental laws of statistics.
It is of note that Gauss and others originally parameterized the Gaussian distribution by2–√σ , effectively using 2–√
источник
Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)
So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.
The sample variance is defined as
To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call itq
i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,
Since we want to "stay as close as possible" to the intuitive measure, we should useSD .
ADDENDUMn We have
Let's consider now a sample of size
and
we can write the right-hand side of the variance expression as
Then the dispersion measureqn will be
Now think informally: note that∑j≠i|xi−x¯||xj−x¯| contains n2−n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2 : this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be
Continuing are informal thinking, the first term gives usn "terms in the 2nd power", while the second term gives us n−1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.n , as well as for the case when n→∞ .
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any
источник