Почему меняется дисперсия выборки, если наблюдения дублируются?

25

Считается, что дисперсия является мерой распространения. Итак, я думал, что дисперсия 3,5равна дисперсии, 3,3,5,5так как числа распределены одинаково. Но это не так, дисперсия 3,5есть, 2а дисперсия 3,3,5,5есть 1 1/3.

Это озадачивает меня, учитывая объяснение, что дисперсия должна быть мерой распространения.

Итак, что в этом контексте означает мера распространения ?

Рене Ниффенеггер
источник

Ответы:

32

Если вы определяете дисперсию как - аналогично дисперсии населения но при значении сэмплирования для оба сэмпла будут иметь одинаковую дисперсию.sN2знак равноMSEзнак равно1NΣязнак равно1N(Икся-Икс¯)2μ

Таким образом, разница заключается исключительно в исправлении Бесселя в обычной формуле для выборочной дисперсии ( , который учитывает тот факт, что среднее значение выборки ближе к данным, чем среднее значение для популяции, чтобы сделать его беспристрастным (принимая правильное значение «в среднем»).sN-12знак равноNN-1MSEзнак равноNN-11NΣязнак равно1N(Икся-Икс¯)2знак равно1N-1Σязнак равно1N(Икся-Икс¯)2

Эффект постепенно исчезает с увеличением размера выборки, так как обращается в 1 как .N-1NN

Между прочим, нет особой причины, по которой вы должны использовать непредвзятую оценку для дисперсии - sN2 является совершенно допустимой оценкой, и в некоторых случаях может иметь преимущества по сравнению с более распространенной формой (непредвзятость не обязательно настолько велика, что сделка).

Сама дисперсия не является прямой мерой распространения. Если я удваиваю все значения в моем наборе данных, я утверждаю, что они в два раза «разбросаны». Но дисперсия увеличивается в 4 раза. Поэтому чаще говорят, что стандартное отклонение, а не дисперсия, является мерой разброса.

Конечно, такая же проблема возникает со стандартным отклонением (обычная версия sN-1 ), как и с дисперсией - когда вы удваиваете точки, стандартное отклонение изменяется по той же причине, что и с дисперсией.

В небольших выборках коррекция Бесселя делает стандартное отклонение несколько менее интуитивным в качестве меры разброса из-за этого эффекта (дублирование выборки изменяет значение). Но многие показатели разброса сохраняют одно и то же значение при дублировании выборки; Я упомяну несколько -

  • sN (конечно)

  • среднее (абсолютное) отклонение от среднего

  • медиана (абсолютное) отклонение от медианы

  • межквартильный диапазон (по крайней мере, для некоторых определений квартилей образца)

Glen_b - Восстановить Монику
источник
3
«Нет особой причины, по которой вы должны использовать объективную оценку» - на самом деле вам не обязательно ничего оценивать . Сама дисперсия {3, 5}равна 1, согласно первой формуле. Как вы указываете, спрашивающий пытался оценить дисперсию населения, из которого предполагается, что это выборка, но кто знает, так ли это или нет.
Стив Джессоп
1

В какой - то мнемоническом, . Таким образом, ожидаемое значение дисперсии выборки слишком мало, а разница представляет собой дисперсию среднего значения выборки.ВИксзнак равноЕВИкс+ВЕИкс

Обычная формула дисперсии выборки компенсирует это, и дисперсия среднего значения выборки обратно пропорциональна размеру выборки.

В качестве крайнего примера, взятие одной выборки всегда будет показывать выборочную дисперсию 0, очевидно, не указывая дисперсию 0 для базового распределения.

Теперь для 2 и 4 равномерно взвешенных выборок поправочные коэффициенты составляют и соответственно. Таким образом, ваши расчетные ожидаемые отклонения отличаются в раза . Дисперсия самой выборки равна в любом случае. Но первый случай представляет более слабый случай для являющегося средним значением базового распределения, и любое другое значение будет означать большую дисперсию.2/14/32/314

user80227
источник
2
Сопоставляя оценки со статистикой , этот ответ путает, а не разъясняет вопрос. Пожалуйста, прочитайте оригинальный ответ Glen_b в этой теме. Аргумент в первых двух абзацах загадочный, потому что он, кажется, не имеет отношения к вопросу.
whuber