Если вы определяете дисперсию как - аналогично дисперсии населения но при значении сэмплирования для оба сэмпла будут иметь одинаковую дисперсию.s2Nзнак равноMSE= 1NΣNя = 1( хя- х¯)2μ
Таким образом, разница заключается исключительно в исправлении Бесселя в обычной формуле для выборочной дисперсии ( , который учитывает тот факт, что среднее значение выборки ближе к данным, чем среднее значение для популяции, чтобы сделать его беспристрастным (принимая правильное значение «в среднем»).s2n - 1= nn - 1⋅ MSE = nn - 1⋅ 1NΣNя = 1( хя- х¯)2= 1n - 1ΣNя = 1( хя- х¯)2
Эффект постепенно исчезает с увеличением размера выборки, так как обращается в 1 как .n - 1Nn → ∞
Между прочим, нет особой причины, по которой вы должны использовать непредвзятую оценку для дисперсии - s2N является совершенно допустимой оценкой, и в некоторых случаях может иметь преимущества по сравнению с более распространенной формой (непредвзятость не обязательно настолько велика, что сделка).
Сама дисперсия не является прямой мерой распространения. Если я удваиваю все значения в моем наборе данных, я утверждаю, что они в два раза «разбросаны». Но дисперсия увеличивается в 4 раза. Поэтому чаще говорят, что стандартное отклонение, а не дисперсия, является мерой разброса.
Конечно, такая же проблема возникает со стандартным отклонением (обычная версия sn - 1 ), как и с дисперсией - когда вы удваиваете точки, стандартное отклонение изменяется по той же причине, что и с дисперсией.
В небольших выборках коррекция Бесселя делает стандартное отклонение несколько менее интуитивным в качестве меры разброса из-за этого эффекта (дублирование выборки изменяет значение). Но многие показатели разброса сохраняют одно и то же значение при дублировании выборки; Я упомяну несколько -
sN (конечно)
среднее (абсолютное) отклонение от среднего
медиана (абсолютное) отклонение от медианы
межквартильный диапазон (по крайней мере, для некоторых определений квартилей образца)
{3, 5}
равна 1, согласно первой формуле. Как вы указываете, спрашивающий пытался оценить дисперсию населения, из которого предполагается, что это выборка, но кто знает, так ли это или нет.В какой - то мнемоническом, . Таким образом, ожидаемое значение дисперсии выборки слишком мало, а разница представляет собой дисперсию среднего значения выборки.ВИкс= EВИкс+ VЕИкс
Обычная формула дисперсии выборки компенсирует это, и дисперсия среднего значения выборки обратно пропорциональна размеру выборки.
В качестве крайнего примера, взятие одной выборки всегда будет показывать выборочную дисперсию 0, очевидно, не указывая дисперсию 0 для базового распределения.
Теперь для 2 и 4 равномерно взвешенных выборок поправочные коэффициенты составляют и соответственно. Таким образом, ваши расчетные ожидаемые отклонения отличаются в раза . Дисперсия самой выборки равна в любом случае. Но первый случай представляет более слабый случай для являющегося средним значением базового распределения, и любое другое значение будет означать большую дисперсию.2 / 1 4 / 3 2 / 3 1 4
источник