Вы можете найти все здесь . Тем не менее, вот краткий ответ.
Пусть и - среднее значение и дисперсия интереса; Вы хотите оценить на основе выборки размера .σ 2 σ 2 nμσ2σ2n
Теперь допустим, что вы используете следующую оценку:
S2= 1NΣNя = 1( Xя- Х¯)2 ,
где - оценка .μИкс¯= 1NΣNя = 1Иксяμ
Нетрудно (см. Сноску) увидеть, чтоЕ[ S2] = n - 1Nσ2 .
Поскольку , оценка S 2 называется смещенной.Е[ S2] ≠ σ2S2
Но заметьте, что . Поэтому ~ S 2=пЕ[ пn - 1S2] = σ2- несмещенная оценкаσ2.S~2= nn - 1S2σ2
сноска
Начните с записи а затем разверните произведение ...( Xя- Х¯)2= ( ( Xя- μ ) + ( μ - X¯) )2
Изменить для учета ваших комментариев
Ожидаемое значение не дает σ 2 (и, следовательно, S 2 смещено), но оказывается, что вы можете преобразовать S 2 в ˜ S 2, так что ожидание действительно дает σ 2 .S2σ2S2S2S~2σ2
На практике часто предпочитают работать с вместо S 2 . Но, если n достаточно велико, это не большая проблема, так как nS~2S2N.Nn - 1≈ 1
Замечание Обратите внимание, что непредвзятость является свойством оценки, а не ожидания, как вы написали.
Этот ответ проясняет ответ Окрама. Основная причина (и распространенное недоразумение) для заключается в том, что S 2 использует оценку ˉ X, которая сама оценивается по данным.Е[ S2] ≠ σ2 S2 Икс¯
Если вы проработаете вывод, вы увидите, что дисперсия этой оценки - это именно то, что дает дополнительную - σ 2Е[ ( X¯- μ )2] термин- σ2N
источник
Объяснение, которое дал @Ocram, великолепно. Чтобы объяснить то, что он сказал словами: если мы вычислим путем деления только на n (что интуитивно понятно), наша оценка s 2 будет занижена. Чтобы компенсировать это, мы делим на n - 1 .s2 N s2 n - 1
Вот упражнение: Составьте дискретную вероятность с 2 исходами, скажем, и P ( 6 ) = .75 . Найти µ и σ для этого распределения. Рассчитайте µ и σ для среднего значения для образца, когда n = 3 . Рассчитайте все возможные выборки размером n = 3 . Рассчитайте s 2 по этим выборкам и примените соответствующие частоты.п( 2 ) = 0,25 п( 6 ) = 0,75 μ σ μ σ n = 3 n = 3 s2
Иногда тебе нужно запачкать руки.
источник
Обычно использование «n» в знаменателе дает меньшие значения, чем дисперсия населения, что мы и хотим оценить. Особенно это происходит, если брать маленькие образцы. На языке статистики мы говорим, что выборочная дисперсия дает «смещенную» оценку дисперсии населения и должна быть «беспристрастной».
Это видео ответит на каждую часть вашего вопроса адекватно.
https://www.youtube.com/watch?v=xslIhnquFoE
источник