Я не понял, почему есть N
и N-1
при расчете дисперсии населения. Когда мы используем N
и когда мы используем N-1
?
Нажмите здесь, чтобы увеличить версию
Это говорит о том, что когда население очень большое, нет разницы между N и N-1, но это не говорит о том, почему существует N-1 в начале.
Изменить: Пожалуйста, не путайте с n
и n-1
которые используются при оценке.
Edit2: я не говорю об оценке населения.
variance
population
Илхан
источник
источник
Ответы:
источник
Вместо того, чтобы углубляться в математику, я постараюсь выразить это простыми словами. Если в вашем распоряжении есть все население, тогда его дисперсия ( дисперсия населения ) вычисляется с помощью знаменателя
N
. Аналогично, если у вас есть только выборка и вы хотите вычислить дисперсию этого образца , вы используете знаменательN
(в данном случае n выборки). Обратите внимание, что в обоих случаях вы ничего не оцениваете : среднее значение, которое вы измерили, является истинным средним значением, а отклонение, которое вы вычислили из этого среднего значения, является истинным отклонением.Теперь у вас есть только выборка, и вы хотите сделать вывод о неизвестном среднем значении и дисперсии в популяции. Другими словами, вы хотите оценки . Вы берете среднее значение по выборке для оценки среднего значения по совокупности (поскольку ваша выборка является репрезентативной), хорошо. Чтобы получить оценку дисперсии популяции, вы должны сделать вид, что это среднее значение действительно является средним значением популяции, и, следовательно, оно больше не зависит от вашей выборки с тех пор, как вы ее вычислили. Чтобы «показать», что вы теперь принимаете это как фиксированное, вы резервируете одно (любое) наблюдение из вашей выборки, чтобы «поддержать» значение среднего значения: независимо от того, что могло произойти с вашей выборкой, одно зарезервированное наблюдение всегда могло бы привести среднее значение к значению, которое вы ' у нас есть и которые считают нечувствительным к случайным выборкам. Одно зарезервированное наблюдение "-1"
N-1
в вычислении оценки дисперсии.Представьте, что вы как-то знаете истинное среднее значение популяции, но хотите оценить отклонения от выборки. Затем вы подставите это истинное среднее в формулу для дисперсии и примените знаменатель
N
: здесь «-1» не требуется, поскольку вы знаете истинное среднее, вы не оценили его по этой же выборке.источник
N
как N, так и n.N
это размер совокупности под рукой, либо популяция, либо выборка. Чтобы рассчитать дисперсию населения , вы должны иметь население в вашем распоряжении. Если у вас есть только выборка, вы можете либо вычислить дисперсию этой выборки, либо вычислить дисперсию оценки популяции . Другого пути нет.Как правило, когда у вас есть только часть населения, то есть выборка, вы должны разделить на n-1. Для этого есть веская причина: мы знаем, что выборочная дисперсия, которая умножает среднеквадратичное отклонение от среднего значения выборки на (n − 1) / n, является несмещенной оценкой дисперсии совокупности.
Вы можете найти доказательство того, что оценка выборочной дисперсии является несмещенной здесь: https://economictheoryblog.com/2012/06/28/latexlatexs2/
Кроме того, если применить оценку дисперсии совокупности, то есть версию оценки дисперсии, которая делит на n в выборке вместо совокупности, полученная оценка будет смещена.
источник
В прошлом был аргумент, что вы должны использовать N для непроизводных отклонений, но я бы не рекомендовал это больше. Вы всегда должны использовать N-1. При уменьшении размера выборки N-1 является довольно хорошей поправкой к тому факту, что дисперсия выборки становится меньше (вы просто с большей вероятностью выполните выборку вблизи пика распределения - см. Рисунок). Если размер выборки действительно большой, то это не имеет значения.
Альтернативное объяснение состоит в том, что популяция - это теоретическая конструкция, которую невозможно достичь. Поэтому всегда используйте N-1, потому что, что бы вы ни делали, вы в лучшем случае оцениваете дисперсию населения.
Кроме того, здесь вы увидите N-1 для оценки отклонений. Скорее всего, вы никогда не столкнетесь с этой проблемой ... за исключением теста, когда ваш учитель может попросить вас провести различие между выводным и неференциальная мера дисперсии. В этом случае не используйте ответ whuber или мой, обратитесь к ответу ttnphns.
Обратите внимание, что на этом рисунке дисперсия должна быть близка к 1. Посмотрите, насколько она меняется в зависимости от размера выборки, когда вы используете N для оценки дисперсии. (это «предвзятость», упомянутая здесь)
источник
Дисперсия популяции - это сумма квадратов отклонений всех значений в популяции, деленная на количество значений в популяции. Однако, когда мы оцениваем дисперсию популяции из выборки, мы сталкиваемся с проблемой, заключающейся в том, что отклонения значений выборки от среднего значения выборки в среднем немного меньше отклонений этих значений выборки от (( неизвестно) истинное население значит. Это приводит к тому, что дисперсия, рассчитанная по выборке, немного меньше, чем истинная популяционная дисперсия. Использование делителя n-1 вместо n исправляет эту недооценку.
источник