В чем разница между N и N-1 в расчете дисперсии населения?

50

Я не понял, почему есть Nи N-1при расчете дисперсии населения. Когда мы используем Nи когда мы используем N-1?

введите описание изображения здесь
Нажмите здесь, чтобы увеличить версию

Это говорит о том, что когда население очень большое, нет разницы между N и N-1, но это не говорит о том, почему существует N-1 в начале.

Изменить: Пожалуйста, не путайте с nи n-1которые используются при оценке.

Edit2: я не говорю об оценке населения.

Илхан
источник
5
Вы можете найти ответ там: stats.stackexchange.com/questions/16008/… . По сути, вы должны использовать N-1 для оценки дисперсии и N для точного вычисления .
октября
@ocram, насколько я знаю, когда мы оцениваем дисперсию, мы используем либо n, либо n-1.
Ильхан
Если вы хотите, чтобы ваша оценка была беспристрастной, вам следует использовать n-1. Обратите внимание, что когда n большое, это не имеет значения.
ocram
2
N1N11/Ny
StasK
2
Это действительно не добавляет к другим ответам. То, что разные делители дают разные ответы, или даже то, что разница уменьшается с N, не обсуждается. Вопрос в том, когда и зачем использовать любой делитель.
Ник Кокс

Ответы:

26

Nn(N1)/N=1(1/N)12/N117/Nexp(1/N)

(n1)/nn11/N

NN

NN1NNn

Whuber
источник
24

Вместо того, чтобы углубляться в математику, я постараюсь выразить это простыми словами. Если в вашем распоряжении есть все население, тогда его дисперсия ( дисперсия населения ) вычисляется с помощью знаменателя N. Аналогично, если у вас есть только выборка и вы хотите вычислить дисперсию этого образца , вы используете знаменатель N(в данном случае n выборки). Обратите внимание, что в обоих случаях вы ничего не оцениваете : среднее значение, которое вы измерили, является истинным средним значением, а отклонение, которое вы вычислили из этого среднего значения, является истинным отклонением.

Теперь у вас есть только выборка, и вы хотите сделать вывод о неизвестном среднем значении и дисперсии в популяции. Другими словами, вы хотите оценки . Вы берете среднее значение по выборке для оценки среднего значения по совокупности (поскольку ваша выборка является репрезентативной), хорошо. Чтобы получить оценку дисперсии популяции, вы должны сделать вид, что это среднее значение действительно является средним значением популяции, и, следовательно, оно больше не зависит от вашей выборки с тех пор, как вы ее вычислили. Чтобы «показать», что вы теперь принимаете это как фиксированное, вы резервируете одно (любое) наблюдение из вашей выборки, чтобы «поддержать» значение среднего значения: независимо от того, что могло произойти с вашей выборкой, одно зарезервированное наблюдение всегда могло бы привести среднее значение к значению, которое вы ' у нас есть и которые считают нечувствительным к случайным выборкам. Одно зарезервированное наблюдение "-1"N-1 в вычислении оценки дисперсии.

Представьте, что вы как-то знаете истинное среднее значение популяции, но хотите оценить отклонения от выборки. Затем вы подставите это истинное среднее в формулу для дисперсии и примените знаменатель N: здесь «-1» не требуется, поскольку вы знаете истинное среднее, вы не оценили его по этой же выборке.

ttnphns
источник
Но мой вопрос не имеет ничего общего с оценкой. Речь идет о вычислении дисперсии населения; с N и N-1. Я не говорю о п и н-1.
Ильхан
1
@ilhan, в своем ответе я использовал Nкак N, так и n. Nэто размер совокупности под рукой, либо популяция, либо выборка. Чтобы рассчитать дисперсию населения , вы должны иметь население в вашем распоряжении. Если у вас есть только выборка, вы можете либо вычислить дисперсию этой выборки, либо вычислить дисперсию оценки популяции . Другого пути нет.
ttnphns
У меня есть полная информация о моем населении; все значения известны. Я не заинтересован в оценке.
Ильхан
1
Если у вас есть население, тогда использовать N. N-1 было бы нелогично.
ttnphns
1
@ilhan - Не могу прокомментировать ваш комментарий к посту ttnphns, но здесь есть объяснение того, что вы видите в книге и как вы должны сделать это. Символ «S» при использовании для обозначения дисперсии всегда относится к выборочной дисперсии. Греческая буква сигма используется для обозначения дисперсии населения. Вот почему вы видите упоминание в книге S = N * sigma / (N - 1)
Арвинд
9

Как правило, когда у вас есть только часть населения, то есть выборка, вы должны разделить на n-1. Для этого есть веская причина: мы знаем, что выборочная дисперсия, которая умножает среднеквадратичное отклонение от среднего значения выборки на (n − 1) / n, является несмещенной оценкой дисперсии совокупности.

Вы можете найти доказательство того, что оценка выборочной дисперсии является несмещенной здесь: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Кроме того, если применить оценку дисперсии совокупности, то есть версию оценки дисперсии, которая делит на n в выборке вместо совокупности, полученная оценка будет смещена.

Фрэнк Келли
источник
Это, кажется, отвечает на другой вопрос, касающийся оценки дисперсии населения. Это выглядит круглым: разве этот ответ не основан на предположении о конкретной конвенции по определению дисперсии населения?
whuber
7

В прошлом был аргумент, что вы должны использовать N для непроизводных отклонений, но я бы не рекомендовал это больше. Вы всегда должны использовать N-1. При уменьшении размера выборки N-1 является довольно хорошей поправкой к тому факту, что дисперсия выборки становится меньше (вы просто с большей вероятностью выполните выборку вблизи пика распределения - см. Рисунок). Если размер выборки действительно большой, то это не имеет значения.

Альтернативное объяснение состоит в том, что популяция - это теоретическая конструкция, которую невозможно достичь. Поэтому всегда используйте N-1, потому что, что бы вы ни делали, вы в лучшем случае оцениваете дисперсию населения.

Кроме того, здесь вы увидите N-1 для оценки отклонений. Скорее всего, вы никогда не столкнетесь с этой проблемой ... за исключением теста, когда ваш учитель может попросить вас провести различие между выводным и неференциальная мера дисперсии. В этом случае не используйте ответ whuber или мой, обратитесь к ответу ttnphns.

фигура 1

Обратите внимание, что на этом рисунке дисперсия должна быть близка к 1. Посмотрите, насколько она меняется в зависимости от размера выборки, когда вы используете N для оценки дисперсии. (это «предвзятость», упомянутая здесь)

Джон
источник
1
Пожалуйста, скажите мне, почему N "не рекомендуется больше" с истинным населением под рукой? Население не всегда является теоретической конструкцией. Иногда ваша выборка является добросовестным населением для вас.
ttnphns
1
ilhan, N может использоваться для вашей выборки или для численности населения, если таковая существует. В большинстве случаев различие между большим N и маленьким n зависит от темы. Например, n может быть числом случаев в каждом условии в эксперименте, в то время как N может быть числом для эксперимента. Они оба образца. Там нет глобального правила.
Джон
1
ttnphns, это зависит от того, что вы подразумеваете под населением. Я бы сказал, что если все ваше население настолько мало, что значение N-1 имеет значение, тогда сомнительно, что вычисление среднеквадратичного отклонения вообще полезно. Показать все значения, их форму и диапазон. Более того, весь старый аргумент, что у вас на самом деле N степеней свободы, если вы не делаете вывод, сомнителен. Вы потеряли один, когда вычислили среднее значение, необходимое для вычисления дисперсии.
Джон
1
@ Джон, если вы вычисляете среднее значение среди населения, вы просто указываете факт о параметре, поэтому вы не тратите степени свободы. Если вы рассчитываете это в выборке и хотите сделать вывод о населении, то вы тратите один. Также я могу иметь население с N = 1. При знаменателе N-1 оказывается, что такой параметр, как дисперсия, для него не существует . Это ерунда.
ttnphns
3
@ilhan Пожалуйста, рассмотрите возможность обновления вашего вопроса (как вы это сделали) и укажите на обновленную версию, а не оставляйте такие неконструктивные комментарии. Все спорно, особенно когда сам вопрос не хватает какой - то контекст. Здесь, похоже, проблема состоит в том, чтобы определить, что же такое население на самом деле.
ЧЛ
4

Дисперсия популяции - это сумма квадратов отклонений всех значений в популяции, деленная на количество значений в популяции. Однако, когда мы оцениваем дисперсию популяции из выборки, мы сталкиваемся с проблемой, заключающейся в том, что отклонения значений выборки от среднего значения выборки в среднем немного меньше отклонений этих значений выборки от (( неизвестно) истинное население значит. Это приводит к тому, что дисперсия, рассчитанная по выборке, немного меньше, чем истинная популяционная дисперсия. Использование делителя n-1 вместо n исправляет эту недооценку.

Майкл Лью
источник
@ Bunnenburg, если ты получил ответ на свой вопрос. Пожалуйста, объясни мне сейчас, что у тебя есть? Это также большая путаница для меня.
Билал Пара
чтобы компенсировать эту меньшую дисперсию, которую мы получаем, почему нельзя использовать n-2, n-3 и т. д.? почему n-1 в частности? почему не константа ... ???
Сараванабалаги Рамачандран
@SaravanabalagiRamachandran Расхождение зависит от размера выборки, поэтому константа не будет служить. Коррекция с использованием n-1 ближе работает лучше, чем другие, которые вы упоминаете.
Майкл Лью