Формула для вычисления дисперсии имеет в знаменателе:
Я всегда задавался вопросом, почему. Тем не менее, чтение и просмотр нескольких хороших видеофильмов о том, «почему», кажется, является хорошей непредвзятой оценкой дисперсии населения. Тогда как недооценивает и переоценивает дисперсию населения.n ( n - 2 )
Что мне любопытно узнать, так это то, что в эпоху отсутствия компьютеров был сделан именно этот выбор? Есть ли фактическое математическое доказательство, доказывающее это, или это чисто эмпирические и статистики сделали МНОГИЕ расчеты вручную, чтобы придумать «лучшее объяснение» в то время?
Как статистики пришли к этой формуле в начале 19-го века с помощью компьютеров? Ручной или это больше, чем кажется на первый взгляд?
variance
unbiased-estimator
proof
history
кандидат наук
источник
источник
Ответы:
Коррекция называется коррекцией Бесселя и имеет математическое доказательство. Лично меня научили этому простому способу: используя вы исправляете смещение (см. Здесь ).E [ 1n−1 E[1n∑n1(xi−x¯)2]
Вы также можете объяснить коррекцию, основываясь на понятии степеней свободы, имитация строго не нужна.
источник
Большинство доказательств, которые я видел, достаточно просты, поэтому Гауссу (как бы он это ни делал), вероятно, было довольно легко доказать.
Я искал вывод по CV, на который я мог бы связать вас (есть множество ссылок на доказательства вне сайта, включая хотя бы один в ответах здесь), но я не нашел здесь на CV в пару поисков, поэтому для полноты картины приведу простой. Учитывая его простоту, легко увидеть, как люди начнут использовать то, что обычно называют коррекцией Бесселя .
Это принимает качестве предполагаемого знания и предполагает, что первые несколько основных свойств дисперсии известны.E(X2)=Var(X)+E(X)2
источник
Согласно «Ватштайнскому миру математики», он был впервые доказан Гауссом в 1823 году. Ссылка - это том 4 Гаусса Верке, с которым можно ознакомиться по адресу https://archive.org/details/werkecarlf04gausrich . Соответствующие страницы, кажется, 47-49. Кажется, что Гаусс исследовал вопрос и выдвинул доказательство. Я не читаю латынь, но в тексте есть краткое изложение на немецком языке. Страницы 103-104 объясняют, что он сделал (Правка: я добавил грубый перевод):
из которого может показаться, что хорошо известно, что выборочная дисперсия является предвзятой оценкой дисперсии населения. Далее в статье говорится, что разница между ними обычно игнорируется, потому что не важно, достаточно ли велик размер выборки. Тогда это говорит:
Так что, если это действительно первый случай, когда исправление было найдено, то кажется, что оно было найдено с помощью умного вычисления Гауссом, но люди уже знали, что требуется некоторая коррекция, так что, возможно, кто-то еще мог найти ее эмпирически до этого , Или, возможно, предыдущие авторы не хотели получить точный ответ, потому что они все равно работали с довольно большими наборами данных.
Резюме: руководство, но люди уже знали, что в знаменателе был не совсем прав.n
источник
Для меня одна часть интуиции заключается в том, что
Это,
На самом деле для доказательства приведенного выше уравнения требуется немного алгебры (эта алгебра очень похожа на ответ @ Glen_b выше). Но предполагая, что это правда, мы можем изменить порядок, чтобы получить:
Для меня другой частью интуиции является то, что использование вместо приводит к смещению. И это смещение точно равно .X¯ E [ ( ˉ X - μ ) 2 ] = σ 2μ E[(X¯−μ)2]=σ2n
источник
Большинство ответов уже подробно объяснили это, но кроме них есть одна простая иллюстрация, которая может оказаться полезной:
Предположим, вам дано, что и первые три числа:n=4
Теперь четвертое число может быть любым, поскольку ограничений нет. Теперь рассмотрим ситуацию, когда вам дают и , тогда, если первые три числа: то четвертое число должно быть .ˉ x = 6 8 , 4 , 6 6n=4 x¯=6 8,4,6 6
Это означает, что если вам известны значения и , то значение не имеет свободы. Таким образом, дает нам объективную оценку.ˉ x n t h n - 1n−1 x¯ nth n−1
источник