Беспристрастная взвешенная дисперсия уже рассматривалась здесь и в других местах, но, похоже, все еще существует удивительная путаница. Похоже, что существует консенсус в отношении формулы, представленной в первой ссылке, а также в статье Википедии . Это также выглядит как формула, используемая R, Mathematica и GSL (но не MATLAB). Тем не менее, статья Википедии также содержит следующую строку, которая выглядит как отличная проверка работоспособности для реализации взвешенной дисперсии:
Например, если значения {2,2,4,5,5,5} взяты из того же распределения, то мы можем рассматривать этот набор как невзвешенную выборку, или мы можем рассматривать его как взвешенную выборку {2,4, 5} с соответствующими весами {2,1,3}, и мы должны получить те же результаты.
Мои расчеты дают значение 2,1667 для дисперсии исходных значений и 2,9545 для взвешенной дисперсии. Должен ли я действительно ожидать, что они будут такими же? Почему или почему нет?
источник
Ответы:
Да, вы должны ожидать, что оба примера (невзвешенные и взвешенные) дадут вам одинаковые результаты.
Я реализовал два алгоритма из статьи Википедии.
Этот работает:
Однако этот (с использованием дробных весов) не работает для меня:
Я все еще исследую причины, почему второе уравнение не работает, как предполагалось.
/ РЕДАКТИРОВАТЬ: нашел причину, по которой второе уравнение не сработало так, как я думал: вы можете использовать второе уравнение, только если у вас есть нормализованные веса или веса с отклонениями («надежность»), и оно НЕ беспристрастно, потому что если вы этого не сделаете При использовании «повторяющихся» весов (считая количество раз, когда наблюдение наблюдалось и, следовательно, должно повторяться в ваших математических операциях), вы теряете способность подсчитывать общее количество наблюдений, и, следовательно, вы не можете использовать поправочный коэффициент.
Таким образом, это объясняет разницу в ваших результатах, используя взвешенную и невзвешенную дисперсию: ваши вычисления смещены.
Таким образом, если вы хотите иметь несмещенную взвешенную дисперсию, используйте только «повторные» веса и используйте первое уравнение, которое я опубликовал выше. Если это невозможно, ну, вы не можете с этим поделать.
Я также обновил статью в Википедии, если вы хотите больше информации: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance
И связанная статья о несмещенной взвешенной ковариации (которая фактически является той же самой дисперсией из-за идентичности поляризации ): правильное уравнение для взвешенной несмещенной выборочной ковариации
источник