Это может быть простой вопрос для многих, но вот он:
Почему дисперсия не определяется как разница между всеми значениями, следующими друг за другом, а не как разница между средними значениями?
Это был бы более логичный выбор для меня, я думаю, что я, очевидно, наблюдаю за некоторыми недостатками. Благодарность
РЕДАКТИРОВАТЬ:
Позвольте мне перефразировать как можно более четко. Это то, что я имею в виду:
- Предположим, у вас есть ряд чисел, заказанных: 1,2,3,4,5
- Рассчитать и суммировать (абсолютные) различия (непрерывно, между каждым последующим значением, а не попарно) между значениями (без использования среднего).
- Разделите на количество различий
- (Продолжение: будет ли другой ответ, если номера будут неупорядоченными)
-> Каковы недостатки этого подхода по сравнению со стандартной формулой для дисперсии?
Ответы:
Наиболее очевидная причина заключается в том, что в значениях часто отсутствует временная последовательность. Таким образом, если вы перемешиваете данные, то нет никакой разницы в информации, передаваемой этими данными. Если мы следуем вашему методу, то каждый раз, когда вы перемешиваете данные, вы получаете различную выборочную дисперсию.
Более теоретический ответ заключается в том, что выборочная дисперсия оценивает истинную дисперсию случайной величины. Истинная дисперсия случайной величины равна E [ ( X - E X ) 2 ] .X
Здесь представляет ожидание или «среднее значение». Таким образом, определение дисперсии - это среднеквадратичное расстояние между переменной и ее средним значением. Когда вы смотрите на это определение, здесь нет «временного порядка», так как нет данных. Это просто атрибут случайной величины.E
Когда вы собираете данные iid из этого дистрибутива, у вас есть реализации . Лучший способ оценить ожидание - взять средние значения выборки. Ключевым моментом здесь является то, что мы получили данные iid, и, следовательно, нет упорядочения данных. Образец совпадает с образцомx 1 , x 2 , … , x n x 2 , x 5 , x 1 , x n . ,x1,x2,…,xn x1,x2,…,xn x2,x5,x1,xn..
РЕДАКТИРОВАТЬ
Дисперсионная дисперсия измеряет определенный тип дисперсии для образца, который измеряет среднее расстояние от среднего значения. Существуют и другие виды дисперсии, такие как диапазон данных и диапазон между квантилями.
Даже если вы отсортируете значения в порядке возрастания, это не изменит характеристики образца. Образец (данные), которые вы получаете, являются реализациями из переменной. Вычисление дисперсии выборки сродни пониманию степени дисперсии в переменной. Например, если вы выбрали 20 человек и вычислили их рост, то это 20 «реализаций» случайной величины рост людей. Теперь выборочная дисперсия должна измерять изменчивость роста особей в целом. Если вы заказываете данные 100 , 110 , 123 , 124 , … ,X=
это не меняет информацию в образце.
Давайте посмотрим на еще один пример. Допустим, у вас есть 100 наблюдений от случайной величины, упорядоченной таким образом Тогда среднее последующее расстояние составляет 1 единицу, поэтому по вашему методу дисперсия будет равна 1.
Способ интерпретации «дисперсии» или «дисперсии» состоит в том, чтобы понять, какой диапазон значений вероятен для данных. В этом случае вы получите диапазон 0,99 единицы, что, конечно, не очень хорошо отражает вариацию.
Если вместо среднего вы просто суммируете последующие различия, то ваша дисперсия будет 99. Конечно, это не представляет изменчивость в выборке, потому что 99 дает вам диапазон данных, а не чувство изменчивости.
источник
Это будет определено , что путь!
Вот эта алгебра. Пусть значения будут . Обозначим через эмпирическая функция распределения этих значений (что означает , что каждый способствует вероятностную массу при значении ) , и пусть и независимые случайные величины с распределением . В силу основных дисперсионных свойств (а именно, это квадратичная форма), а также определения и того факта, что и имеют одинаковое среднее значение,F x i 1 / n x i X Y F F X Yx=(x1,x2,…,xn) F xi 1/n xi X Y F F X Y
Эта формула не зависит от порядка : она использует все возможные пары компонентов, сравнивая их, используя половину квадратов разностей. Однако он может быть связан со средним значением по всем возможным порядкам (группа всех Перестановок индексов ). А именно,S ( n ) n ! 1 , 2 , … , nИкс S (n) н ! 1 , 2 , … , n
Это внутреннее суммирование принимает переупорядоченные значения и суммирует (половину) квадратные различия между всеми подряд пар. Деление на существу усредняет эти последовательные квадратные различия . Он вычисляет то, что известно как вариабельность лаг-1 . Внешнее суммирование делает это для всех возможных порядков . n - 1 nxσ(1),xσ(2),…,xσ(n) n−1 n
Эти два эквивалентных алгебраических представления стандартной формулы дисперсии дают новое понимание того, что означает дисперсия. Полувариантность является обратной мерой последовательной ковариации последовательности: ковариация высока (и числа положительно коррелированы), когда вариабельность мала, и наоборот. Таким образом, дисперсия неупорядоченного набора данных является своего рода усреднением всех возможных вариаций, которые можно получить при произвольных переупорядочениях.
источник
Просто в дополнение к другим ответам, дисперсия может быть вычислена как квадрат разницы между терминами:
Я думаю, что это наиболее близко к предложению ОП. Помните, что дисперсия является мерой дисперсии каждого наблюдения сразу, а не только между «соседними» числами в наборе.
ОБНОВИТЬ
Используя ваш пример: . Мы знаем, что дисперсия . V a r ( X ) = 2X=1,2,3,4,5 Var(X)=2
С вашим предложенным методом , так что мы заранее знаем, как принимать различия между соседями, так как дисперсия не складывается. Я имел в виду то, что брал каждую возможную разницу в квадрате и затем суммировалVar(X)=1
источник
Другие ответили о полезности дисперсии, определенной как обычно. В любом случае, у нас просто два законных определения разных вещей: обычное определение дисперсии и ваше определение.
Тогда главный вопрос - почему первый называется дисперсией, а не вашим. Это просто вопрос соглашения. До 1918 года вы могли изобрести все, что захотите, и назвать это «дисперсией», но в 1918 году Фишер использовал это имя для того, что все еще называется дисперсией, и если вы хотите определить что-то еще, вам нужно будет найти другое имя, чтобы назвать его.
Другой вопрос, может ли вещь, которую вы определили, быть полезной для чего-либо. Другие указали, что его проблемы должны использоваться в качестве меры дисперсии, но вам решать, как найти применение. Может быть, вы найдете настолько полезные приложения, что за столетие ваша вещь будет более известной, чем дисперсия.
источник
Ответ @GreenParker более полный, но для иллюстрации недостатка вашего подхода может пригодиться интуитивно понятный пример.
В вашем вопросе вы, кажется, предполагаете, что порядок, в котором появляются реализации случайной величины, имеет значение. Однако легко вспомнить примеры, в которых это не так.
Рассмотрим пример роста людей в популяции. Порядок, в котором измеряются индивидуумы, не имеет отношения как к среднему росту в популяции, так и к дисперсии (насколько эти значения распределены вокруг среднего значения).
Ваш метод может показаться странным применительно к такому случаю.
источник
Хотя есть много хороших ответов на этот вопрос, я считаю, что некоторые важные моменты были оставлены позади, и, поскольку этот вопрос возник с действительно интересным вопросом, я хотел бы высказать еще одну точку зрения.
Роль оценки в статистике состоит в том, чтобы обеспечить из ряда реализаций rv хорошее приближение для представляющих интерес параметров.
Я хотел показать, что существует большая разница в понятиях параметров (дисперсия для этого конкретного вопроса) и статистике, которую мы используем для ее оценки.
и обычная статистика:
При сравнении двух оценочных параметров обычным критерием для наилучшего является критерий, который имеет минимальную среднеквадратичную ошибку (MSE), и важным свойством MSE является то, что его можно разложить на две составляющие:
MSE = оценка смещения + оценка дисперсии.
Во-первых, это объективная оценка дисперсии, но ваша статистика не беспристрастна.
источник
Разница во времени действительно используется в одной форме, дисперсии Аллана. http://www.allanstime.com/AllanVariance/
источник
Здесь много хороших ответов, но я добавлю несколько.
Тем не менее, как сказал @Pere, ваша метрика может оказаться очень полезной в будущем.
источник