Есть ли что-то существенное в среднем геометрическом и среднем арифметическом значении, которое находится очень близко друг к другу, скажем, ~ 0,1%? Какие предположения можно сделать о таком наборе данных?
Я работал над анализом набора данных и заметил, что по иронии судьбы значения очень и очень близки. Не точно, но близко. Кроме того, быстрая проверка правильности среднего арифметического среднего геометрического неравенства, а также обзор сбора данных показывают, что нет ничего подозрительного в целостности моего набора данных с точки зрения того, как я пришел к значениям.
descriptive-statistics
mean
geometric-mean
user12289
источник
источник
x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x))
[1] 3.383363
(в то время как среднее арифметическое равно 1)Ответы:
Среднее арифметическое связано с геометрическим средним через неравенство Среднее арифметическое-среднее-геометрическое (AMGM), которое гласит:
где равенство достигается тогда и только тогда, когда . Так что, вероятно, ваши точки данных все очень близки друг к другу.x1=x2=⋯=xn
источник
Рассматривая ответ @Alex R, один из способов увидеть неравенство AMGM - это эффект неравенства Дженсена. По неравенству Дженсена : Тогда возьмите экспоненту обеих сторон: 1
Правая часть представляет собой среднее геометрическое, поскольку(x1⋅x2⋅…⋅xn)1/n=exp(1n∑ilogxi)
Когда неравенство AMGM выполняется с почти равенством? Когда эффект неравенства Дженсена невелик. В основе эффекта неравенства Дженсена лежит вогнутость, кривизна логарифма. Если ваши данные распределены по области, где логарифм имеет кривизну, эффект будет большим. Если ваши данные распределены по региону, где логарифм в основном аффинный, то эффект будет небольшим.
Например, если данные имеют небольшое отклонение, сгруппированы вместе в достаточно малой окрестности, то логарифм будет выглядеть как аффинная функция в этой области (тема исчисления заключается в том, что если вы достаточно увеличите масштаб для гладкой, непрерывной функции, то это будет выглядеть как линия). Для данных, достаточно близких друг к другу, среднее арифметическое данных будет близко к среднему геометрическому.
источник
Давайте исследуем диапазон учитывая, что их среднее арифметическое (AM) является кратным 1 + δ их среднего геометрического (GM) (с δ ≥ 0 ). В вопросе δ ≈ 0,001, но мы не знаем n .x1≤x2≤⋯≤xn 1+δ δ≥0 δ≈0.001 n
Поскольку соотношение этих средств не меняется при изменении единиц измерения, выберите единицу, для которой GM равен . Таким образом, мы стремимся максимизировать x n с учетом ограничения, что x 1 + x 2 + ⋯ + x n = n ( 1 + δ ) и x 1 ⋅ x 2 ⋯ x n = 1 .1 xn x1+x2+⋯+xn=n(1+δ) x1⋅x2⋯xn=1
Это будет сделано, сделав , скажем, и x n = z ≥ x . таким образомx1=x2=⋯=xn−1=x xn=z≥x
а также
As soon asn reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).
At the other extreme, supposen=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x≤1 and the other half equal another value z≥1 . Now the solution (which is easily checked) is
For tinyδ , we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving
The range is approximately32δ−−−√/n .
In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of datan . The upper bound shows the range can be appreciable even for tiny δ , thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.
Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered thexi might be in terms of any other measure of spread, such as their variance or coefficient of variation.
источник