Какое «средство» использовать и когда?

197

Таким образом, мы имеем среднее арифметическое (AM), среднее геометрическое (GM) и среднее гармоническое (HM). Их математическая формулировка также хорошо известна наряду со связанными с ними стереотипными примерами (например, среднее гармоническое и его применение для решения проблем, связанных с «ускорением»).

Тем не менее, вопрос, который всегда интересовал меня: «Как я могу решить, какое значение наиболее подходит для использования в данном контексте?» Должно быть, по крайней мере, какое-то эмпирическое правило, чтобы помочь понять применимость, и все же самый распространенный ответ, с которым я столкнулся: «Это зависит» (но от чего?).

Это может показаться довольно тривиальным вопросом, но даже школьные тексты не смогли объяснить это - они дают только математические определения!

Я предпочитаю объяснение на английском языке математическому - простой тест будет: «Поняла бы это твоя мама / ребенок?»

кандидат наук
источник
20
Это, возможно, упрощает, но я всегда использовал диапазон и наблюдения. Если диапазон одинаков = AM (сравните баллы 0-100 с 0-100), если диапазон отличается, но наблюдение такое же = GM (сравните баллы 1-5 с 0-10), если диапазон одинаков, но наблюдения разные = HM (скорость машины на разных аках, высоты двух лестниц, другие «показатели»).
Брэндон Бертельсен
> «Это зависит» (но от чего?) Это зависит от алгоритма обработки данных.
Macson
Это не просто выбор того, что значит использовать. Это также выбор набора сводных статистических данных для описания населения или интересующего процесса. Не следует думать, что все, что нужно, - это одно число, чтобы описать что-то, возможно, очень сложное.
ДжимБ

Ответы:

160

Этот ответ может иметь немного более математическую склонность, чем вы искали.

Важно признать, что все эти средства являются просто замаскированным средним арифметическим .

Важной характеристикой при определении того, какое (если есть!) Из трех общих средств (арифметического, геометрического или гармонического) является «правильным» средним, является нахождение «аддитивной структуры» в рассматриваемом вопросе.

Другими словами, предположим, что нам даны некоторые абстрактные величины , которые я буду называть «измерениями», несколько злоупотребляя этим термином ниже для согласованности. Каждое из этих трех средств может быть получено путем (1) преобразования каждого в некоторый , (2) взятия среднего арифметического и затем (3) преобразования обратно в исходную шкалу измерения.x iИкс1,Икс2,...,ИксNИксяYя

Среднее арифметическое . Очевидно, что мы используем преобразование «тождество»: . Итак, шаги (1) и (3) тривиальны (ничего не сделано) и .ˉ x A M = ˉ yYязнак равноИксяИкс¯AMзнак равноY¯

Среднее геометрическое : здесь аддитивная структура находится на логарифмах исходных наблюдений. Итак, мы берем а затем, чтобы получить GM на шаге (3), мы конвертируем обратно через обратную функцию , то есть . войти ˉ х G М = ехр ( ˉ у )Yязнак равножурналИксяжурналИкс¯граммMзнак равноехр(Y¯)

Среднее гармоническое : здесь аддитивная структура находится на обратной стороне наших наблюдений. Итак, , откуда .ˉ x H M = 1 / ˉ yYязнак равно1/ИксяИкс¯ЧАСMзнак равно1/Y¯

В физических задачах они часто возникают в результате следующего процесса: у нас есть некоторая величина которая остается фиксированной по отношению к нашим измерениям и некоторым другим величинам, например, . Теперь мы играем в следующую игру: постоянными и и пытаемся найти некоторый такой, что если мы заменим каждое из наших отдельных наблюдений на , тогда отношение "total" все еще сохраняется ,x 1 , , x n z 1 , , z n w z 1 + + z n ˉ x x i ˉ xвесИкс1,...,ИксNZ1,...,ZNвесZ1++ZNИкс¯ИксяИкс¯

Пример «расстояние - скорость - время» кажется популярным, поэтому давайте его использовать.

Постоянное расстояние, разное время

Рассмотрим фиксированное пройденное расстояние . Теперь предположим, что мы преодолеваем это расстояние раз на скорости , принимая время . Теперь мы играем в нашу игру. Предположим, мы хотели заменить наши индивидуальные скорости на некоторую фиксированную скорость , чтобы общее время оставалось постоянным. Обратите внимание, что у нас так что . Мы хотим, чтобы это общее соотношение (общее время и общее пройденное расстояние) было сохранено, когда мы заменим каждое из на в нашей игре. Следовательно, n v 1 , , v n t 1 , , t n ˉ v d - v i t i = 0dNv1,...,vNT1,...,TNv¯Σ я ( д - v я т я ) = 0 v я ° против п д - ˉ v Σ я т я = 0

d-vяTязнак равно0,
Σя(d-vяTя)знак равно0vяv¯t i = d / v i ˉ v = n
Nd-v¯ΣяTязнак равно0,
и так как каждый , мы получаем, что Tязнак равноd/vя
v¯знак равноN1v1++1vNзнак равноv¯ЧАСM,

Обратите внимание, что «аддитивная структура» здесь относится к отдельным временам, и наши измерения обратно связаны с ними, поэтому применяется гармоническое среднее.

Разные расстояния, постоянное время

Теперь давайте изменим ситуацию. Предположим, что для случаев мы путешествуем фиксированное время со скоростями по расстояниям . Теперь мы хотим сохранить общее расстояние. Мы имеем и полная система сохраняется, если . Играя в нашу игру снова, мы ищем такой, что но, поскольку , мы получаем, что t v 1 , , v n d 1 , , d n d i - v i t = 0NTv1,...,vNd1,...,dNΣ я ( д я - v я т ) = 0 ˉ v Σ я ( д я - ˉ v т ) = 0

dя-vяTзнак равно0,
Σя(dя-vяT)знак равно0v¯d i = v i t ˉ v = 1
Σя(dя-v¯T)знак равно0,
dязнак равноvяT
v¯знак равно1NΣяvязнак равноv¯AM,

Здесь аддитивная структура, которую мы пытаемся поддерживать, пропорциональна имеющимся у нас измерениям, поэтому применяется среднее арифметическое.

Куб равного объема

Предположим, что мы построили мерную коробку с заданным объемом а наши измерения - это длины сторон коробки. Тогда и предположим что мы хотим построить мерный (гипер) куб с таким же объемом. То есть мы хотим заменить наши отдельные длины сторон общей длиной сторон . Тогда NВ

Взнак равноИкс1Икс2ИксN,
NИксяИкс¯
Взнак равноИкс¯Икс¯Икс¯знак равноИкс¯N,

Это легко означает, что мы должны взять .Икс¯знак равно(ИксяИксN)1/Nзнак равноИкс¯граммM

Обратите внимание, что аддитивная структура представлена ​​в логарифмах, то есть и мы пытаемся сохранить левую величину.журналВзнак равноΣяжурналИкся

Новое значит от старого

В качестве упражнения подумайте о том, что означает «естественный» в ситуации, когда вы позволяете и расстояниям, и времени меняться в первом примере. То есть у нас есть расстояния , скорости и времена . Мы хотим сохранить общее расстояние и пройденное время и найти постоянную для достижения этой цели.v я т я ° VdяvяTяv¯

Упражнение : что означает «естественный» в этой ситуации?

кардинальный
источник
25
+1 Это отличный ответ. Тем не менее, я думаю, что это важно в неполном смысле: во многих случаях правильное среднее значение определяется вопросом, на который мы пытаемся ответить, а не какой-либо математической структурой в данных. Хорошим примером этого является оценка риска для окружающей среды: регулирующие органы хотят оценить общую подверженность населения загрязнителям с течением времени. Для этого требуется соответствующим образом взвешенное среднее арифметическое, хотя данные о концентрации в окружающей среде обычно имеют мультипликативную структуру. Среднее геометрическое было бы неправильной оценкой или оценкой.
whuber
7
@whuber: (+1) Это отличный комментарий. На моем пути к построению ответа я взял явно нестатистическую вилку, так что я рад, что вы упомянули об этом. Это тема, достойная полного ответа ( подсказка ).
кардинал
9
@whuber: Это также поднимает тот факт (возможно, непреднамеренно), что статистический анализ часто может быть предметом надзора за экспертами в области (или, возможно, в вашем примере, даже неопытными), которые хотят оценить что-то значимое для своей области, но почти совершенно неестественно статистически. Проблема, с которой я столкнулся в прошлом, заключается в том, что они иногда хотят также диктовать способ проведения статистической оценки! :)
кардинал
1
@whuber: Было бы очень признательно, если бы вы могли добавить эту точку зрения к ответу, с некоторыми уточнениями. Честно говоря, ваши объяснения являются одними из лучших, которые я видел на Stats.SE!
PhD
3
Обычный отличный комментарий от @whuber. Иногда (возможно часто!) Правильное средство для использования - нет ; скорее, вопрос часто необходимо расширить на «какую меру центральной тенденции я должен использовать?».
Питер Флом
43

Расширяя замечательный комментарий @Brandon (на который, я думаю, следует ответить):

Среднее геометрическое следует использовать, когда вы заинтересованы в мультипликативных разностях. Брэндон отмечает, что геометрическое среднее следует использовать, когда диапазоны разные. Это обычно правильно. Причина в том, что мы хотим выровнять диапазоны. Например, предположим, что абитуриенты колледжа оцениваются по баллу SAT (от 0 до 800), среднему баллу по HS (от 0 до 4) и внеурочной деятельности (от 1 до 10). Если колледж хотел бы усреднить их и выровнять диапазоны (то есть вес увеличивается в каждом качестве относительно диапазона), тогда геометрическое среднее было бы способом пойти.

Но это не всегда так, когда у нас есть весы с разными диапазонами. Если бы мы сравнивали доход в разных странах (включая бедные и богатые), мы бы, вероятно, не хотели бы геометрическое среднее, а среднее арифметическое (или, что более вероятно, среднее или, возможно, усеченное среднее).

Единственное использование, которое я видел для среднего гармонического, - это сравнение показателей. Например: если вы едете из Нью-Йорка в Бостон со скоростью 40 миль в час и возвращаетесь со скоростью 60 миль в час, то ваше общее среднее значение - это не среднее арифметическое 50 миль в час, а среднее гармоническое.

AM = HM =2 / ( 1 / 40 + 1 / 60 ) = 48(40+60)/2знак равно502/(1/40+1/60)знак равно48

чтобы убедиться, что это правильно для этого простого примера, представьте, что от Нью-Йорка до Бостона 120 миль. Затем поездка займет 3 часа, дорога домой займет 2 часа, всего 5 часов, а расстояние - 240 миль. 240/5знак равно48

Питер Флом
источник
3
Почему ваш пример SAT / GPA / внеклассного обучения использует среднее геометрическое, а не взвешенное или масштабированное среднее арифметическое? Почему SAT или GPA, равные нулю, означают, что другие два значения становятся неактуальными (как и подразумевает среднее геометрическое значение)? А что, если (скажем) внеклассная деятельность имеет тенденцию группироваться в гораздо более узкой полосе, чем ее теоретический диапазон? Кажется, что было бы более разумно взять среднее арифметическое значений процентилей (или других скорректированных значений), чем среднее геометрическое значений необработанных значений.
Руах
1
@ruakh Интересно. В этом случае проблема 0 не имеет большого значения, поскольку SAT и GPA не могут быть равны 0 (SAT = 0 практически невозможно, а GPA 0 не будет выпускаться). Я думаю, что среднее арифметическое процентилей будет близко к среднему геометрическому в своих выводах (хотя и не в реальных числах).
Питер Флом
31

Я попытаюсь свести это к 3-4 эмпирическим правилам и приведу еще несколько примеров пифагорейских средств.

Соотношение между 3 средними составляет HM <GM <AM для неотрицательных данных с некоторыми вариациями . Они будут равны в том и только в том случае, если в выборочных данных вообще нет изменений.

Для данных в уровнях используйте AM. Цены являются хорошим примером. Для соотношений используйте GM. Инвестиционные доходы, относительные цены, такие как индекс Bloomberg Billy (цена книжной полки Ikea Billy в разных странах по сравнению с ценой в США) и индекс человеческого развития ООН - все это примеры. HM подходит для работы с тарифами. Вот неавтомобильный пример, предоставленный Дэвидом Джайлсом :

Например, рассмотрим данные о «отработанных часах в неделю» (показатель). Предположим, что у нас есть четыре человека (выборочные наблюдения), каждый из которых работает в общей сложности 2000 часов. Однако они работают разное количество часов в неделю следующим образом:

Person      Total Hours       Hours per Week          Weeks Taken
1                  2,000                  40                   50
2                  2,000                  45                   44.4444
3                  2,000                  35                   57.142857
4                  2,000                  50                   40

Total:           8,000                                       191.587297

Среднее арифметическое значений в третьем столбце составляет AM = 42,5 часа в неделю. Однако обратите внимание, что означает это значение. Разделив общее число недель, отработанных членами выборки (8 000), на это среднее значение, получим значение 188,2353 как общее количество недель, отработанных всеми четырьмя людьми.

Теперь посмотрим на последний столбец в таблице выше. Фактически правильное значение для общего количества недель, отработанных участниками выборки, составляет 191,5873 недели. Если мы вычислим Среднее гармоническое для значений для Часов в неделю в третьем столбце таблицы, мы получим HM = 41,75642 часа (<AM), и деление этого числа на 8000 часов даст нам правильный результат 191,5873 для общего числа недель работал. Вот случай, когда гармоническое среднее обеспечивает подходящую меру для выборочного среднего.

Дэвид также обсуждает взвешенную версию 3-х средних, которые появляются в индексах цен, используемых для измерения инфляции.

Угонщик в сторону:

Эти ROT не идеальны. Например, мне часто трудно понять, является ли что-то ставкой или соотношением. Доходность инвестиций обычно учитывается как отношение при расчете средних, но они также являются ставкой, поскольку они обычно выражаются в «x% за единицу времени». Будет ли "использовать HM, когда данные представляют собой уровни в единицу времени" лучше эвристики?

Если бы вы хотели обобщить индекс Big Mac для стран Северной Европы, вы бы использовали GM?

Димитрий Васильевич Мастеров
источник
3
Несколько лет спустя, но вы когда-нибудь нашли ответ на свой вопрос: «Если бы вы хотели обобщить индекс Биг Мак для стран Северной Европы, вы бы использовали ГМ?» ?
StatsScared
2
@StatsScared Нет, но это сделало бы хороший вопрос!
Дмитрий Васильевич Мастеров
7

Возможный ответ на ваш вопрос («как мне решить, какое значение наиболее подходит для использования в данном контексте?») - это определение среднего, данное итальянским математиком Оскаром Кизини .

Вот статья с более подробным объяснением и некоторыми примерами (средняя скорость движения и другие).

Boscovich
источник
6
Возможно, было бы идеально, если бы вы могли добавить сюда несколько строк об определении Кизини на случай, если ссылка не работает, и / или чтобы помочь читателям узнать, хотят ли они щелкнуть ссылку для дальнейшего продвижения идей.
gung
2
Действительно, ссылка на газету мертва. Ссылка на Wolfram не дает никакого представления о том, как определение Chisini полезно для определения того, что значит использовать в данном контексте; мне кажется, это только математическое обобщение, а не рецепт использования.
Райан Симмонс
1
Используя DOI, можно увидеть, что статья перешла на tandfonline.com. Образец цитирования: Р. Грациани, П. Веронезе (2009). Как вычислить среднее? Подход Кизини и его приложения. Американский статистик 63 (1), с. 33-36. tandfonline.com/doi/abs/10.1198/tast.2009.0006
akraf
0

Я думаю, что простой способ ответить на вопрос будет:

  1. Если математическая структура имеет вид xy = k (обратная зависимость между переменными), и вы ищете среднее значение, тогда вам нужно использовать среднее гармоническое - которое равно взвешенному арифметическому среднему - рассмотрите

Среднее гармоническое = 2ab / (a ​​+ b) = a (b / a + b) + b (a / (a ​​+ b)

Например: усреднение стоимости доллара относится к этой категории, потому что сумма денег, которую вы вкладываете (A), остается фиксированной, но цена за акцию (P) и количество акций (N) варьируются (A = PN). На самом деле, если вы представляете среднее арифметическое как число, одинаково центрированное между двумя числами, среднее гармоническое также является числом, одинаково центрированным между двумя числами, но (и это хорошо) «центр» - это то, где проценты (отношения) равны. То есть: (x - a) / a = (b -x) / b, где x - среднее гармоническое.

  1. Если математическая структура представляет собой прямое изменение y = kx, вы используете среднее арифметическое - к чему сводится гармоническое среднее в этом случае.
Ира Ниренберг
источник
1
$x$Икс\frac{a}{b}aб
Допустим, вы хотите усреднить средние вероятности нескольких разных моделей. В таком случае имеет ли смысл использовать геометрическое или гармоническое среднее?
thecity2