- Если вы посмотрите на Wolfram Alpha
- Или эта страница в Википедии Список стран по медианному возрасту
Очевидно, медиана является статистикой выбора, когда речь идет о возрастах.
Я не могу объяснить себе, почему среднее арифметическое было бы хуже статистики. Почему это так?
Первоначально размещен здесь, потому что я не знал, что этот сайт существует.
Ответы:
Статистика не дает хорошего ответа на этот вопрос, на мой взгляд. Например, среднее значение может быть релевантным в исследованиях смертности, но возраст не так легко измерить, как вы думаете. Например, пожилые люди, неграмотные люди и люди в некоторых странах третьего мира имеют тенденцию к возрасту, кратному 5 или 10.
Медиана более устойчива к таким ошибкам, чем средняя. Кроме того, средний возраст обычно составляет 20-40 лет, но люди могут жить до 100 и более лет (растущая и заметная доля населения современных стран в настоящее время живет за пределами 100). Люди такого возраста имеют в среднем от 1,5 до 4 раз больше влияния, чем на медиану, по сравнению с очень молодыми людьми. Таким образом, медиана является немного более современной статистикой, касающейся возрастного распределения страны, и немного более независима от показателей смертности и ожидаемой продолжительности жизни, чем среднее значение.
Наконец, медиана дает нам немного лучшую картину того, как выглядит само распределение по возрасту: например, когда вы видите медиану 35 лет, вы знаете, что половина населения старше 35 лет, и вы можете сделать некоторые выводы о показателях рождаемости, возраст родителей и т. д .; но если среднее значение равно 35, вы не можете сказать так много, потому что на эти 35 может повлиять, например, большой всплеск населения в возрасте 70 лет или, возможно, разрыв в населении в некотором возрастном диапазоне из-за старой войны или эпидемии.
Таким образом, по демографическим, а не статистическим причинам медиана представляется более достойной роли сводного значения для суммирования возрастов относительно больших групп населения.
источник
Джон дал вам хороший ответ на сайте сестры.
Один аспект, который он не упомянул в явном виде, - это надежность: медиана как мера центрального положения лучше, чем среднее, поскольку она имеет более высокую точку разбивки (50%), в то время как среднее имеет очень низкое значение из 0 (подробности см. В Википедии). ).
Интуитивно, это означает, что отдельные плохие наблюдения не искажают медиану, тогда как они делают для среднего.
источник
Вот мой ответ, впервые опубликованный на math.stackexchange:
Медиана - это то, что на самом деле имеют в виду многие люди, когда говорят «значит». Медиану легче интерпретировать: половина населения старше этого возраста, а половина ниже. Среднее немного более тонко.
Люди ищут симметрию и иногда навязывают симметрию, когда ее там нет. Распределение по возрасту в популяции далеко не симметрично, поэтому среднее значение может вводить в заблуждение. Распределение по возрасту - это что-то вроде пирамиды. Много детей, не много пожилых. (Или, по крайней мере, так оно и происходит в своего рода устойчивом состоянии. В США поколение бэби-бума после Второй мировой войны исказило это распределение по мере старения. Некоторые люди называют это «возведением в квадрат пирамиды», потому что бумеры сделали вершина пирамиды шире, чем была в прошлом.)
При асимметричном распределении может быть лучше сообщить медиану, потому что это симметричная статистика. Медиана является симметричной, даже если распределение выборки не является.
источник
Почему топор лучше топора?
Это похоже на ваш вопрос. Они просто имеют в виду и делают разные вещи. Если говорить о медианах, то история, которую они пытаются донести, модель, которую они пытаются применить к данным, отличается от модели, в которой есть средства.
источник
Для конкретного примера рассмотрим средний возраст для Конго (ДРК) и Японии. Один из них опустошен гражданской войной, другой хорошо развит со стареющим населением. Среднее значение не очень интересно для сравнения яблок с яблоками. С другой стороны, медиана может быть информативной как мера центральной тенденции, так как по определению у нас половина выше, половина ниже. Статья в Википедии, посвященная пирамиде народонаселения, может быть полезной (см. Разделы, посвященные росту численности молодежи, старению населения).
источник
Хранилища данных общественного здравоохранения в Соединенных Штатах движутся в направлении AGE в формате лет с шагом в пять лет из-за воздействия правил HIPAA, касающихся преднамеренного ослепления и маскировки данных в целях личной конфиденциальности.
Учитывая эту проблему с тем, что было в прошлом (до HIPAA) довольно масштабным элементом данных уровня мер, основанным на разнице между датой рождения и датой смерти, нам, возможно, придется пересмотреть AGE как переменную шкалы, которая может быть Параметрически описаны вообще в наборах данных общественного здравоохранения, в пользу моделей, которые описывают AGE непараметрическим способом, как порядковый уровень измерения. Я знаю, что это может показаться «чрезмерным» многим фракциям в сообществе биомедицинской информатики, но эта идея может иметь некоторую ценность с точки зрения «интерпретации», как описано в комментариях выше.
Как насчет всей аналитической силы, которая доступна для непараметрических подходов? Да, это правда, что каждый из нас почти повсеместно будет пытаться применить методы GLM (общая линейная модель) к переменной, которая представляется нам в распределениях, которые ведут себя так, как AGE.
В то же время необходимо учитывать форму этого распределения и то, как эта форма определяется эффектами многомерного взаимодействия на многомерных центроидах и центроидах подгрупп, присутствующих в распределении. Что делать с этими очень сложными наборами данных?
Когда элемент данных не соответствует «допущениям модели», мы постепенно сканируем (я сказал поперек, а не вниз; мы должны быть равноправными работодателями метода, каждый инструмент поставляется фабрикой с формой, соответствующей правилам функции), список Из других возможных моделей можно найти те, которые «не подведут» тесты допущений.
В существующем формате в наборах данных общественного здравоохранения нам действительно (как сообществу по визуализации данных) действительно нужно придумать более стандартную модель для обработки AGE с шагом в пять лет (5YI). Мой голос за визуализацию данных AGE (с учетом нового формата 5YI) заключается в использовании гистограмм и графиков прямоугольников и усов. Да, это означает, медиана. (Не каламбур!)
Иногда картинка действительно стоит тысячи слов, а реферат - это краткое изложение тысячи слов. График прямоугольника и вискера показывает «форму» распределения как значимое символическое представление гистограммы с почти пиктограммой разрешения. Сравнение распределений пятилетних возрастных возрастов с показом бокса «бок о бок» и графиков усов, где можно мгновенно визуально сравнить паттерны от 75-го до 50-го (медиана) с уровнем ниже 25-го ntile, сделало бы элегантный «универсальный стандарт» для сравнения AGE через мир. Для тех из нас, кто продолжает получать удовольствие от представления данных с помощью текстовой механики табличного отображения, диаграмма «ствол и лист» также может быть полезна, когда она используется в качестве элемента анимированной визуальной графики в «спарклайне».
ВОЗРАСТ достиг совершеннолетия. Это требует дальнейшего изучения с помощью более мощных вычислительных алгоритмов, которые сейчас доступны.
источник
Я не думаю, что есть хорошая описательная причина для выбора медианы над средним для распределения по возрасту. Существует одна практичность при сравнении сообщаемых данных.
Многие страны сообщают о своем населении с 5-летними возрастными интервалами с открытым верхним диапазоном. Это вызывает некоторые трудности при расчете среднего значения по интервалам, особенно для самого младшего интервала (на который влияют показатели младенческой смертности), верхнего «интервала» (что означает среднее значение «более 80 интервалов»?) И ближайших верхних интервалов ( среднее значение каждого интервала обычно ниже среднего).
Гораздо проще оценить медиану путем интерполяции внутри медианного интервала, часто аппроксимируя, предполагая равномерное распределение возраста или трапеции в этом интервале (во многих странах показатели смертности относительно низки относительно медианного возраста, что делает это более разумным приближением, чем для молодых или старых).
источник
Чтобы дать полезный ответ, оригинальный вопрос требует, чтобы мы знали вопрос позади вопроса. Другими словами: «Зачем вам нужна какая-то сводная статистика, сравнивающая распределение по возрасту в разных странах?» Медиана может быть наиболее полезной для некоторых вопросов. Среднее может быть самым полезным для других. И, возможно, есть вопросы, где «процент выше (или ниже) определенного возраста» будет наиболее полезной статистикой.
источник
Вы получаете хорошие ответы здесь, но позвольте мне добавить свои 2 цента. Я работаю в фармакометрии, которая занимается такими вещами, как объем крови, уровень выведения, базовый уровень лекарственного эффекта, максимальный лекарственный эффект и подобные параметры.
Мы делаем различие между переменными, которые могут принимать любое значение плюс или минус, по сравнению со значениями, которые могут быть только положительными. Примером переменной, которая может принимать любое значение, плюс или минус, может быть эффект препарата, который может быть положительным, нулевым или отрицательным. Примером переменной, которая может быть только реалистичной, является объем крови или уровень выведения лекарств.
Мы моделируем эти вещи с помощью распределений, которые обычно либо нормальны, либо логнормальны, нормальны для произвольных значений и логнормальны для единственно положительных. Логнормальное число - это число E, взятое в степень нормально распределенного числа, и поэтому оно может быть только положительным.
Для нормально распределенной переменной медиана, среднее и мода - это одно и то же число, поэтому не имеет значения, какой вы используете. Однако для логнормально распределенной переменной среднее значение больше, чем и медиана, и мода, поэтому на самом деле это не очень полезно. На самом деле, медиана - это то, где базовая норма имеет свое среднее значение, так что это гораздо более привлекательная мера.
Поскольку возраст (предположительно) никогда не может быть отрицательным, логнормальное распределение, вероятно, лучше описывает его, чем нормальное, поэтому медиана (от E до среднего базового значения) является более полезной.
источник
Меня учили, что медиана должна использоваться с диапазоном и средним значением со стандартным отклонением. Когда мы говорим о возрасте, я думаю, что диапазон является более актуальным способом выражения спреда, и его легче понять большинству. Например, в исследуемой популяции средний возраст составлял 53 года (SD 5,4) или средний возраст составлял 48 лет (диапазон 23-77 лет). По этой причине я предпочел бы использовать медиану, а не среднее. Но мне было бы очень интересно узнать, что скажет статистика или профессионал об использовании среднего с диапазоном? Я вижу это довольно много в научных работах.
источник
Ответ Джона на math.stackexchange можно рассматривать следующим образом:
Обратите внимание, что когда он говорит, что младенцев больше, чем взрослых, он, по сути, предполагает, что распределение по возрасту является искаженным.
источник
Я надеюсь, что средний возраст будет зависеть от выбросов в вашем наборе данных, в то время как это не относится к среднему возрасту. Давайте возьмем пример набора данных вакцинированных пациентов: 1,2,3,4,4,5,6,6,6,78 лет среднее значение будет: 11,5, а средний возраст этих пациентов составляет 4,5. этот средний возраст был затронут выбросом 78. Медиана является лучшей, когда речь идет о наборах данных о перекосе распределения.
источник
Конечно, в случае демографического анализа, я думаю, что и среднее значение, и медиана были бы полезны, особенно в сочетании друг с другом, если вы ищете выбросы или области роста, которые могут быть неправильно обозначены только медианой. В общинах с большим пенсионным сообществом или в районе, где наблюдается рост рождаемости, только медиана может не дать вам полную картину, и именно здесь среднее значение, по сравнению, может быть очень полезным.
источник