Часто вводные тексты по прикладной статистике отличают среднее от медианного (часто в контексте описательной статистики и мотивации суммирования центральной тенденции с использованием среднего, медианного значения и режима), объясняя, что среднее значение чувствительно к выбросам в данных выборки и / или искаженное распределение населения, и это используется в качестве оправдания для утверждения, что медиана должна быть предпочтительной, когда данные не симметричны.
Например:
Наилучшая мера центральной тенденции для данного набора данных часто зависит от того, каким образом распределяются значения .... Когда данные не симметричны, медиана часто является лучшей мерой центральной тенденции. Поскольку среднее значение чувствительно к экстремальным наблюдениям, оно вытягивается в направлении значений внешних данных, и в результате оно может оказаться чрезмерно раздутым или чрезмерно
сдутым . "- Pagano and Gauvreau, (2000) Принципы биостатистики , 2-е изд. (P & G были под рукой, кстати, не выделяя их как таковые .)
Авторы определяют «центральную тенденцию» следующим образом: «Наиболее часто исследуемой характеристикой набора данных является его центр или точка, в которой наблюдения имеют тенденцию группироваться».
Это кажется мне менее чем прямым способом сказать, что используется только медиана, период , потому что только использование среднего значения, когда данные / распределения симметричны, - это то же самое, что сказать, использовать только среднее значение, когда оно равно медиане. Изменить: что справедливо указывает на то, что я объединяю надежные меры центральной тенденции с медианой. Поэтому важно иметь в виду, что я обсуждаю конкретное обрамление среднего арифметического и медианы во вводной прикладной статистике (где, если не считать, другие показатели центральной тенденции не мотивированы).
Вместо того, чтобы судить о полезности среднего по тому, насколько оно отличается от поведения медианы, не должны ли мы просто понимать это как две разные меры центральности? Другими словами, чувствительность к асимметрии является характерной чертой. С таким же успехом можно утверждать, что «медиана не годится, потому что она в значительной степени нечувствительна к асимметрии, поэтому используйте ее только тогда, когда она равна среднему».
(Режим довольно разумно не связывается с этим вопросом.)
Ответы:
Я не согласен с советом, как с категорическим правилом. (Это не общее для всех книг.)
Проблемы более тонкие.
Если вы на самом деле заинтересованы в том, чтобы делать выводы о среднем по населению, то выборочное среднее по крайней мере является его объективной оценкой и имеет ряд других преимуществ. На самом деле, см. Теорему Гаусса-Маркова - это лучшая линейная несмещенность.
Если ваши переменные сильно искажены, проблема связана с «линейным» - в некоторых ситуациях все линейные оценки могут быть плохими, поэтому лучшие из них могут все еще быть непривлекательными, поэтому оценка среднего значения, которое является нелинейным, может быть лучше , но для этого нужно знать кое-что (или даже много) о распределении. У нас не всегда такая роскошь.
Если вы не обязательно заинтересованы в выводе, относящемся к значению населения (« какой типичный возраст? », Скажите, или есть более общий сдвиг местоположения от одного населения к другому, который может быть сформулирован с точки зрения любого местоположения, или даже тест одной переменной (стохастически больше, чем другой), а затем приведение этого значения в терминах среднего значения по населению либо не нужно, либо, вероятно, контрпродуктивно (в последнем случае).
Поэтому я думаю, что все сводится к тому, чтобы
какие у тебя реальные вопросы? Означает ли население, что в такой ситуации вообще стоит спросить?
Как лучше всего ответить на вопрос в данной ситуации (в данном случае асимметрия)? Является ли использование выборки лучшим способом ответить на интересующие нас вопросы?
Может случиться так, что у вас есть вопросы не напрямую о средствах населения, но, тем не менее, выборочные средства - хороший способ взглянуть на эти вопросы ... или наоборот - вопрос может быть о средствах населения, но выборочные средства могут быть не лучшим способом ответь на этот вопрос
источник
В реальной жизни мы должны выбирать меру центральной тенденции, основанную на том, что мы пытаемся выяснить; и да, иногда режим - это то, что нужно. Иногда это Winsorized или подстриженное среднее. Иногда геометрическое или гармоническое среднее. Иногда нет хорошей меры центральной тенденции.
Вступительные книги написаны плохо, они учат, что есть правила поваренной книги, которые нужно применять.
Бери доход. Это часто очень искажено и иногда имеет выбросы; Конечно, мы обычно видим «средний доход». Но иногда выбросы и асимметрия важны. Это зависит от контекста и требует обдумывания.
Я написал больше об этом
источник
Даже когда данные искажены (например, расходы на здравоохранение рассчитаны параллельно с клиническим испытанием, когда немногие пациенты составили нулевую стоимость, потому что они умирают сразу после зачисления, и немногие пациенты накопили тонны стоимости из-за побочных эффектов данной исследуемой программы здравоохранения ) среднее значение может быть предпочтительнее медианного по крайней мере по одной практической причине: умножение средней стоимости на количество пациентов дает лицам, принимающим решения в области здравоохранения, влияние на бюджет изучаемой технологии здравоохранения.
источник
Я думаю, что то, что отсутствует в этом вопросе, а также в обоих ответах, так это то, что обсуждение среднего значения по медиане в книгах по вводной статистике обычно происходит в начале главы о том, как численно обобщить распределение. В отличие от логической статистики, обычно речь идет о создании описательной статистики, которая была бы полезна для числовой передачи информации о распределении данных, а не графически. Контекст, в котором это возникает, представляет собой раздел описательной статистики отчета или журнальной статьи, в котором обычно нет места для графических сводок всех переменных в вашем наборе данных. Если распределение искажено, в этом контексте представляется разумным выбирать медиану над средним. Если распределение симметрично без выбросов,
источник