Рассчитать среднее по порядковой переменной

20

Я читал во многих местах, что вычисление среднего значения порядковой переменной неуместно. Я пытаюсь понять, почему это может быть неуместно. Я думаю, это потому, что, как правило, порядковая переменная обычно не распределяется, и поэтому вычисление среднего значения даст неточное представление. Может ли кто-нибудь дать более подробное обоснование того, почему вычисление среднего значения порядковой переменной может быть неуместным?

Лучиано
источник
8
Чтобы рассчитать среднее значение, вам сначала нужна сумма. Чтобы сумма была значимой, нужно, чтобы 4 + 2 было таким же, как 3 + 3; эквивалентно, вам нужно 4-3 = 3-2 = 2-1. С порядковыми данными - даже когда их категории обозначены как «1», «2», «3», «4» - это (совершенно явно) не обязательно так.
Glen_b
И почему медиана была бы более подходящей, чем среднее арифметическое?

Ответы:

24

Короткий ответ, что это спорно. Вопреки совету, который вы упоминаете, люди во многих областях используют порядковые шкалы и часто счастливы, что делают то, что они хотят. Средний балл или эквивалент во многих образовательных системах являются одним из примеров.

Однако порядковые данные, которые обычно не распределяются, не являются веской причиной, поскольку среднее значение

  • широко используется для ненормальных распределений

  • математически четко определено для очень многих ненормальных распределений, за исключением некоторых патологических случаев.

Возможно, не стоит использовать среднее значение на практике, если данные точно не распределены нормально, но это не так.

Более сильная причина не использовать среднее с порядковыми данными состоит в том, что его значение зависит от соглашений по кодированию. Числовые коды, такие как 1, 2, 3, 4, обычно просто выбираются для простоты или удобства, но в принципе они также могут быть равны 1, 23, 456, 7890, насколько они соответствуют определенному порядку. В любом случае взятие среднего означало бы буквальное восприятие этих условных обозначений (а именно, как если бы цифры были не произвольными, а оправданными), и для этого нет строгих оснований. Вам нужна интервальная шкала, в которой равные различия между значениями могут быть приняты буквально, чтобы оправдать принятие средств. Это я считаю главным аргументом, но, как уже указывалось, люди часто игнорируют его и сознательно, потому что они находят средства полезными, что бы ни говорили теоретики измерения.

Вот дополнительный пример. Часто людей просят выбрать один из «категорически не согласен» ... «полностью согласен» и (в зависимости отчасти от того, что хочет программное обеспечение), исследователи кодируют это как 1 .. 5 или 0 .. 4 или как они хотят, или объявляют его в качестве упорядоченного фактора (или любого другого термина, используемого программным обеспечением). Здесь кодирование произвольно и скрыто от людей, которые отвечают на вопрос.

Но часто также люди спрашивают (скажем) по шкале от 1 до 5, как вы оцениваете что-то? Примеров предостаточно: сайты, спорт, другие виды соревнований и даже образование. Здесь людям показывают шкалу и просят ее использовать. Широко известно, что нецелые числа имеют смысл, но вам просто разрешают использовать целые числа как соглашение. Это порядковая шкала? Некоторые говорят да, некоторые говорят нет. Иначе говоря, часть проблемы заключается в том, что порядковый масштаб сам по себе является нечеткой или обсуждаемой областью.

Снова рассмотрите оценки за академическую работу, скажем, от E до A. Часто такие оценки также обрабатываются численно, например, от 1 до 5, и обычно люди вычисляют средние значения для учащихся, курсов, школ и т. Д. И проводят дальнейший анализ таких данных. Хотя остается верным, что любое сопоставление с числовыми оценками является произвольным, но приемлемым, если оно сохраняет порядок, тем не менее на практике люди, присваивающие и получающие оценки, знают, что оценки имеют числовые эквиваленты, и знают, что оценки будут усреднены .

Одной из прагматических причин использования средств является то, что медианы и способы часто являются плохим обобщением информации в данных. Предположим, у вас есть шкала от абсолютно не согласного до полностью согласного, и для удобства кодируйте эти пункты 1-5. Теперь представьте один пример, закодированный 1, 1, 2, 2, 2 и еще 1, 2, 2, 4, 5. Теперь поднимите ваши руки, если вы думаете, что медиана и мода являются единственными оправданными резюме, потому что это порядковая шкала. Теперь поднимите руки, если вы найдете среднее значение полезным, независимо от того, правильно ли определены суммы и т. Д.

Естественно, среднее значение будет представлять собой гиперчувствительную сводку, если бы коды представляли собой квадраты или кубы, скажем, от 1 до 5, а это может быть не то, что вы хотите. (Если ваша цель состоит в том, чтобы быстро идентифицировать старшие листы, это может быть именно тем, что вам нужно!) Но именно поэтому обычное кодирование с последовательными целочисленными кодами является практическим выбором, поскольку на практике оно часто работает довольно хорошо. Это не тот аргумент, который имеет какое-либо значение для теоретиков измерений, и не должен этого делать, но аналитики данных должны быть заинтересованы в составлении резюме, насыщенного информацией.

Я согласен со всеми, кто говорит: используйте все распределение частот оценок, но это не главное.

Ник Кокс
источник
1
Хороший ответ и прагматизм важны, но я бы добавил одну предостережение. Хорошей причиной для использования только формально установленных методов является то, что вы получаете доступ к оценкам достоверности и т. Д. Например, если у нас есть два GPA, скажем, 4.53 и 4.34, мы можем захотеть узнать, «один» «значительно» лучше другого. Но из-за отсутствия формальности в усреднении оценок мы не получаем такие вещи, как доверительные интервалы и т. Д.
Стивен МакАтир
1
@StephenMcAteer Я понимаю вашу точку зрения с точки зрения методов, которые преподаются в типичном вводном тексте или курсе. Но если бы это было желание, начальная загрузка предоставила технологию, позволяющую доверительные интервалы в течение почти 40 лет.
Ник Кокс
3

Предположим, мы берем порядковые значения, например, 1 для полностью не согласен, 2 для не согласен, 3 для согласен и 4 для полностью согласен. Если четыре человека дадут ответы 1, 2, 3 и 4, то что будет означать? Это (1 + 2 + 3 + 4) /4=2.50.

Как это должно быть истолковано, когда средний ответ из четырех человек «не согласен или согласен»? Вот почему мы не должны использовать среднее для порядковых данных.

Saan
источник
3
Немного играя адвоката дьявола, в этом примере я бы интерпретировал 2.5 как середину между 2, «не согласен», и 3, «согласен». Это имеет смысл в среднем, учитывая, что мы «категорически не согласны» против «полностью согласны» и «не согласны» против «согласны».
TooTone
1
Согласитесь, среднее значение 2,5 в этом контексте все еще имеет смысл для меня - на полпути между не согласен и согласен, или, другими словами, нейтральным.
Лучано
3
Я думаю, что Азим нуждается в более сильном примере. Вы можете возражать против 2,5 как среднего значения 1, 2, 3, 4 детей на семью на тех же основаниях, как это следует интерпретировать, поскольку оно не является одним из определенных значений. Это поднимает разные вопросы.
Ник Кокс
2
Я думаю, что вы можете усилить свой ответ, и я призываю вас сделать это. «потому что среднее значение может быть неопределенным значением» не является здесь сильным аргументом, логически или психологически, и не фокусируется на более глубокой проблеме того, действительно ли равные различия означают равные различия.
Ник Кокс
1
Я не знаю, как я могу сделать это более ясным, но (например) "0-4", "5-19", "20-114" упорядочены (порядковые) в том, что есть только один естественный порядок для этих измерений (если не считать разворота). Если вы хотите называть их и другими вещами, это нормально для меня.
Ник Кокс
2

Я полностью согласен с @Azeem. Но просто чтобы прояснить этот вопрос, позвольте мне остановиться подробнее.

Допустим, у вас есть порядковые данные, как в примере из @Azeem, где ваша шкала варьируется от 1 до 4. И, скажем, у вас есть пара людей, которые что-то оценивают (например, Ice Cream) по этой шкале. Представьте, что вы получите следующие результаты:

  • Человек А сказал 4
  • Человек Б сказал 3
  • Человек С сказал 1
  • Человек D сказал 2

Когда вы хотите интерпретировать результаты, вы можете заключить что-то в такой степени:

  • Человек А любил мороженое больше, чем человек Б
  • Человеку D понравилось Мороженое больше, чем Человеку C

Однако вы ничего не знаете о интервалах между рейтингами. Разница между 1 и 2 такая же, как между 3 и 4? Означает ли оценка 4 действительно, что человек любит мороженое в 4 раза больше, чем тот, кто оценивает его как 1? И так далее ... Когда вы вычисляете среднее арифметическое, вы относитесь к числам, как будто различия между ними равны. Но это довольно сильное предположение с порядковыми данными, и вам придется его обосновать.

Дженс Курос
источник
Я отредактировал ссылку на ответ выше. Ответы могут изменить порядок, и фактически ответ, который был выше, в данный момент ниже, и это может измениться. Так что перекрестные ссылки на плакаты, а не на позиции.
Ник Кокс
0

Я согласен с концепцией, согласно которой среднее арифметическое не может быть действительно обосновано данными порядкового масштаба. Вместо вычисления среднего мы можем использовать моду или медиану в таких ситуациях, которые могут дать нам более осмысленную интерпретацию наших результатов.

Аяз
источник
Это не решает вопрос, почему это может быть неуместным.
Ник Кокс