Я читал во многих местах, что вычисление среднего значения порядковой переменной неуместно. Я пытаюсь понять, почему это может быть неуместно. Я думаю, это потому, что, как правило, порядковая переменная обычно не распределяется, и поэтому вычисление среднего значения даст неточное представление. Может ли кто-нибудь дать более подробное обоснование того, почему вычисление среднего значения порядковой переменной может быть неуместным?
mean
ordinal-data
Лучиано
источник
источник
Ответы:
Короткий ответ, что это спорно. Вопреки совету, который вы упоминаете, люди во многих областях используют порядковые шкалы и часто счастливы, что делают то, что они хотят. Средний балл или эквивалент во многих образовательных системах являются одним из примеров.
Однако порядковые данные, которые обычно не распределяются, не являются веской причиной, поскольку среднее значение
широко используется для ненормальных распределений
математически четко определено для очень многих ненормальных распределений, за исключением некоторых патологических случаев.
Возможно, не стоит использовать среднее значение на практике, если данные точно не распределены нормально, но это не так.
Более сильная причина не использовать среднее с порядковыми данными состоит в том, что его значение зависит от соглашений по кодированию. Числовые коды, такие как 1, 2, 3, 4, обычно просто выбираются для простоты или удобства, но в принципе они также могут быть равны 1, 23, 456, 7890, насколько они соответствуют определенному порядку. В любом случае взятие среднего означало бы буквальное восприятие этих условных обозначений (а именно, как если бы цифры были не произвольными, а оправданными), и для этого нет строгих оснований. Вам нужна интервальная шкала, в которой равные различия между значениями могут быть приняты буквально, чтобы оправдать принятие средств. Это я считаю главным аргументом, но, как уже указывалось, люди часто игнорируют его и сознательно, потому что они находят средства полезными, что бы ни говорили теоретики измерения.
Вот дополнительный пример. Часто людей просят выбрать один из «категорически не согласен» ... «полностью согласен» и (в зависимости отчасти от того, что хочет программное обеспечение), исследователи кодируют это как 1 .. 5 или 0 .. 4 или как они хотят, или объявляют его в качестве упорядоченного фактора (или любого другого термина, используемого программным обеспечением). Здесь кодирование произвольно и скрыто от людей, которые отвечают на вопрос.
Но часто также люди спрашивают (скажем) по шкале от 1 до 5, как вы оцениваете что-то? Примеров предостаточно: сайты, спорт, другие виды соревнований и даже образование. Здесь людям показывают шкалу и просят ее использовать. Широко известно, что нецелые числа имеют смысл, но вам просто разрешают использовать целые числа как соглашение. Это порядковая шкала? Некоторые говорят да, некоторые говорят нет. Иначе говоря, часть проблемы заключается в том, что порядковый масштаб сам по себе является нечеткой или обсуждаемой областью.
Снова рассмотрите оценки за академическую работу, скажем, от E до A. Часто такие оценки также обрабатываются численно, например, от 1 до 5, и обычно люди вычисляют средние значения для учащихся, курсов, школ и т. Д. И проводят дальнейший анализ таких данных. Хотя остается верным, что любое сопоставление с числовыми оценками является произвольным, но приемлемым, если оно сохраняет порядок, тем не менее на практике люди, присваивающие и получающие оценки, знают, что оценки имеют числовые эквиваленты, и знают, что оценки будут усреднены .
Одной из прагматических причин использования средств является то, что медианы и способы часто являются плохим обобщением информации в данных. Предположим, у вас есть шкала от абсолютно не согласного до полностью согласного, и для удобства кодируйте эти пункты 1-5. Теперь представьте один пример, закодированный 1, 1, 2, 2, 2 и еще 1, 2, 2, 4, 5. Теперь поднимите ваши руки, если вы думаете, что медиана и мода являются единственными оправданными резюме, потому что это порядковая шкала. Теперь поднимите руки, если вы найдете среднее значение полезным, независимо от того, правильно ли определены суммы и т. Д.
Естественно, среднее значение будет представлять собой гиперчувствительную сводку, если бы коды представляли собой квадраты или кубы, скажем, от 1 до 5, а это может быть не то, что вы хотите. (Если ваша цель состоит в том, чтобы быстро идентифицировать старшие листы, это может быть именно тем, что вам нужно!) Но именно поэтому обычное кодирование с последовательными целочисленными кодами является практическим выбором, поскольку на практике оно часто работает довольно хорошо. Это не тот аргумент, который имеет какое-либо значение для теоретиков измерений, и не должен этого делать, но аналитики данных должны быть заинтересованы в составлении резюме, насыщенного информацией.
Я согласен со всеми, кто говорит: используйте все распределение частот оценок, но это не главное.
источник
Предположим, мы берем порядковые значения, например, 1 для полностью не согласен, 2 для не согласен, 3 для согласен и 4 для полностью согласен. Если четыре человека дадут ответы 1, 2, 3 и 4, то что будет означать? Это (1 + 2 + 3 + 4) /4=2.50.
Как это должно быть истолковано, когда средний ответ из четырех человек «не согласен или согласен»? Вот почему мы не должны использовать среднее для порядковых данных.
источник
Я полностью согласен с @Azeem. Но просто чтобы прояснить этот вопрос, позвольте мне остановиться подробнее.
Допустим, у вас есть порядковые данные, как в примере из @Azeem, где ваша шкала варьируется от 1 до 4. И, скажем, у вас есть пара людей, которые что-то оценивают (например, Ice Cream) по этой шкале. Представьте, что вы получите следующие результаты:
Когда вы хотите интерпретировать результаты, вы можете заключить что-то в такой степени:
Однако вы ничего не знаете о интервалах между рейтингами. Разница между 1 и 2 такая же, как между 3 и 4? Означает ли оценка 4 действительно, что человек любит мороженое в 4 раза больше, чем тот, кто оценивает его как 1? И так далее ... Когда вы вычисляете среднее арифметическое, вы относитесь к числам, как будто различия между ними равны. Но это довольно сильное предположение с порядковыми данными, и вам придется его обосновать.
источник
Я согласен с концепцией, согласно которой среднее арифметическое не может быть действительно обосновано данными порядкового масштаба. Вместо вычисления среднего мы можем использовать моду или медиану в таких ситуациях, которые могут дать нам более осмысленную интерпретацию наших результатов.
источник