Если у меня есть система звездного рейтинга, где пользователи могут выразить свое предпочтение продукту или товару, как я могу определить статистически, если голоса сильно «разделены». Значение, даже если среднее значение составляет 3 из 5, для данного продукта, как я могу определить, является ли это 1-5 разделением против консенсуса 3, используя только данные (без графических методов)
variance
average
dispersion
Дэвид Уильямс
источник
источник
Ответы:
Можно построить индекс поляризации; как именно он определяется, зависит от того, что представляет собой более поляризованный (то есть что именно вы имеете в виду, в определенных краевых случаях, более или менее поляризованный?):
Например, если среднее значение равно «4», будет ли 50-50 деление между «3» и «5» больше или менее поляризовано, чем 25% «1» и 75% «5»?
В любом случае, при отсутствии такого конкретного определения того, что вы имеете в виду, я предложу меру, основанную на дисперсии:
Учитывая конкретное среднее значение, определите наиболее поляризованное возможное расщепление как максимизирующее дисперсию *.
* (Примечание: 25% «1» и 75% «5» - это существенно более поляризованы, чем 50-50 «3» и «5»; если это не соответствует вашей интуиции, не используйте дисперсию)
Таким образом, этот индекс поляризации является пропорцией максимально возможной дисперсии ( с наблюдаемым средним ) в наблюдаемой дисперсии.
Назовите средний рейтинг ( m = ˉ x ).m m=x¯
Максимальная дисперсия возникает при пропорции в5и1-рв1; это имеет дисперсию (m-1)(5-m)⋅nр = м - 14 5 1 - р 1 .(m−1)(5−m)⋅nn−1
Так что просто возьмите выборочную дисперсию и разделите на ; это дает число между0(полное согласие) и1(полностью поляризованное).(m−1)(5−m)⋅nn−1 0 1
Для ряда случаев, когда средний рейтинг равен 4, это даст следующее:
Вместо этого вы можете предпочесть не вычислять их относительно максимально возможной дисперсии с тем же средним значением, а вместо этого в процентах от максимально возможной дисперсии для любого среднего рейтинга . Это будет включать деление вместо , и снова дает значение между 0 (идеальное согласие) и4 ⋅ нN - 1 (поляризовано в крайних значениях в соотношении 50-50). Это даст те же релятивности, что и на диаграмме выше, но все значения будут на 3/4 больше (то есть слева направо, сверху вниз они будут 0, 16,5%, 25%, 25%, 50 % и 75%).1
Любой из этих двух вариантов является вполне допустимым, как и любой другой ряд альтернативных способов построения такого индекса.
источник
m = 1
вы получите1 - 1 = 0
и0 / 0
. Как вы исправляете это?«Нет графических методов» - это большой недостаток, но ... вот пара странных идей. Оба рассматривают рейтинги как непрерывные, что является чем-то вроде концептуальной слабости и, вероятно, не единственным ...
эксцесс
Отрицательная биноминальная регрессия
С кадром данных следующим образом: Пригодное модель Р т е д у й п с у ~ Р т я н г + √
FWIW, вот т код , который я играл с:
Не могу устоять перед броском в сюжет ...
Редактировать: только что увидел этот вопрос, рекламируемый на боковой панели: и когда я нажал, я увидел его в Hot Network Questions, ссылающихся обратно на себя, как это иногда бывает ,
поэтому я подумал, что это заслуживает повторного рассмотрения в более общем смысле. Я решил попробовать свои методы в обзорах клиентов Amazon для футболки The Mountain Three Wolf Moon с коротким рукавом :
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))
источник
источник
Я сомневаюсь, что могу добавить что-то ценное к умным ответам, которые уже даны. В частности, к прекрасной идее @ Glen_b оценить, насколько наблюдаемая дисперсия относительно близка к максимально возможной дисперсии при наблюдаемом среднем значении. Вместо этого мое прямое и прямолинейное предложение касается некоторой надежной меры дисперсии, основанной не на отклонениях от некоторого центра, а непосредственно на расстояниях между точками данных.
Вычислить попарные расстояния (абсолютные различия) между всеми точками данных. Выбыватьdя я zero distances. Compute a central tendency in the distribution of the distances (the choice is yours; it may be, for example, mean, median, or Hodges-Lehmann centre).
Как видите, эти 3 статистики могут сильно отличаться как меры «поляризации» (если бы я измерял «разногласия», а не биполярную конфронтацию, я бы, вероятно, выбрал HL). Выбор ваш. Одно понятие: если вы вычисляете квадратные расстояния, их среднее значение будет напрямую связано с обычной дисперсией в данных (и поэтому вы получите предложение @ Duncan для вычисления дисперсии). Вычисление расстояний не будет слишком сложным даже при большихN здесь, потому что шкала оценки является конкретной и с относительно небольшим количеством оценок, поэтому алгоритм частотного взвешивания для вычисления расстояний предлагает себя естественным образом.
источник
Как насчет того, если 3-звездочный рейтинг меньше среднего из 5 и 4, а также меньше среднего 1 и 2:
Я не могу вспомнить ни одной ситуации, в которой это не сработало бы. Используя приведенный выше пример: отзывы покупателей Amazon о футболке The Mountain Three Wolf Moon с коротким рукавом :
В таком случае:
Это пройдет испытание и будет считаться раздельным мнением.
источник
Я думаю, что вы ищете стандартное отклонение:
Я не знаю, что это за язык программирования, но вот метод Java, который даст вам стандартное отклонение:
источник