Заранее спасибо за терпение, я не статистик и не знаю, как описать то, что я представляю, поэтому Google не помогает мне здесь ...
Я включил систему рейтинга в веб-приложение, над которым я работаю. Каждый пользователь может оценить каждый элемент ровно один раз.
Я представлял себе шкалу с 4 значениями: «сильно не любить», «не нравится», «нравится» и «сильно нравится», и я планировал назначить эти значения соответственно -5, -2, +2 и +5 ,
Теперь, если бы у каждого предмета было одинаковое количество оценок, то я бы чувствовал себя комфортно с этой системой подсчета очков, которая четко разграничивает наиболее понравившиеся и наименее понравившиеся предметы. Тем не менее, пункты не будут иметь одинаковое количество оценок, и несоответствие между количеством голосов на разных фотографиях может быть довольно драматичным.
В этом случае сравнение кумулятивных баллов по двум пунктам означает, что старый элемент с большим количеством посредственных оценок будет иметь гораздо более высокий балл, чем исключительный новый элемент с гораздо меньшим количеством голосов.
Итак, первое очевидное, что я подумал о том, чтобы мы взяли среднее ... но теперь, если у предмета есть только один рейтинг "+5", он имеет лучшее среднее значение, чем у предмета, который имеет рейтинг 99 "+5". и 1 "+2" рейтинг. Интуитивно понятно, что это не точное представление о популярности предмета.
Я полагаю, что эта проблема является распространенной, и вы, ребята, не нуждаетесь в том, чтобы я приводил ее с большим количеством примеров, поэтому я остановлюсь на этом и уточню комментарии в случае необходимости.
Мои вопросы:
- Как называется эта проблема, и есть ли термин для методов, используемых для ее решения? Я хотел бы знать это, чтобы я мог прочитать об этом.
- Если вам случится узнать о каких-либо дружественных ресурсах по этому вопросу, я бы очень признателен за ссылку.
- Наконец, я был бы признателен за любые другие предложения о том, как эффективно собирать и анализировать данные такого рода.
Я бы выбрал графический подход. Ось X может быть средней оценкой, а у - числом оценок. Я делал это со спортивной статистикой, чтобы сравнить вклад молодых феноменов с вкладом звезд-ветеранов. Чем ближе точка находится к верхнему правому углу, тем ближе к идеалу. Конечно, выбор «лучшего» пункта все равно будет субъективным решением, но это обеспечит некоторую структуру.
Если вы хотите построить среднюю оценку в сравнении с другой переменной, то вы можете установить число оценок в качестве третьей переменной, используя размер пузырька, на пузырьковом графике - например, в XL или SAS.
источник