Оцените систему оценок, чтобы отдавать предпочтение предметам, оцененным большим количеством людей, по сравнению с предметами, оцененными меньшим количеством людей?

9

Заранее спасибо за терпение, я не статистик и не знаю, как описать то, что я представляю, поэтому Google не помогает мне здесь ...

Я включил систему рейтинга в веб-приложение, над которым я работаю. Каждый пользователь может оценить каждый элемент ровно один раз.

Я представлял себе шкалу с 4 значениями: «сильно не любить», «не нравится», «нравится» и «сильно нравится», и я планировал назначить эти значения соответственно -5, -2, +2 и +5 ,

Теперь, если бы у каждого предмета было одинаковое количество оценок, то я бы чувствовал себя комфортно с этой системой подсчета очков, которая четко разграничивает наиболее понравившиеся и наименее понравившиеся предметы. Тем не менее, пункты не будут иметь одинаковое количество оценок, и несоответствие между количеством голосов на разных фотографиях может быть довольно драматичным.

В этом случае сравнение кумулятивных баллов по двум пунктам означает, что старый элемент с большим количеством посредственных оценок будет иметь гораздо более высокий балл, чем исключительный новый элемент с гораздо меньшим количеством голосов.

Итак, первое очевидное, что я подумал о том, чтобы мы взяли среднее ... но теперь, если у предмета есть только один рейтинг "+5", он имеет лучшее среднее значение, чем у предмета, который имеет рейтинг 99 "+5". и 1 "+2" рейтинг. Интуитивно понятно, что это не точное представление о популярности предмета.

Я полагаю, что эта проблема является распространенной, и вы, ребята, не нуждаетесь в том, чтобы я приводил ее с большим количеством примеров, поэтому я остановлюсь на этом и уточню комментарии в случае необходимости.

Мои вопросы:

  1. Как называется эта проблема, и есть ли термин для методов, используемых для ее решения? Я хотел бы знать это, чтобы я мог прочитать об этом.
  2. Если вам случится узнать о каких-либо дружественных ресурсах по этому вопросу, я бы очень признателен за ссылку.
  3. Наконец, я был бы признателен за любые другие предложения о том, как эффективно собирать и анализировать данные такого рода.
Эндрю
источник

Ответы:

14

Один из способов борьбы с этим - использовать пропорции в каждой категории, при этом вам не нужно вводить цифры для каждой категории (вы можете оставить это значение на уровне 80% как «сильно любит»). Однако пропорции страдают от небольшого количества рейтингов . Это показывает, что в вашем примере Фотография с оценкой 1 +5 получит более высокий средний балл (и пропорцию), чем фотография с оценкой 99 +5 и 1 +2. Это не вписывается в мою интуицию (и я подозреваю, что большинство людей).

Один из способов обойти эту проблему небольшого размера выборки - использовать байесовский метод, известный как « правило наследования Лапласа » (поиск этого термина может быть полезен). Это просто включает добавление 1 «наблюдения» к каждой категории перед вычислением вероятностей. Если вы хотите взять среднее значение для числового значения, я бы предложил средневзвешенное значение, где веса - это вероятности, рассчитанные по правилу наследования.

nsd,nd,nl,nslnsl=1,nsd=nd=nl=0nsl=99,nl=1,nsd=nd=0

Pr("Strongly Like")=nsl+1nsd+nd+nl+nsl+4

1+11+0+0+0+4=2599+199+1+0+0+4=1001041199100

Соответствующие оценки даны как средневзвешенное значение, которое я записал ниже как:

Score=5nsl+1nsd+nd+nl+nsl+4+2nl+1nsd+nd+nl+nsl+42nd+1nsd+nd+nl+nsl+45nsd+1nsd+nd+nl+nsl+4

Или более кратко, как

Score=5nsl+2nl2nd5nsdnsd+nd+nl+nsl+4

55=14971044.8

Это может быть немного "математически", поэтому дайте мне знать, если вам нужно больше объяснений.

probabilityislogic
источник
Это было немного "математически" для меня, и изначально я не понимал формулу, но я внимательно прочитал ее примерно три раза, и она щелкнула! Это именно то , что я искал, и ваше объяснение было очень ясным, даже для кого-то, кто вообще не является математиком или статистиком. Большое спасибо!
Андрей
2
Очень хороший нетехнический ответ и подход, о котором я бы не подумал. Я бы только добавил, что в каждую категорию можно добавить любое количество фальшивых «наблюдений» вместо 1, включая нецелые числа. Это дает вам гибкость, чтобы решить, насколько вы хотите «сжать» до нуля баллов пунктов с несколькими голосами. И если вам захочется получить технически обоснованное описание этого метода, вы можете сказать, что вы выполняете байесовский анализ данных из полиномиального распределения с использованием симметричного предварительного дирихле.
остановка
1
Хотя они могут показаться «поддельными» наблюдениями, они имеют четко определенное значение, когда оно равно +1 (в отличие от +2 или выше, которые на самом деле являются «поддельными» числами или числами из предыдущего сбора данных). Это в основном описывает состояние знаний , что это возможно для каждой категории, голосования за, до для соблюдения каких - либо данных. Это именно то, что делает плоский априор (N-1) симплекса.
вероятностная
Еще одно наблюдение для будущих людей, которые найдут этот пост: при реализации этого в моей модели я взял окончательный результат и умножил его на 20, что дает диапазон от -100 до 100 от худшего до наилучшего возможного результата (хотя я полагаю, что технически это пределы, которые вы никогда не сможете достичь, но вы поняли). Это делает вывод для пользователей в моем приложении очень интуитивным!
Андрей
@probabilityislogic: несомненно, какие-либо строго положительные параметры для предварительного Дирихле описывают, что все вероятности строго между 0 и 1? И этот аргумент предлагает установить для них значение 2 / m, где m - это количество категорий, а не 1: en.wikipedia.org/wiki/…
onestop
2

Я бы выбрал графический подход. Ось X может быть средней оценкой, а у - числом оценок. Я делал это со спортивной статистикой, чтобы сравнить вклад молодых феноменов с вкладом звезд-ветеранов. Чем ближе точка находится к верхнему правому углу, тем ближе к идеалу. Конечно, выбор «лучшего» пункта все равно будет субъективным решением, но это обеспечит некоторую структуру.

Если вы хотите построить среднюю оценку в сравнении с другой переменной, то вы можете установить число оценок в качестве третьей переменной, используя размер пузырька, на пузырьковом графике - например, в XL или SAS.

rolando2
источник