В книге Эвана Миллера « Как не сортировать по среднему рейтингу » предлагается использовать нижнюю границу доверительного интервала для получения разумного совокупного «балла» для оцениваемых предметов. Тем не менее, он работает с моделью Бернулли: рейтинги либо большие, либо большие.
Какой разумный доверительный интервал следует использовать для модели оценки, которая присваивает дискретный балл от до звезд, предполагая, что количество оценок для элемента может быть небольшим?
Я думаю, что я могу видеть, как адаптировать центр интервалов Уилсона и Агрести-Кулла как
где либо либо (возможно, лучше) это средний рейтинг по всем пунктам. Однако я не уверен, как адаптировать ширину интервала. Моя (пересмотренная) лучшая догадка будет
с , но я не могу оправдать себя чем-то большим, чем махать рукой в качестве аналогии Агрести-Кулла, принимая это за
Существуют ли стандартные доверительные интервалы, которые применяются? (Обратите внимание, что у меня нет подписок на какие-либо журналы или легкий доступ к университетской библиотеке; во что бы то ни стало, дайте соответствующие ссылки, но, пожалуйста, добавьте фактический результат!)
источник
Ответы:
Как сказал Карл Броман в своем ответе, байесовский подход, вероятно, будет намного лучше, чем использование доверительных интервалов.
Проблема с доверительными интервалами
Почему использование доверительных интервалов может не сработать? Одна из причин заключается в том, что если у вас мало оценок для элемента, тогда ваш доверительный интервал будет очень широким, поэтому нижняя граница доверительного интервала будет небольшой. Таким образом, товары без большого количества оценок окажутся в нижней части вашего списка.
Интуитивно, однако, вы, вероятно, хотите, чтобы элементы без большого количества оценок были близки к среднему элементу, поэтому вы хотите покачивать свой оценочный рейтинг этого элемента в сторону среднего рейтинга по всем элементам (то есть вы хотите подтолкнуть свой предполагаемый рейтинг к предыдущему ). , Это именно то, что делает байесовский подход.
Байесовский подход I: нормальное распределение по рейтингам
Один из способов приблизить оценочный рейтинг к предыдущему, как в ответе Карла, использовать оценку в виде :w∗R+(1−w)∗C
Эта оценка может фактически быть дана байесовской интерпретацией как апостериорная оценка средней оценки элемента, когда индивидуальные оценки получены из нормального распределения, сосредоточенного вокруг этого среднего значения.
Тем не менее, если предположить, что рейтинги исходят из нормального распределения, есть две проблемы:
Байесовский подход II: мультиномиальное распределение по рейтингам
Поэтому вместо того, чтобы предполагать нормальное распределение рейтингов, давайте предположим, что распределение многочленов . То есть, учитывая некоторый конкретный элемент, есть вероятность что случайный пользователь даст ему 1 звезду, вероятность что случайный пользователь даст ему 2 звезды, и так далее.p1 p2
Конечно, мы понятия не имеем, что это за вероятности. Поскольку мы получаем все больше и больше оценок для этого элемента, мы можем догадаться, что близко к , где - это количество пользователей, которые дали ему 1 звезду, а - общее количество пользователей, которые оценили предмет, но когда мы только начинаем, у нас ничего нет. Таким образом, мы помещаем Dirichlet prior в эти вероятности.p1 n1n n1 n Dir(α1,…,αk)
Что это за дирихле приор? Мы можем рассматривать каждый параметр как «виртуальный счетчик» числа раз, когда какой-то виртуальный человек давал элемент, звездочкой. Например, если , и все остальные равны 0, то мы можем думать об этом как о том, что два виртуальных человека дали звезду элемента 1, а один виртуальный человек дал элемент 2 звезды. Поэтому, прежде чем мы получим реальных пользователей, мы можем использовать этот виртуальный дистрибутив для оценки рейтинга элемента.αi i α1=2 α2=1 αi
[Одним из способов выбора параметров было бы установить равным общей доле голосов звезд. (Обратите внимание, что параметры не обязательно являются целыми числами.)]α i i α iαi αi i αi
Затем, как только появятся реальные рейтинги, просто добавьте их к виртуальным счетам вашего Dirichlet. Всякий раз, когда вы хотите оценить рейтинг вашего элемента, просто возьмите среднее значение по всем рейтингам элемента (как его виртуальные оценки, так и его фактические оценки).
источник
Такая ситуация требует байесовского подхода. Есть простые подходы к байесовскому ранжированию оценок здесь (выигрышных частности к комментариям, которые интересны) и здесь , а затем еще комментарии к этим здесь . Как один из комментариев в первой из этих ссылок указывает:
источник